이른바 빅데이터의 시대다. 최근 들어 빅데이터가 주목 받는 가장 큰 이유 중 하나는 빅데이터로부터 과거에는 발견하기 어려웠던 가치 창출이 가능한 만큼 관련 기술이 성숙되었기 때문이다.
빅데이터 플랫폼은 이러한 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 기술 환경이다. 기업들은 빅데이터 플랫폼을 사용하여 빅데이터를 수집하고 저장, 관리하며 처리할 수 있다. 빅데이터 플랫폼은 빅데이터를 분석하거나 홗용하기 위해 필요핚 필수 인프라(Infrastructure)인 셈이다.
오픈소스 하둡(Hadoop)이 빅데이터 플랫폼의 핵심 기술이자 사실상 표준으로 자리매김했으나, 하둡에는 몇 가지 핚계가 졲재핚다. 핚계를 극복하기 위해 빅데이터 플랫폼은 실시간 데이터 처리, 다양핚 방법의 분산병렬 처리 및 관계형 데이터 모델 지원 등의 방향으로 진화하고 있다
“실시갂 데이터 처리”는 빠르게 생산, 소비되는 빅데이터를 빠짐없이 즉각적으로 활용, 분석할 수 있도록 하며, “다양핚 분산병렬 처리 방법”은 대규모의 관계도 분석 및 병렬 연산 등을 가능케 한다.
또한 “관계형 데이터 모델 지원”은 기존 데이터베이스 기술로는 실현하기 어려웠던 빅데이터 규모의 관계형 데이터베이스 구축을 가능하도록 하여 빅데이터 플랫폼을 일반적인 목적의 업무 시스템에 까지 확장, 적용할 수 있도록 발전하고 있다.
하지만 이와 같은 새로욲 빅데이터 플랫폼은 오픈소스 하둡 2.0 의 발전을 중심으로 서서히 진화하고 있으며, 하둡 2.0 은 아직 개발 중에 있다. 이에 새로운 빅데이터 플랫폼을 적용하기 전에 기존 빅데이터 플랫폼의 한계를 명확히 파악해야 시행착오를 줄일 수 있고, 이를 보완할 새로운 빅데이터 플랫폼의 도입 목적과 적용 영역을 구체화할 수가 있다. 새로운 빅데이터 플랫폼은 그 규모와 기능이 성장핚 맊큼 시범사례 등으로 더욱 철저한 대비가 필요하다.
▲ 분산 처리 기술 비교 (출처 LG CNS)
◆ 기존 빅데이터 플랫폼의 한계 파악하여 시행착오 방지해야
빅데이터 플랫폼 도입 시 기존 플랫폼의 한계를 파악하여 업무 구현에 제약을 초래하는지 검토 필요하다.
기능, 비기능적인 요구사항 별로 현재 빅데이터 플랫폼의 한계를 인식하고 이에 대한 검증이 필요하다는 지적이다. 빅데이터 플랫폼은 새로운 기술이고 전문가와 전문업체가 부족한 단계인 맊큼 도입 목적에 부합하는지 철저하게 개념증명(PoC, Proof of Concept) 및 테스트 필요할 수 밖에 없다.
작은 파일들의 관리나 실시간 처리와 같이 간과하기 쉬운 기능적 한계와 마스터 서버 이중화 미비에 대한 이해 필수다.
과도한 빅데이터 기술 중심적 문제 해결 지양해야 한다. 기존 데이터베이스 기술로 해결할 수 있는 사항에 빅데이터 플랫폼을 과잉 적용하지 않도록 유의해야 한다는 지적이다.
상용 플랫폼 또는 상용 서비스 도입 고려해야 한다. 현재 빅데이터 플랫폼은 오픈소스 하둡의 핚계를 그대로 계승하나 최근에 이러핚 핚계를 일부 극복핚 상용 빅데이터 플랫폼이 출시되었다. 하둡은 오픈소스인 만큼 누구나 사용 가능하고 해당 기술을 습득할 수 있으나 빠르게 진화하고 높은 기술 난이도 때문에 상용 서비스 및 전문 업체의 활용을 고려한다.
▲ 하둡 에코시스템 현황 (출처 LG CNS)
◆ 빅데이터 플랫폼의 진화 방향
구글은 빅데이터 플랫폼의 청사진은?
구글이 발표한 빅데이터 플랫폼 기술 논문에 기초해서 오픈소스 하둡 프로젝트 시작했다.
구글이 대용량 웹 데이터 검색을 비용 효율적으로 분산 처리하기 위해 고안한 분산파일 시스템(GFS, Google File System)과 MapReduce 를
각각 2003 년과 2004 년에 논문으로 발표했다.
오픈소스 검색엔진3 개발자인 더그 커팅4이 구글 논문을 기초로 해서 구글 빅데이터 플랫폼의 오픈소스 버젂인 하둡을 2004 년부터 개발을 시작했다. 구글은 오픈소스 빅데이터 플랫폼인 하둡의 지향점이자 청사진이다.
구글은 지속적으로 빅데이터와 관련된 자사의 기술과 노하우를 논문으로 발표하고 오픈소스 개발자들은 이를 바탕으로 하둡을 업그레이드하거나 새로운 하둡 에코시스템을 개발한다.
하둡 창시자 더그 커팅은 “구글이 우리에게 방향을 제시했다. 구글은 그들의 GFS 와 MapReduce 논문을 발표하기 시작했고, 우리는 재빠르게 그것을 하둡 프로젝트에 복제했다. 몇 년 동안 구글은 오픈소스 진영에 영감을 준 많은 방법들을 발표했다”고 밝혔다.
▲ 하둡 구성도 (출처 LG CNS)
◆ 분산처리 기술 비교
다양한 분산병렬 처리 방법 제공으로 단일한 빅데이터 처리 방식 개선이 필요하다. 기존 MapReduce 로 처리하기 어려운 그래프 연산, 수학 연산을 지원하여 다양한 빅데이터 처리 가능하다.
MapReduce 는 분할 병렬과 그 결과의 합산 방식이기 때문에 꼭지점(Vertex)와 선(Edge)을 처리하는 그래프 연산과 조건을 충족할 때 까지 특정 데이터 처리를 반복하는 순환 연산에 비효율적이다.
BSP(Bulk Synchronous Parallel) 기반의 병렬 그래프 연산과 순환연산에 MPI(Message Passing Interface) 방식의 병렬 처리 지원으로
MapReduce 의 데이터 처리 방식 보완한다.
소셜 네트워크 관계 분석, 웹 페이지 링크 분석 등에 그래프 연산 적용, 대규모 계산 및 일반적인 고속 병렬 연산에 MPI 적용한다. 구글은 웹 검색 순위를 평가하기 위해 웹 페이지 링크 분석에 기반한다. PageRank6 알고리즘을 사용하며, 매일 1 조가 넘는 웹 페이지 관계를
분석하기 위해 그래프 연산 수행한다.
MapReduce 외 그래프 및 MPI 등 다양한 데이터 처리 라이브러리를 지원하도록 보편적 분산병렬 프레임워크로 진화했다.
▲ 빅데이터 플랫폼의 한계와 진화방향 (출처 LG CNS)
◆ 관계형 데이터 모델로 빅데이터 기술 적용 확대
관계형 데이터 모델과 대규모 업무 트랜잭션 지원으로 빅데이터 기술 적용 영역 확대되고 있는 추세다.
관계형 데이터베이스에 NoSQL10의 확장성과 고성능 기능을 부여하여 빅데이터의 저장, 트랜잭션 및 SQL 처리 가능하다. 기존 빅데이터 플랫폼에서 주요하게 채용된 NoSQL 은 분산처리와 확장성이 뛰어나지맊 스키마와 관계형 데이터 모델이 지원되지 않는 데이터베이스를 말한다.
일반적 목적의 트랜잭션 처리나 관계형 데이터 모델이 가능하면서도 빅데이터를 처리핛 수 있도록 보완한 NewSQL 등장했다. 기존 관계형 데이터베이스나 NoSQL 이 처리 하지 못 하는 빅데이터 관리 업무에 적용 가능하다.
구글은 광고 데이터 관리와 내부적으로 사용하던 관계형 데이터베이스를 대체하고자 자체 개발핚 NewSQL 인 Spanner 를 적용했다.
분산된 데이터베이스들을 절대 시간 기준으로 동기화하여 동시성을 제어하고 분산 트랜잭션 및 두 단계 커미트(two-phase commit) 제공한다.
구글의 Spanner 는 GPS 와 원자시계(Atomic clock)를 동원하여 절대시각을 측정하고, 각 분산 트랜잭션별 발생 시간(timestamp)을 공유,
동기화하여 데이터 읽고, 쓰기 동시성 제어한다.
◆ 빅데이터 플랫폼의 진화 방향을 인식하고 대비해야
빅데이터 플랫폼은 실시간 처리 속도, 처리 방식의 다양화, 관계형 데이터 모델 지원 등의 방향으로 진화하는 추세다. 일괄 처리에 의한 결과 대기가 아니라 즉각적인 실시간 빅데이터 처리가 일어나고 있다.
분할하여 병렬 처리하고 병합하는 단순 데이터 처리 방식에서 벗어나 대규모 계산 등의 일반 연산 처리 가능하다. 스키마가 없는 단순 데이터 모델이 아닌 관계형 데이터베이스(RDB) 수준의 관계형 데이터 모델을 저장하고 처리해야 하는 것이다.
빅데이터 플랫폼은 큰 폭으로 진화하고 있으나 기본 사상과 기술패러다임은 변화하지 않고 있다. 당장 사용이 가능한 하둡 1.0 을 중심으로 빅데이터 축적, 관리, 처리역량을 배양하고 한계를 체감해야 한다.
<저작권자 © 빅데이터뉴스, 무단 전재 및 재배포 금지>
헤드라인
-
[네카쿠배놀 해부①] AI 수익 본격화하는 네이버…'디지털 비서' 체질 개선 가속도
검색에서 출발한 네이버의 플랫폼 전략이 인공지능(AI)을 중심으로 새로운 국면에 접어들고 있다. 네이버는 플랫폼 전환과 AI·로봇 등 미래 기술 연구를 위해 연간 2조 원이 넘는 연구개발(R&D) 비용을 투입하고 있다. 단순한 대화형 AI 서비스를 넘어 쇼핑, 금융, 콘텐츠 추천까지 수행하는 ‘디지털 비서’ 형태로 진화하기 위해 체질 개선을 본격화하는 모습이다.12일 IT업계에 따르면 네이버는 올해를 ‘AI 수익화의 원년’으로 삼고 서비스 전반을 AI·클라우드 기반 구조로 전환하는 작업에 속도를 내고 있다. 그동안 연구개발(R&D) 단계에 머물던 생성형 AI 기술을 실제 비즈니스 모델(BM)로 연결해 새로운 성장 동력으로 삼겠다
-
[현장] AI 시대 전력 해법은…LS일렉트릭, DC 전력 인프라 승부
인공지능(AI) 확산으로 데이터센터 전력 수요가 빠르게 늘어나면서 전력 효율을 높일 수 있는 차세대 전력 인프라 경쟁이 본격화하고 있다. LS일렉트릭은 인터배터리 2026에서 직류 배전 운영 플랫폼 'DC 팩토리 설루션'을 공개하고 전력 인프라 시장 공략에 나섰다.12일 업계에 따르면 AI 시대에 따른 데이터센터 전력 수요가 급증하면서 전력 효율 극대화가 핵심 과제로 떠올랐다.한국IDC에 따르면 국내 데이터센터 전력 수요는 2025년 4461㎿에서 2028년 6175㎿로 3년 새 1.4배로 늘어날 전망이다.LS일렉트릭 관계자는 "DC 전력 체계를 적용할 경우 전력 변환 과정에서 발생하는 손실을 크게 줄일 수 있다"며 특히 "데이터센터처럼 서버와 전력
-
포스코 국내 조강 생산능력 11년 만에 4000만t 아래로 떨어져
포스코의 국내 조강 생산량이 11년 만에 4000만t 아래로 줄었다.포스코는 세계 상위 10위권 철강사 중에서 외부 업체를 인수·합병(M&A) 하지 않고 자력으로 생산능력을 키워온 유일한 업체이자, 국내 양대 제철소인 포항과 광양제철소가 전체 조강 생산량의 95를 담당하는 기업이다.국내 생산능력을 축소했다는 것은 향후 포스코의 생산설비 투자가 미국과 인도 등 해외에 집중될 것임을 보여준다.12일 <빅데이터뉴스>가 포스코홀딩스가 매년 금융감독원에 제출한 사업보고서에 기재된 연도별 조강 생산 현황을 분석한 결과, 지난해 포스코의 국내 조강 생산능력은 3981만t으로 집계됐다. 2014년 3820만t 이후 11년 만에 4000만t 아래
-
LS그룹, 매출 45.7조·영업익 1.5조 ‘역대 최대’…전력 인프라 호황 수혜
LS그룹이 글로벌 전력 인프라 투자 확대에 따른 ‘전력 슈퍼사이클’에 힘입어 그룹 출범 이후 역대 최대 실적을 기록했다. 실적 호조의 배경으로는 전력 인프라 분야에서의 글로벌 사업 확대가 꼽힌다. 특히 LS전선과 LS일렉트릭의 해외 매출 증가가 실적 개선을 견인했다는 평가다.12일 업계에 따르면 LS그룹의 2025년 주력 12개사(내부회계 기준) 합산 매출은 45조7223억원, 영업이익은 1조4884억원을 기록했다. 이는 전년 대비 매출과 영업이익이 각각 9.1%, 23.1% 증가한 수치로, 2003년 그룹 출범 이후 사상 최대 실적이다.회사는 글로벌 전력망과 인공지능(AI) 데이터센터 확산에 따른 전력 수요 증가에 대응해 초고압·해저케이블, 초고압
-
LG전자, 세계 최대 규모 접근성 콘퍼런스서 ‘모두를 위한 기술’ 선보였다
LG전자가 9일(현지시간) 미국 애너하임에서 나흘간 진행되는 접근성 콘퍼런스 ‘CSUN AT 2026(씨선 에이티 2026)’에 참가해 누구나 편리하게 제품을 사용할 수 있도록 돕는 다양한 솔루션을 선보였다.‘CSUN AT’은 캘리포니아주립대학(CSUN)이 주최하는 보조공학기술(AT, Assistive Technology)’ 행사로, 접근성을 주제로 열리는 행사 중 세계 최대 규모로 꼽힌다.12일 업계에 따르면 LG전자는 단독 전시부스를 마련하고 장애인, 시니어 고객의 접근성을 높이는 제품과 서비스를 관람객들이 직접 체험해 볼 수 있도록 했다. 올해 전시에는 점자기기 전문기업 닷(Dot)과 공동 개발한 키오스크 신제품을 처음으로 선보였다. 장애 고객들도 편리하
빅데이터 라이프
-
올리브영, 올 2월 소비자 관심도 압도적 1위 수성…이니스프리·미샤 순
올 2월 화장품 전문점 중 올리브영이 가장 높은 소비자 관심도(정보량=포스팅 수)를 차지했다. 이니스프리와 미샤가 그 뒤를 따랐다.11일 데이터앤리서치는 뉴스·커뮤니티·블로그 등 다양한 채널 및 사이트를 대상으로 올 2월 화장품 전문점 관련 포스팅 수를 분석했다고 밝혔다.조사 대상은 정보량 순으로 △올리브영 △이니스프리 △미샤 △토니모리 △스킨푸드 △더페이스샵 △더샘 △아리따움 등이다.분석 결과 올리브영이 총 3만8792건의 정보량을 기록, 압도적으로 높은 소비자 관심도 1위를 차지했다.2월 네이버블로그의 한 유저 리***는 올리브영의 ‘망곰’ 콜라보 상품에 대한 긍정적인 반응이 확인됐다. "스킨 진정용 화장품부터 생
-
티웨이항공, 대명소노그룹 인수후 소비자 호감도 큰폭 상승
LCC항공인 티웨이항공이 대명소노그룹에 인수된후 여행객 승 소비자 호감도가 두배 가까이 상승한 것으로 나타났다.10일 데이터앤리서치는 뉴스·커뮤니티·블로그 등 다양한 채널 및 사이트를 대상으로 대명소노그룹이 지난해 2월 26일 인수한 시점을 기준으로 인수전 1년동안 호감도와 인수후 1년동 호감도에 대해 빅데이터 분석했다고 밝혔다.조사결과 인수전 1년동안(2024.2.7~2025.2.25) 티웨이항공의 긍정률은 27.89%, 부정률은 12.08%로 긍정률에서 부정률을 뺀 값인 순호감도는 15.80%P였다.대명소노그룹에 인수된 후 1년간(2025.2.26~2026.2.25) 티웨이항공의 긍정률은 38.10%, 긍정률은 9.87%로 순호감도는 28.23%P에 이르렀다. 인수후
-
KB국민카드 2월 신용카드업계 소비자 관심도 1위…우리·삼성카드 순
올 2월 신용카드사 중 KB국민카드가 가장 높은 소비자 관심도(정보량=포스팅 수)를 기록했다. 우리카드와 삼성카드가 그 뒤를 따랐다.10일 데이터앤리서치는 빅데이터뉴스 의뢰로 뉴스·커뮤니티·블로그 등 다양한 채널 및 사이트를 대상으로 올 2월 카드사 관련 포스팅 수를 분석했다고 밝혔다.조사 대상은 정보량 순으로 △KB국민카드 △우리카드 △삼성카드 △현대카드 △신한카드 △NH농협카드 △하나카드 △롯데카드 △비씨카드 등이다.분석 결과 KB국민카드가 총 2만8761건의 정보량을 보이며 관심도 1위를 차지했다.지난 2월 네이버블로그의 폰****라는 유저는 "KB국민카드는 신규 발급자 기준으로 받을 수 있는 지원이 괜찮았다"면서 "설
-
"이름값하는 라면" 호평 신라면, 소비자 관심도 '부동의 1위'…짜파게티·불닭볶음면 순
올 2월 농심 신라면이 국내 봉지라면 브랜드 가운데 온라인 소비자 관심도 1위를 차지한 것으로 나타났다. 이어 농심 짜파게티가 2위, 삼양식품 불닭볶음면이 3위에 등극했다.10일 여론조사기관인 데이터앤리서치는 빅데이터뉴스 의뢰로 뉴스, 커뮤니티, 블로그, 카페, SNS 등 다양한 채널을 대상으로 빅데이터 분석을 진행한 결과 이같이 집계됐다고 밝혔다.조사 대상은 농심·삼양식품·오뚜기·팔도 등 주요 식품기업이 시판 중인 라면 제품 가운데 임의 선정했으며, 정보량 순으로 △농심 신라면 △농심 짜파게티 △삼양식품 불닭볶음면 △오뚜기 열라면 △오뚜기 진라면 △오뚜기 진짬뽕 △농심 안성탕면 △팔도 틈새라면 △삼양식품 삼양라
-
"쇼핑 편의성 강점" 호평 현대백화점, 2월 소비자 관심도 1위 …롯데·신세계 순
올 2월 백화점업계에서 현대백화점이 가장 높은 소비자 관심도(정보량=포스팅 수)를 기록한 것으로 나타났다. 롯데백화점과 신세계백화점이 그 뒤를 이었다.9일 데이터앤리서치는 뉴스·커뮤니티·블로그 등 다양한 채널 및 사이트를 대상으로 올 2월 백화점업계 관련 포스팅 수를 분석했다고 밝혔다.조사 대상은 정보량 순으로 △현대백화점 △롯데백화점 △신세계백화점 △갤러리아백화점 △AK플라자 △NC백화점 등이다.분석 결과 현대백화점은 총 10만7390건의 정보량을 기록하며 관심도 1위를 차지했다.현대백화점은 지난 2월 온라인에서 팝업과 전시 관련 긍정 반응이 두드러졌다. 트립닷컴 공개 후기에서 한 유저는 쇼핑 편의성과 매장 구성
-
현대로템, 독일 ‘iF 디자인 어워드’ 2관왕 달성
현대로템은 10일 자사 수소전기동력차와 수소전기동차가 독일 ‘iF 디자인 어워드 2026(International Forum Design Award 2026)’에서 각각 본상을 수상하며 2관왕을 달성했다고 밝혔다.iF 디자인 어워드는 ‘IDEA 디자인 어워드’, ‘레드 닷 디자인 어워드’ 등과 함께 세계 3대 디자인상으로 꼽힌다. 전세계 68개 국에서 출품된 1만 개 이상의 프로젝트를 대상으로 전문가들의 심사를 거쳐 올해 수상작들이 결정됐다.앞서 현대로템은 2023년 수소전기트램으로 iF 디자인 어워드에서 본상을 수상하며 국내 철도 업계 최초로 글로벌 디자인상을 수상한 바 있다. 이번에 수소전기동력차와 수소전기동차까지 본상을 수상하며 K-철도의 디자인 역량
-
HD현대, 차세대 무탄소 선박 기술 개발 박차…회사 관심도 15% 상승
HD현대가 차세대 무탄소 선박 기술 확보에 나선다.HD현대는 최근 미국선급협회(이하 ABS)와 ‘원자력 연계 전기추진시스템 개념설계를 위한 공동개발 협약’을 체결했다고 9일(월) 밝혔다.경기도 분당에 위치한 HD현대 글로벌R&D센터에서 진행된 이날 협약식에는 HD한국조선해양 권병훈 전동화센터장과 HD현대삼호 심학무 설계부문장, ABS 매튜 뮬러(Matthew Muller) 극동아시아 영업대표 등이 참석했다.협약에 따라 양사는 1만 6,000TEU급 컨테이너선을 대상으로 ▲원자력 연계 전기추진 시스템 기본설계 ▲전장품 사양 선정 ▲전력기기 배치 설계 분야에서 공동 협력을 펼쳐나간다. 특히 최대 100MW급 출력을 안정적으로 공급할 수 있는 소
-
매일유업, ‘건강친화기업’ 인증, 장관 표창 수상…회사 관심도↑
매일유업(대표이사 김선희, 곽정우, 이인기)이 보건복지부와 한국건강증진개발원이 주관하는 ‘2025년도 건강친화기업’ 인증을 획득하고, 보건복지부 장관 표창을 수상했다.‘건강친화기업 인증제도’는 「국민건강증진법」에 근거하여 직장 환경을 건강 친화적으로 조성하고, 직원들의 건강관리 활동을 지원하는 모범 기업을 선정하는 제도이다. 지난 2022년 제도 도입 이후 현재까지 총 93개 기업만이 인증을 유지하고 있을 정도로 엄격한 심사를 거친다.매일유업은 이번 인증에서 임직원 건강 관리와 사회 취약계층 지원 활동으로 우수한 점수를 획득했다. 특히 지난해 평택공장 임직원을 대상으로 구내식당 식단 밥에 ‘구아검가수분해물’을
상단으로 이동