이른바 빅데이터의 시대다. 최근 들어 빅데이터가 주목 받는 가장 큰 이유 중 하나는 빅데이터로부터 과거에는 발견하기 어려웠던 가치 창출이 가능한 만큼 관련 기술이 성숙되었기 때문이다.
빅데이터 플랫폼은 이러한 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 기술 환경이다. 기업들은 빅데이터 플랫폼을 사용하여 빅데이터를 수집하고 저장, 관리하며 처리할 수 있다. 빅데이터 플랫폼은 빅데이터를 분석하거나 홗용하기 위해 필요핚 필수 인프라(Infrastructure)인 셈이다.
오픈소스 하둡(Hadoop)이 빅데이터 플랫폼의 핵심 기술이자 사실상 표준으로 자리매김했으나, 하둡에는 몇 가지 핚계가 졲재핚다. 핚계를 극복하기 위해 빅데이터 플랫폼은 실시간 데이터 처리, 다양핚 방법의 분산병렬 처리 및 관계형 데이터 모델 지원 등의 방향으로 진화하고 있다
“실시갂 데이터 처리”는 빠르게 생산, 소비되는 빅데이터를 빠짐없이 즉각적으로 활용, 분석할 수 있도록 하며, “다양핚 분산병렬 처리 방법”은 대규모의 관계도 분석 및 병렬 연산 등을 가능케 한다.
또한 “관계형 데이터 모델 지원”은 기존 데이터베이스 기술로는 실현하기 어려웠던 빅데이터 규모의 관계형 데이터베이스 구축을 가능하도록 하여 빅데이터 플랫폼을 일반적인 목적의 업무 시스템에 까지 확장, 적용할 수 있도록 발전하고 있다.
하지만 이와 같은 새로욲 빅데이터 플랫폼은 오픈소스 하둡 2.0 의 발전을 중심으로 서서히 진화하고 있으며, 하둡 2.0 은 아직 개발 중에 있다. 이에 새로운 빅데이터 플랫폼을 적용하기 전에 기존 빅데이터 플랫폼의 한계를 명확히 파악해야 시행착오를 줄일 수 있고, 이를 보완할 새로운 빅데이터 플랫폼의 도입 목적과 적용 영역을 구체화할 수가 있다. 새로운 빅데이터 플랫폼은 그 규모와 기능이 성장핚 맊큼 시범사례 등으로 더욱 철저한 대비가 필요하다.
▲ 분산 처리 기술 비교 (출처 LG CNS)
◆ 기존 빅데이터 플랫폼의 한계 파악하여 시행착오 방지해야
빅데이터 플랫폼 도입 시 기존 플랫폼의 한계를 파악하여 업무 구현에 제약을 초래하는지 검토 필요하다.
기능, 비기능적인 요구사항 별로 현재 빅데이터 플랫폼의 한계를 인식하고 이에 대한 검증이 필요하다는 지적이다. 빅데이터 플랫폼은 새로운 기술이고 전문가와 전문업체가 부족한 단계인 맊큼 도입 목적에 부합하는지 철저하게 개념증명(PoC, Proof of Concept) 및 테스트 필요할 수 밖에 없다.
작은 파일들의 관리나 실시간 처리와 같이 간과하기 쉬운 기능적 한계와 마스터 서버 이중화 미비에 대한 이해 필수다.
과도한 빅데이터 기술 중심적 문제 해결 지양해야 한다. 기존 데이터베이스 기술로 해결할 수 있는 사항에 빅데이터 플랫폼을 과잉 적용하지 않도록 유의해야 한다는 지적이다.
상용 플랫폼 또는 상용 서비스 도입 고려해야 한다. 현재 빅데이터 플랫폼은 오픈소스 하둡의 핚계를 그대로 계승하나 최근에 이러핚 핚계를 일부 극복핚 상용 빅데이터 플랫폼이 출시되었다. 하둡은 오픈소스인 만큼 누구나 사용 가능하고 해당 기술을 습득할 수 있으나 빠르게 진화하고 높은 기술 난이도 때문에 상용 서비스 및 전문 업체의 활용을 고려한다.
▲ 하둡 에코시스템 현황 (출처 LG CNS)
◆ 빅데이터 플랫폼의 진화 방향
구글은 빅데이터 플랫폼의 청사진은?
구글이 발표한 빅데이터 플랫폼 기술 논문에 기초해서 오픈소스 하둡 프로젝트 시작했다.
구글이 대용량 웹 데이터 검색을 비용 효율적으로 분산 처리하기 위해 고안한 분산파일 시스템(GFS, Google File System)과 MapReduce 를
각각 2003 년과 2004 년에 논문으로 발표했다.
오픈소스 검색엔진3 개발자인 더그 커팅4이 구글 논문을 기초로 해서 구글 빅데이터 플랫폼의 오픈소스 버젂인 하둡을 2004 년부터 개발을 시작했다. 구글은 오픈소스 빅데이터 플랫폼인 하둡의 지향점이자 청사진이다.
구글은 지속적으로 빅데이터와 관련된 자사의 기술과 노하우를 논문으로 발표하고 오픈소스 개발자들은 이를 바탕으로 하둡을 업그레이드하거나 새로운 하둡 에코시스템을 개발한다.
하둡 창시자 더그 커팅은 “구글이 우리에게 방향을 제시했다. 구글은 그들의 GFS 와 MapReduce 논문을 발표하기 시작했고, 우리는 재빠르게 그것을 하둡 프로젝트에 복제했다. 몇 년 동안 구글은 오픈소스 진영에 영감을 준 많은 방법들을 발표했다”고 밝혔다.
▲ 하둡 구성도 (출처 LG CNS)
◆ 분산처리 기술 비교
다양한 분산병렬 처리 방법 제공으로 단일한 빅데이터 처리 방식 개선이 필요하다. 기존 MapReduce 로 처리하기 어려운 그래프 연산, 수학 연산을 지원하여 다양한 빅데이터 처리 가능하다.
MapReduce 는 분할 병렬과 그 결과의 합산 방식이기 때문에 꼭지점(Vertex)와 선(Edge)을 처리하는 그래프 연산과 조건을 충족할 때 까지 특정 데이터 처리를 반복하는 순환 연산에 비효율적이다.
BSP(Bulk Synchronous Parallel) 기반의 병렬 그래프 연산과 순환연산에 MPI(Message Passing Interface) 방식의 병렬 처리 지원으로
MapReduce 의 데이터 처리 방식 보완한다.
소셜 네트워크 관계 분석, 웹 페이지 링크 분석 등에 그래프 연산 적용, 대규모 계산 및 일반적인 고속 병렬 연산에 MPI 적용한다. 구글은 웹 검색 순위를 평가하기 위해 웹 페이지 링크 분석에 기반한다. PageRank6 알고리즘을 사용하며, 매일 1 조가 넘는 웹 페이지 관계를
분석하기 위해 그래프 연산 수행한다.
MapReduce 외 그래프 및 MPI 등 다양한 데이터 처리 라이브러리를 지원하도록 보편적 분산병렬 프레임워크로 진화했다.
▲ 빅데이터 플랫폼의 한계와 진화방향 (출처 LG CNS)
◆ 관계형 데이터 모델로 빅데이터 기술 적용 확대
관계형 데이터 모델과 대규모 업무 트랜잭션 지원으로 빅데이터 기술 적용 영역 확대되고 있는 추세다.
관계형 데이터베이스에 NoSQL10의 확장성과 고성능 기능을 부여하여 빅데이터의 저장, 트랜잭션 및 SQL 처리 가능하다. 기존 빅데이터 플랫폼에서 주요하게 채용된 NoSQL 은 분산처리와 확장성이 뛰어나지맊 스키마와 관계형 데이터 모델이 지원되지 않는 데이터베이스를 말한다.
일반적 목적의 트랜잭션 처리나 관계형 데이터 모델이 가능하면서도 빅데이터를 처리핛 수 있도록 보완한 NewSQL 등장했다. 기존 관계형 데이터베이스나 NoSQL 이 처리 하지 못 하는 빅데이터 관리 업무에 적용 가능하다.
구글은 광고 데이터 관리와 내부적으로 사용하던 관계형 데이터베이스를 대체하고자 자체 개발핚 NewSQL 인 Spanner 를 적용했다.
분산된 데이터베이스들을 절대 시간 기준으로 동기화하여 동시성을 제어하고 분산 트랜잭션 및 두 단계 커미트(two-phase commit) 제공한다.
구글의 Spanner 는 GPS 와 원자시계(Atomic clock)를 동원하여 절대시각을 측정하고, 각 분산 트랜잭션별 발생 시간(timestamp)을 공유,
동기화하여 데이터 읽고, 쓰기 동시성 제어한다.
◆ 빅데이터 플랫폼의 진화 방향을 인식하고 대비해야
빅데이터 플랫폼은 실시간 처리 속도, 처리 방식의 다양화, 관계형 데이터 모델 지원 등의 방향으로 진화하는 추세다. 일괄 처리에 의한 결과 대기가 아니라 즉각적인 실시간 빅데이터 처리가 일어나고 있다.
분할하여 병렬 처리하고 병합하는 단순 데이터 처리 방식에서 벗어나 대규모 계산 등의 일반 연산 처리 가능하다. 스키마가 없는 단순 데이터 모델이 아닌 관계형 데이터베이스(RDB) 수준의 관계형 데이터 모델을 저장하고 처리해야 하는 것이다.
빅데이터 플랫폼은 큰 폭으로 진화하고 있으나 기본 사상과 기술패러다임은 변화하지 않고 있다. 당장 사용이 가능한 하둡 1.0 을 중심으로 빅데이터 축적, 관리, 처리역량을 배양하고 한계를 체감해야 한다.
<저작권자 © 빅데이터뉴스, 무단 전재 및 재배포 금지>
-
하나은행, 폴란드 남부 최대 공업도시 브로츠와프에 지점 개설
하나은행(은행장 이호성)은 폴란드 시장의 성장 잠재력에 주목해 23일(현지시각) 폴란드 브로츠와프에 지점을 개설하고 유럽 전역에 대해 영업을 본격화 한다고 24일 밝혔다. 이날 개점식에는 태준열 주폴란드 대한민국 대사, 이호성 하나은행장이 참석했다. 또한, 이장하 LG에너지솔루션 법인장을 비롯해 현대로템, SK아이이테크놀로지, 현대차(체코) 등 관계자가 함께했다.이번 개점으로 하나은행은 영국, 독일, 프랑스, 네덜란드, 헝가리, 체코 등 기존 거점과 함께 유럽 주요 전역에 걸친 영업망을 갖추게 됐으며, 유럽 영업을 총괄하는 런던지점, 독일법인 등과의 시너지를 통해 중동부 유럽 지역 영업을 본격화할 계획이다. 폴란드는 유럽의
-
우아한청년들, 고보장 시간제보험 도입…"라이더 안전망 강화"
배달업계 최초로 시간제보험(운행하는 만큼 보험료를 내는 제도)을 도입한 우아한청년들이 이번에는 보장범위를 업계 최대 규모로 확대한 '고보장 시간제보험'을 선보이며 라이더 안전망을 한층 강화한다. 대물, 자손, 법률 등 보장범위를 업계 최대 규모로 확대했음에도 보험료가 820원으로 최저 수준에 가깝다.우아한청년들은 KB손해보험과 함께 '고보장 시간제보험'을 11월1일부터 출시한다고 24일 밝혔다. 고보장 시간제보험은 현장의견을 적극적으로 반영해 출시한 보험으로 라이더가 운행한 시간만큼만 보험료를 내는 기존 시간제보험 장점을 유지하면서 대물·자손·법률비용까지 보장항목을 강화했다.구체적으로 △'대물배상' 한도는 기존
-
카카오T, 공항철도 직통열차 예약 서비스 시작
카카오모빌리티(대표 류긍선)가 카카오T 앱을 통한 공항철도 직통열차 예약 서비스를 시작한다고 23일 밝혔다. 이번 협업은 모빌리티 플랫폼과 공항철도 간의 최초 연동이다.카카오모빌리티에 따르면 이날 오픈하는 서비스는 추석 황금연휴 기간 인천공항 이용자들에게 더욱 빠르고 안전한 공항 이동 수단을 제공할 것으로 기대된다.도심공항터미널에서 체크인·수하물 위탁·출국심사까지 완료하면 공항 도착 후 전용 출국 통로를 통해 출국장으로 바로 이동할 수 있어, 혼잡한 연휴 기간 유용하다는 설명이다.해당 서비스는 카카오T 앱 메인화면의 '기차/버스' 메뉴나 '여행' 탭을 통해 예약할 수 있다.카카오모빌리티 MaaS 사업실 신동훈 전무
상단으로 이동