본문으로 바로가기

사실 빅데이터와 기존 BI는 유사한점이 많다. 몇 가지를 제외하고는 개념상 같은 것이라 봐도 무방할 정도이다. 그렇다면 기존에 잘 사용하던 BI와 DW에서 빅데이터로 패러다임이 바뀌고 있는 이유는 무엇이며, 두 가지의 차이점이 무엇인지에 대해 알아보았다.


빅데이터와 DW/BI의 차이



먼저 BI는 대용양 데이터를 처리하는 것에 RDB(Relational Database)사용함. 반면에 빅데이터 데이터 처리를 위해 Hadoop과 NoSQL 기술을 사용한다. 빅데이터의 Hadoop과 NoSQL 기술이 기존 RDB에 근거한 DW/BI기술과 차이가 난다고 할 수 있을 것이다.

빅데이터는 정형데이터, 비정형 데이터 모두 처리할 수 있도록 되어 있다. Hadoop은 기본적으로 file system이기 때문에 하나의 레코드에 정형, 비정형 데이터가 모두 들어갈 수 있다.

빅데이터의 기본 기술은 매우 복잡하다. Hadoop만 하더라도 표준인 Apache Hadoop이고, 각 소프트웨어 회사들이 만든 많은 버전이 존재한다. 또한 하둡 내에도 수십개의 소프트웨어가 존재한다. NoSQL 역시 120여종의 다양한 소프트웨어가 있다. 이는 시간이 흐르면 RDBMS처럼 정리가 될 것으로 예상된다. Hadoop이 빅데이터 표준으로 자리잡고, NoSQL의 일부와 CEP의 일부를 통합하는 방향으로 갈 것이다.


빅데이터를 하려면 꼭 Hadoop을 써야 하는것은 아니다. 하지만 비용이 문제가 된다거나 굳이 아래의 이유에 속하지 않는다면 Hadoop이 권장된다.

1. 특별히 다른 소프트웨어를 써야 하는 이유가 있다.

2. 지원해 줄 수 있는 엔지니어가 충분히 있다.

3. 새로운 어플리케이션을 개발할 때에 감당할 수 있는 개발자가 있다.

4. 마켓에서 쉽게 구할 수 있다.

위와 같은 경우를 제외하면 Hadoop사용을 권장하는 바이다.


빅데이터 기술은 RDB에 비해 데이터를 저렴하게 처리할 수 있다. 고가의 RDB와 고가의 하드웨어 장비에서 작동하는 RDB와는 달리 하둡과 NoSQL은 저가의 장비에서도 작동하고, 데이터가 늘어나도 문제가 없다. 하드웨어 장비를 늘여갈수록 퍼포먼스가 점차 향상되게 된다.



데이터 처리방식의 차이


데이터 처리방식에 있어서, DW/BI는 데이터 처리를 batch처리를 한다. 많은 데이터를 정제하고 이동하고 요약하는 것을 배치로 수행한다.

반면에 빅데이터는 데이터 처리를 각각 여러 방식을 사용하게 된다. 예를들어 하둡은 Batch처리를 위해 많이 사용한다. 사실 하둡은 원래 batch용으로 개발되었다가 Interactive하게 처리하는 부분이 나누어진 것이다.

실시간 처리는 CEP(Complex Event Processing) 종류의 소프트웨어들을 사용한다. 이는 연속적으로 입력이 되는 스트리밍 데이터를 실시간으로 처리하는 방식이다.

실시간으로 생산되는 데이터를 데이터 실시간분석해주고 그래프를 그려주는 기능이다. 대용량 검색, 쿼리 등은 NoSQL DB를 사용한다. NoSQL은 대용량 데이터의 분산 처리를 위한 non-relational database다.

일관성 유지나 가용성 부분에 대한 요구를 덜하면서 분산처리 기능을 강화한 것이다. 

실시간 쿼리나 분석을 위해서는 Spark를 사용한다. 이는 하둡과 함께 사용되는 툴로 하둡의 Map Reduce를 in-memory에서 처리해주는 기능이다. 속도가 매우 빠르며 Spark SQL을 사용할 수 있다. JDBC나 ODBC도 제공하기 때문에 기존 BI툴과 함께 사용할 수도 있다.

이처럼 빅데이터 기술은 다양하고 복잡하다. 또한 대부분의 소프트웨어가 오픈소스 소프트웨어 이므로 기업에서 사용할 때에 여러 문제가 발생할 수 있다.



공통점


데이터를 처리하는 OLTP 시스템이 아니라 데이터를 저장하고 분석하는 정보계 시스템이라는 점에서 빅데이터와 DW/BI기술은 공통점이 있다. 기존의 리포팅, 통계분석, 데이터마이닝, OLAP분석 등 모든 종류의 분석이 함께 필요하게 된다. 사실 DW/BI의 DB부분만 제외하고는 빅데이터와 DW/BI는 거의 비슷하다고 할 수 있다. 하지만 이 DB부분이 가장 복잡하고 많은 모델링과 프로그램이 작동하고 있어서 새롭게 도입하는 것이 쉬운 일은 아니다.



DW/BI시스템이서 빅데이터 기술을 도입할 시점


DW/BI시스템은 1990년대 말부터 기존 정보계 시스템에서 진행되어 왔다. 중견기업 이상의 대부분의 기업들은 DW/BI시스템 구축이 완료된 상태이다. 은행권이나 금융권에서 먼저 구축되기 시작했고 점차 다른 산업에도 영향을 주었다. 하지만 시스템을 차세대 프로젝트를 통해 업그레이드 하더라도 DW/BI시스템에 큰 변화가 없는 상태이다. 2000년대 이후 웹 커머스와 모바일 시대가 열리며 데이터의 양이 기존과는 비교가 되지 않을 정도로 폭증하였으며, 기존의 DW/BI시스템으로는 분석이 어려워지고 있다.

따라서 빅데이터 도입과는 별개로 기존의 DW/BI시스템에 대한 장기적은 발전 계획을 수립해야 하며, 빅데이터의 단계적인 도입이 필요하다. 



빅데이터 시스템 도입으로 인한 기존 IT조직의 변화



빅데이터 시스템의 도입으로 기존의 IT조직은 변화할 수밖에 없다. 새로운 IT패러다임이 바뀌고 기업 환경이 변화하면 당연히 기존 IT조직은 변화한다. 사실 IT자체는 변화무쌍하지만 IT조직은 보수적인 경우가 많다. 전문 기술직이기 때문에 기존에 익숙한 기술들을 버리고 새로운 기술들을 습득하는 것에 거부감이 있기 때문이다. 따라서 사상과 개념의 차이를 최소화하고 천천히 새로운 기술로 마이그레이션 하는 것이 매우 중요하다. DW/BI와 Hadoop을 모두 아는 사람은 조직에 반드시 필요하다. DW/BI담당자들을 교육시켜 새로 도입될 빅데이터 기술들을 운영하고, 이들이 기존의 DW/BI시스템과 서서히 통합 작업을 수행해야 할 것이다.

빅데이터로의 전환은 산업 전반에 있어서 선택이 아닌 필수가 되고 있다. 하지만 이처럼 전환에 많은 수고와 비용이 들어가기 때문에, 최대한 빠르게 단계적으로 빅데이터로의 마이그레이션을 수행해야 할 것이다.

 Other Contents 

댓글을 달아 주세요

티스토리 툴바