본문 바로가기

빅데이터(Bigdata)

빅데이터 프로세스 주요 단계 및 솔루션

빅데이터 프로세스 개요

빅데이터를 효과적으로 활용하기 위해 기업은 여러 단계를 거칩니다. 첫 단계는 내부 및 외부 데이터를 수집하고 저장하는 것입니다. 이후 데이터 처리 과정을 거쳐 분석 가능한 형태의 데이터(Tidy Data)로 변환합니다. 이러한 변환 과정은 변수와 관측값, 값의 일관된 체계를 갖추어야만 분석 패키지와 소통할 수 있기 때문입니다.

데이터 처리와 분석 단계

데이터 처리 이후, 분석 단계에서 기업은 분석 목적에 맞게 모델(model)을 설계합니다. 모델 설계 과정에서 첫 번째로 해야 할 일은 탐색적 자료 분석을 통해 데이터의 특성을 파악하는 것입니다. 예를 들어, 데이터의 쏠림 현상(skewness)이나 데이터 왜곡을 초래하는 아웃라이어(outlier)를 확인해야 합니다. 통계 분석에서 결정계수(coefficient of determination)를 확인하는 것도 모형의 설명력을 평가하는 정량적 척도가 됩니다. 필요에 따라 데이터를 정규화하거나 연속형 변수를 범주형으로 변환하여 분석 데이터의 신뢰도를 높입니다.

분석 목적에 따라 설계된 모델과 알고리즘은 지속적으로 수정되고 보완됩니다. 시간이 흐르면서 데이터의 성격이 바뀌거나, 분석 과정에서 더 간결하면서도 정확도가 높은 모델이 발견되기 때문입니다. 기본적으로 오차가 최소화되는 모델이 좋은 모델이지만, 과적합(overfitting)에 대한 문제, 모델의 복잡성, 컴퓨터 자원 소모, 연산 시간 등의 조건도 모델 평가 요소로 고려됩니다.

빅데이터 수집

명확한 목표와 체계의 중요성

데이터 수집 단계에서 가장 중요한 것은 명확한 목표와 체계를 확립하는 것입니다. 필요 이상의 시간과 자원을 데이터 수집 업무에 할애하면, 오히려 기업 운영에 비효율성을 초래할 수 있습니다. 명확한 목표와 체계가 없는 데이터는 유의미한 정보와 인사이트(insight)로 이어질 수 없습니다. 따라서 기업이 빅데이터를 잘 활용하기 위해서는 데이터 사이언티스트(data scientist)의 역할이 매우 중요합니다. 데이터 사이언티스트는 R이나 Python과 같은 프로그래밍 언어를 사용하여 정형 및 비정형 데이터를 다루고, 통계학 지식을 활용하여 빅데이터로부터 인사이트를 도출할 수 있는 전문가입니다.

데이터 수집 기술의 특허 현황

데이터 수집 기술은 주로 오픈소스(open source) 중심으로 개발되고 있습니다. 특허청의 '2017 통계로 본 특허 동향'에 따르면, 2002년부터 2016년까지 전 세계 빅데이터 분야 특허 중 6,614건의 특허가 데이터 수집 기술에 관한 것이었습니다. 이는 전체의 76.5%에 해당하며, 나머지 15.6%는 데이터 처리·저장·관리 기술, 7.9%는 분석 기술에 관한 특허입니다.

기업들이 활용하는 데이터 수집 기술

기업들은 데이터 유형과 형태에 따라 효율적인 방법으로 데이터를 수집합니다. 주로 활용되는 데이터 수집 기술은 다음과 같습니다.

  • 크롤링(Crawling): 웹 로봇을 이용하여 조직 외부의 SNS, 뉴스, 웹문서 등의 공개된 웹정보를 수집하는 기술.
  • 로그 수집기(Log Aggregator): 조직 내부의 웹서버 로그, 웹로그, 트랜잭션 로그, 클릭 로그 등을 수집하는 오픈소스 기술.
  • RDB 수집기(RDB Aggregator): 관계형 데이터베이스에서 정형 데이터를 수집하여 하둡 분산 파일 시스템(HDFS)이나 Hbase와 같은 NoSQL에 저장하는 오픈소스 기술.
  • RSS 리더(RSS Reader): 웹 기반 최신 정보를 공유하기 위한 XML 기반 콘텐츠 배급 프로토콜.
  • 새밍(Shaming): 인터넷에서 음성, 오디오, 비디오 데이터를 실시간으로 수집하는 기술.
  • 오픈API(Open API): 서비스, 정보, 데이터를 쉽게 이용할 수 있도록 개방한 API를 통해 데이터를 수집하는 방식.

주요 데이터 수집 기술

  1. 웹크롤링과 웹스크래핑
  2. CJ올리브네트웍스는 웹크롤링과 웹스크래핑 기술을 활용하여 내부·외부 데이터를 결합하고 분석합니다. 이를 통해 온라인 유통 트렌드를 파악하고, 경쟁사 동향과 상품 검색 분석 등을 수행합니다.
  3. 오픈API
  4. 디지털 시대에는 연결되지 않은 기업은 생존이 어렵습니다. 오픈API를 통해 데이터 거래와 유통에 많은 관심이 집중되고 있습니다. 오픈API는 데이터를 외부에 공개해 다양한 서비스나 애플리케이션을 개발할 수 있도록 하는 프로토콜입니다.
  5. FTP
  6. 데이터 전송 방법 중 하나인 FTP(File Transfer Protocol)는 대용량 데이터를 전송할 때 주로 사용됩니다. 이는 TCP/IP 네트워크에서 파일을 교환하기 위해 개발된 통신 규약입니다. 보안성을 고려해 SFTP(Security File Transfer Protocol)를 이용하기도 합니다.
  7. PII를 기준으로 고객 데이터 연계 및 통합
  8. 기업들은 외부에서 확보한 데이터를 내부 데이터와 연계하여 고객의 속성을 파악하고, 이를 통해 고객을 전방위적으로 이해할 수 있습니다. 이를 통해 고객 맞춤형 서비스와 제품을 제공할 수 있습니다.

데이터 품질 관리

데이터 품질 관리는 빅데이터 수집에서 매우 중요한 부분입니다. 아무리 많은 데이터를 수집하더라도 품질이 낮은 데이터는 무용지물이 될 수 있습니다. 따라서 기업은 데이터의 정확성과 정합성을 유지하기 위해 데이터 품질 관리에 많은 신경을 써야 합니다. 이를 위해 데이터 사이언티스트와 같은 전문 인력을 데이터 수집 단계에서도 투입하여 체계적인 데이터 수집 시스템을 구축해야 합니다.

빅데이터 수집 솔루션

다양한 빅데이터 수집 솔루션이 존재하며, 각 솔루션의 특징과 사용 사례는 다음과 같습니다.

  • 플럼(Flume): 단순한 구조로 로그 수집 기능을 제공하며, 하둡으로 데이터를 입력하기가 간단하고 다양한 구성과 확장이 용이합니다.
  • 츄왑(Chukwa): 하둡 분산 파일 시스템과 맵리듀스(MapReduce) 프레임워크 기반의 데이터 수집기로, 분산 시스템 모니터링을 위해 사용됩니다.
  • 스콰프(Sqoop): 관계형 데이터베이스에서 데이터를 하둡으로 전송하기 위한 도구로, SQL 명령어를 사용하여 데이터를 쉽게 전송할 수 있습니다.
  • 스트림셋(StreamSet): 파이프라인 기반의 데이터 흐름 관리 솔루션으로, 실시간 데이터 프로세싱에 적합합니다.
  • 나이파이(NiFi): 분산 환경에 최적화된 데이터 수집/처리기기로, 플로우 기반 프로그래밍 기법을 사용합니다.
  • 플루언트디(Fluentd): 데이터의 수집과 전송을 통합하여 데이터 이용을 쉽게 하는 수집기로, 다양한 데이터 포맷을 지원합니다.

결론

빅데이터 프로세스는 데이터 수집부터 분석까지 여러 단계를 거치며, 각 단계마다 적절한 솔루션을 활용하여 데이터를 효과적으로 관리하고 활용할 수 있습니다. 기업이 빅데이터를 통해 실질적인 비즈니스 가치를 창출하기 위해서는 명확한 목표와 체계를 확립하고, 데이터 품질을 관리하며, 적절한 수집 솔루션을 활용하는 것이 중요합니다. 이를 통해 기업은 경쟁력을 강화하고, 빠르게 변화하는 시장 환경에 신속하게 대응할 수 있을 것입니다.