Big Data의 10가지 특징
Big Data는 "Big"하고 "Dirty"한 데이터입니다. 예컨대 특정 시기의 트위터 피드 모음을 생각해봅시다. 몇 백 만 개를 넘는 매우 크기가 큰 데이터입니다. 하지만 이 데이터는 서베이 데이터와 달리 정해진 질문에 대한 응답도 아니고, 코드화된 변수가 존재하는 데이터도 아닙니다. 즉 그 구조를 가정하기 어렵습니다.
이 데이터로부터 원하는 내용을 길어올리기 위해 각별한 처리가 필요합니다. 아마도 동음이의어도 신경써야 하고, 같은 뜻인데 일부러 맞춤법을 틀린 경우, 그리고 "ㅋㅋㅋ" 같은 비문도 신경써야 합니다. 또 비록 양은 많지만 이 데이터는 한 사회 구성원을 균질적으로 대표하지 않습니다. 심지어 어떤 인구집단에 얼마나 집중되어 있는지, 편향의 정도도 측정하기 어렵습니다. 아무리 전처리를 열심히 하더라도, 이런 데이터를 부주의하게 다루게 되면 그 결과가 심각하게 왜곡될 수 있습니다.
매우 많은 것들이 빅데이터가 될 수 있습니다: 사용자의 제품 리뷰, 게이머의 행동 데이터, 차량 사용자 데이터, 뉴스 기사 뭉치, 조선왕조실록 .. 이런 데이터는 모두 규모가 크고 (꼭 아주 크진 않더라도) 정제되지 않고 잡음이 많은 데이터입니다. 아주 풍부하고 귀중한 정보를 담고 있을지도 모르지만, 목적에 맞게 분석하고 의미있는 결론을 도출하기 위해서는 각별한 주의와 노력이 필요합니다.
빅데이터의 구체적 정의나 빅데이터를 바라보는 관점은 분야에 따라 달라질 수 있습니다. Salganik 교수의 책 Bit by Bit에서는 빅데이터의 10가지 특징을 이렇게 정리합니다: (이 책은 사회과학 연구자들을 청중으로 쓰였습니다.)
- Big, Always-on, Nonreactive
- Incomplete, Inaccessible, Nonrepresentative, Drifting, Algorithmically confounded, Dirty, Sensitive
첫번째 줄에 있는 3가지 특징은 일반적으로 연구에 도움이 되는 요소들, 두번째 줄의 7가지 요소는 연구에 잘 도움이 안 되는 요소들입니다.
이중 빅데이터의 가장 큰 특징 두 가지는 첫번째 "Big"과, 두번째 줄을 망라할 수 있는 "Dirty"로 나타낼 수 있습니다. 빅데이터의 대표적 예시라고 할 만한 트위터 데이터를 생각해봅시다. 특정 시기의 트위터 피드 데이터가 있다면 그 크기는 매우 클 것입니다(Big). 그러나 이 데이터는 결코 그대로 사용되어서는 안 되는, 오염되어 있고 문제 많은 Dirty한 데이터입니다.
예컨대 트위터 데이터에는 일반적인 서베이와 같은 정해진 질문이나 변수가 존재하지 않습니다. 기본적으로 "분석"을 위해 준비되어 있는 완결적 데이터가 아닙니다(Incomplete). 원하는 분석을 위해서는 원 데이터의 상당한 가공이 필요합니다. 또 트위터 데이터 전체를 얻는 것은 매우 어렵습니다. 일반적으로 이런 빅데이터는 기업이나 특정 기관이 소유하고 잇는 경우가 많고, 이를 무작정 얻고 싶다고 얻을 수는 없습니다(Inaccessible). 또 아무리 몇 백만개의 트위터 피드를 모았다고 해도, 그것이 한 사회 구성원들을 균형 있게 대표하는 것은 아닙니다. 어떤 SNS 이용자는 어떤 인구 집단에 편중되어 있을 가능성이 높고, 더 큰 문제는 어떻게 편중되어 있는지 데이터 그 자체만으로는 정확히 알기 어렵다는 사실입니다(Nonrepresentative).