폭풍이 지나면 고요가 오듯이


오늘날 정보통신의 급격한 발전으로 인해 데이터 급증 시대에 살고 있습니다. 이러한 빅 데이터는 폭발적인 양적 증가에만 그치지 않고 이제는 실질적 가치를 만들어 내는 빅 데이터의 시대로 접어들고 있다고 합니다.

 

, 대기업이 빅 데이터의 도입을 빠르게 확산시키고 있는 가운데 미디어, 금융, 서비스산업을 중심으로 수요가 급증하고 있고 빅 데이터에 투자도 진행되고 있다는 사실을 통하여 그 위력을 짐작할 수 있습니다.

 

그리고 경제뿐만 아니라 빅 데이터는 정치, 사회, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 국민에게 가치 있는 정보를 제공할 가능성을 제시하며 그 중요성이 드러나고 있습니다.

 

이러한 변화에 대응하기 위해 우리 정부는 행정자치부 소속기관인 정부통합전산센터에 처음으로 빅데이터를 전담하는 조직인 빅데이터분석과를 신설하였습니다. 주요 임무는 정부 정책 수립 시 및 현안 발생 시 빅데이터를 활용해 최적의 대안을 찾는 역할을 담당할 예정인 것으로 알려졌습니다

  

빅데이터의 의미


일반적으로 자료는(Data) 숫자, 영상, 단어 등으로 이루어진 의미적 단위를 말합니다. 자료는 보통 어떤 연구나 조사 등의 바탕이 되는 재료입니다. 빅 데이터는 데이터앞에 붙어 있는 Big이란 글자 그대로 양적으로 큰 의미만을 나타내는 건 아닌 것 같습니다.

 

빅데이터에 대한 의견은 학자나 전문가들에 따라 그 견해를 달리하지만 우선, 빅데이터란 종이가 아닌 디지털 형태로 존재한다는 것을 이해해야 하겠더군요. 즉 디지털 환경에서 빠른시간내 다양한 숫자, 문자, 영상 등으로 만들어지고, 유통·이용되는 대규모 데이터를 말하는 것 같습니다.

 

빅데이터의 증폭원인


빅데이터란 말이 나오기 전부터 전산화, 정보화가 진행되면서 사회 각지에서 많은 양의 데이터들이 일상적으로 만들어지고 축적됐습니다최근 몇 년간(2011~2012) 축적된 데이터양이 2010년 이전까지 지구촌의 모든 사람이 생산한 데이터양보다 훨씬 많다고 합니다.

 

그러나 과거 정보화는 데이터의 생성과 축적에만 치중하였고, 그 활용은 미미한 수준에 머물렀습니다. 그러다가 많은 고객 데이터를 확보하고 있는 구글, 아마존 등이 인터넷을 통해 빅데이터를 선도적으로 마케팅에 활용하여 효과를 보면서 널리 알려지게 되었다고 합니다.

 

이후 스마트폰과 같은 디지털 기기의 보급과 소셜네트워크서비스(SNS)가 사람들의 관심 대상으로 떠올라 엄청난 양의 데이터가 생산되고 있습니다. 특히 페이스북과 트위터와 같은 SNS의 성장과 스마트 폰과 같은 모바일 기기의 확산이 결합하면서 급격하게 데이터가 증가하였다는 점과 거기에 멀티미디어 콘텐츠의 증가도 급증의 원인이 되었다고 합니다.

 

빅데이터의 활용


빅데이터의 효용가치에 먼저 주목하고 활용을 한 선두 주자는 기업입니다. 이제는 정치, 사회 등 사회과학 부문은 물론, 차 의료, 바이오 등 과학기술계로 확산하고 있다고 합니다.

 

빅데이터 홍수라는 말이 나올 만큼 경제 산업 전반에 걸쳐 활용 사례들이 늘어나고 있습니다. 기업이 빅데이터를 경쟁적으로 활용하고 경쟁을 하는 가운데 어느덧 빅데이터로 한 상품은 우리의 일상에 깊숙이 파고들고 있다고 합니다.

 

미국의 주요사례를 보면 구글은 독감이 확산하는 방향에 따라 예보도 합니다. 구글은 미국 대서양 연안 중부지역에서 독감이 확산할 것이라고 정확히 예측해 화제를 모았다. 이는 미국 질병통제예방센터보다도 2주 빠른 예보였습니다.

 

또 포드의 경차 판매량과 검색된 빈도 수는 거의 정확한 비례관계가 존재했으며, 헤지 펀드 매니저 다니엘 엠은 구글의 검색빈도 수를 펀드 운용에 활용하고 있다고 합니다.

 

우리나라 최고 석학들의 강연을 한데 엮은 구글 신은 모든 것을 알고 있다는 책 제목에서알 수 있듯이 구글 검색빈도수로 대통령 선거 예측도 가능하다고 합니다. 우리가 자주 이용하는 구글 자동 번역 서비스인 구글 번역 또한 빅 데이터를 활용한다고 합니다.

 

빅데이터의 문제점


네이처 학술지에 실리면서 빅 데이터의 위용을 떨치고 자신만만한 태도로 유지해 오던 구글이 이후로도 죽 구글트렌드를 이용해서 감기 전염률을 예측해왔는데, 그러나 2년 후에 큰 망신을 당하게 되는데 2013년에 실제보다 약 2배 초과 예측해버리는 어마어마한 오류를 범하게 되었습니다.

 

예측이 어긋난 가장 큰 이유는 2012년에 미국에서 발령한 독감 비상 때문이라는 의견이 지배적입니다. 여기에 언론이 가세하여 연일 독감 관련 보도를 하게 되었으며,그 결과 감기에 걸리지 않은 사람들조차 감기관련 검색을 더 많이 하게 되었다는 것이지요. 구글 트렌드는 이걸 오해해서 감기 전염률을 과대측정했다는 것입니다. 이는 곧 상관관계는 인과관계가 아니다라는 사실을 염두에 두어야 한다는 것입니다.

 

거기에다 빅 데이터가 각 개인에게 빅 브라더가 될 수 있다는 우려도 커지고 있습니다. 이제 정부뿐 아니라 특정 기업이나 기관 혹은 개인들마저도 특정인에 대한 뒷조사가 가능한 시대가 가까워지고 있다는 것입니다. 관계 법령 및 제도는 미비한 상황에 놓여있고 제대로 논의조차 안 되는 것이 아닌지 뒤돌아보아야 할 시점입니다.

 

우리나라의 경우 2013년 말에 발생한 카드 3의 대량 개인신용정보(성명, 주민번호, 자택 주소, 휴대전화번호 등 최대 19개 항목)의 누출사건이라든지, 방대한 분량의 한국인의 개인신용정보가 금융사기 목적으로 중국에서 헐값으로 유통되고 있는 등 개인정보 누출 관련 범죄가 증가하지 않을지 우려됩니다.

 

빅데이터의 미래


최근 들어서는 주변에서 관찰한 엄청난 양의 데이터를 수집하고 분석해서 현실에서 일어날 수 있는 일을 예측하는 제4의 패러다임 시기로 접어들고 있습니다.

 

일반인들에게 요구되는 것은 데이터 분석 기술에 대한 이해보다도 어떻게 빅 데이터를 가지고 실질적인 변화를 만들어 볼 것인지 가에 초점을 맞추어야 하겠습니다. 그러기 위해선 자신의 일과 삶에서 빅 데이터를 접목할 수 있는 시각을 접하는 것이 중요하다고 생각합니다.

 

유엔 미래보고서 2030에서 빅데이터와 우리의 삶을 다음과 같이 예측합니다. 2020년이 되면 데이터는 정보를 스스로 업데이트한다고 합니다. 한 집합된 데이터가 다른 데이터와 융합해서 만든 정보는 또 다른 모든 정보와 연결해 간다는 의미인 것 같습니다. 예를 들면 우리 생활 한가운데에 들어와 있는 각종 센서는 더 많은 정보를 흡수하면서 스스로 더 많은 데이터 용량을 처리할 수 있게 된다는 의미입니다. 미래학자 브라이언 데이비드 존슨은 ‘2020년 데이터의 비밀스러운 삶이라는 기사에서 미래에는 데이터가 너무 방대해져서 [인간은 나은 삶을 위해 필요한 데이터를 찾는 방법을 학습해야 한다] 고 한 말에서 우리가 나아가야 할 방향을 제시하는 것 같습니다.

 

어떤 전문가는 빅데이터 시대에서 나타날 수 있는 함정을 돌파하는 힘을 길려야 한다고 합니다. 데이터의 맥락을 읽고 그 인과관계를 끌어낼 수 있는 통찰 능력을 키워야만 빅 데이터를 잘 이용하는 지름길이라 합니다.

  





Posted by neoisme