본문 바로가기
통계와 빅데이터

빅데이터의 개요 (2) - 데이터 분석과 데이터 과학자

by MumMummi 2024. 8. 30.

1. 데이터 분석

  • 20세기에는 표본조사와 실험계획법의 발달로 양질의 데이터를 축적하게 되었다.
  • 표본조사란 모집단에서 임의로 표본을 추출하여, 해당 모집단의 특성값을 추측하는 것으로 여론조사, 국가 통계 등을 예시로 들 수 있다.
  • 실험계획법은 피셔가 제안한 방법으로 실험의 실시를 통해 데이터 변화 요소의 효과를 측정하는 방법이며, 신약 계발이나 품질관리 등이 그 예이다.
  • 즉 양질의 데이터를 활용한 통계 모형을 만들고, 변수 간 인과관계를 도출하여 현상을 설명하였으며, 이는 20세기의 발전을 이룬 핵심 인프라로 작용했다.
  • 통계학이란 데이터 수집 및 분석 과정 그 자체이며, 모집단 가정, 양질의 데이터, 공정한 방법론을 통해 전체를 가장 그럴듯하게 추정하는 것이다.
  • 하지만 21세기에는 빅데이터 시대가 열렸으며, 통계 모형이 아닌 머신러닝을 활용하여 의사 결정을 진행하고 있다.
  • 머신러닝이란 빅데이터와 답을 학습시켜 만든 모형으로 인과 구조는 설명할 수 없지만 예측 결과의 정확도가 매우 높으며, 인간 바둑 기사에게 승리한 알파고를 그 예로 들 수 있다.
  • 이러한 빅데이터와 머신러닝의 등장은 기존 통계학의 판단 기준을 무너트렸으며, 기존의 과정 중심이 아닌 결과 중심의 데이터 분석 시대로 바뀌게 되었다.
  • 다만 빅데이터 분석의 경우 모집단 전체를 대표하지 못하는 편의가 발생하며, 편의에서 오는 한계를 극복하기 위한 데이터 과학자의 통찰이 중요한 요소로 등극하게 되었다.

 

2. 데이터 과학자

  • 21세기의 가장 매력적인 직업으로 꼽히는 데이터 과학자는 데이터 과학에 대한 업무를 하는 사람으로, 데이터 과학이란 수학, 통계학, 해킹 기술, 해당 분야의 전문 지식이 종합된 분야로 정의할 수 있다.
  • 데이터 과학은 전통적인 통계학과는 차이가 있다고 볼 수 있는데, 통계학은 공정한 수집 데이터를 바탕으로 결론을 도출하는 반면, 데이터 과학은 다양한 형태의 데이터를 수집하여 분석, 예측하는 학문 분야이다.
  • 데이터 직무는 데이터 공학자, 데이터 분석가, 데이터 과학자로 나눌 수 있는데, 데이터 공학자는 직접 대량의 데이터를 수집, 보관, 저장, 관리, 정제하는 사람으로 데이터를 분석할 수 있는 컴퓨팅 환경을 제공한다.
  • 데이터 공학자는 자바, 파이선 등의 프로그램 언어, 클라우드, 하둡, 스파크 등과 관련한 지식이 필요하다.
  • 데이터 분석가는 관련 데이터를 분석, 시각화하여 통찰을 도출하는 사람으로 통계학, SQL, 데이터 분석 언어, 시각화 도구 스킬 등을 보유하고 기본적인 분석이나 A/B테스트 등을 수행한다.
  • 데이터 과학자는 데이터 분석가와 유사하나 심화된 머신러닝 및 코딩 능력을 보유한 사람이며, 데이터를 활용하여 새로운 가치나 알고리즘을 만드는 업무를 수행한다.

 

3. 데이터 경제

  • 빅데이터는 옛 원유의 역할을 수행하고 있으며, 수집/가공/분석 등을 거쳐 부가가치를 창출하고 경제활동의 중요한 요소로 작용하고 있다.
  • 데이터 생태계는 공급자와 수요자로 구분되는데, 먼저 공급자는 데이터 생산자와 데이터를 유통하는 데이터 서비스 제공자가 있다.
  • 데이터 수요자로는 데이터를 활용하는 데이터 비지니스 이용자와 이러한 비지니스를 직접 이용하는 최종 소비자로 나눌 수 있다.
  • 데이터는 소모되지 않고 무한히 복제가 가능한 비경합성이라는 특성이 있어, 한계비용 제로의 속성을 지닌다.
  • 데이터의 가치는 최신성, 결합성, 사용 빈도, 정확도가 높아질수록 상승하므로 초기 무료 서비스 등을 제공하여 데이터를 축적한 회사들은 향후 시장을 독점할 가능성이 커진다.
  • 데이터와 관련된 제도적 환경은 계속해서 발전하고 있으며, 한국의 경우 개인정보 보호법, 신용정보의 이용 및 보호에 관한 법률, 데이터 산업 진흥 및 이용 촉진에 관한 기본법 등이 제정되었다.
  • 데이터는 기업이나 정부를 통해 축적되는데, 글로벌 빅테크 플랫폼은 미국 소재가 많아 국가 간 데이터의 격차가 발생하기도 한다.
  • 이러한 글로벌 빅테크 플랫폼 기업은 일단 다량의 개인 데이터를 수집한 다음, 인공지능 기술을 활용하여 고객 맞춤형 서비스를 제공하며, 이러한 서비스 이용 데이터를 바탕으로 또 다른 서비스를 만들어 낼 수 있다.
  • 데이터의 중요성을 고려할 때, 업체들은 아마존 등의 오픈마켓이 아닌 자체 쇼핑몰을 활용하여 판매 세부 데이터를 확보하고자 한다.
  • 고객 데이터 기반의 구독 서비스 또한 활성화되고 있는데, 미쉐린의 경우 타이어에 센서를 부착하여 구매, 수리, 폐기를 관리하고, GE는 항공기 엔진에 센서를 부착하여 엔진 관련 서비스를 운영하고 있다.
  • 데이터의 소유권에 대한 논의도 활발히 진행되고 있는데, 특정 국가에서 발생한 데이터는 해당 국가가 통제권을 가져야 한다는 의견이 법제화되고 있으며, 데이터 경제의 확산을 위해 각국 정부는 공공데이터의 개방, 학습 데이터 확보 등을 수행하고 있다.
  • 개인정보 이슈를 피해 가기 위해 가명 처리나 마이데이터 방식 또한 도입되고 있는데, 가명 처리란 개인정보의 일부를 대체하는 방법으로 개인을 식별할 수 없게 하고, 마이데이터는 본인의 다양한 데이터를 직접 관리하고 이동시키는 권한을 갖는 것이라고 할 수 있다.
  • 마이데이터 사업은 개인이 데이터 자기 결정권을 확보하게 하는 동시에 데이터 산업 활성화에도 기여할 수 있어 좋은 컨셉으로 판단되고 있다.
  • 정부는 데이터 산업의 진흥을 위하여 정기적으로 계획을 수립하는데, 이는 데이터 기본법에도 규정되어 있으며, 향후에도 데이터 유통시장의 활성화 및 데이터 산업의 지속적인 발전은 기대되는 바이다.

빅데이터 개요
데이터 분석과 데이터 과학자