본문 바로가기
통계와 빅데이터

데이터과학, 데이터과학자와 데이터 주도권

by MumMummi 2024. 9. 7.

데이터과학의 기초 개념

  • 데이터과학은 데이터를 과학의 대상으로 다루는 접근법을 의미하는 것으로 체계적인 데이터 축적, 과학적인 데이터 분석틀 설계 등이 포함된다. 데이터과학은 데이터분석과 동일하다고 보는 관점도 있지만, 데이터 분석은 데이터과학의 일부분일 뿐이며, 분석 도구 자체까지 연구하는 포괄적인 학문이다.
  • 일반적 과학 이론과 데이터과학의 차이점은 그 형성과정에서 비롯된다. 대부분의 과학적 접근법은 검증의 대상이 되는 적절한 질문(가설)에서 시작하고, 데이터를 체계적으로 수집하여 증거를 축적한 뒤 확인한다. 그러나 데이터과학은  관찰, 측정, 데이터 수집이 선행되고 경험적 일반화 과정에 이르는 접근 방법이라고 할 수 있다.
  • 이에 데이터과학에서는 방법론적 관점에서 조사를 원활하게 수행하기 위한 방법, 도구, 접근 방식을 개발하는 것이 매우 중요하다. 또한 데이터의 수집, 분석, 장/단점 이해, 개선방안 등을 주로 목표로 고려한다. 
  • 데이터과학을 교육하기 위해서는 크게 수학, 컴퓨터과학, 통계학이라는 학문 분야가 필요하며, 전공 교과목 외에도 글쓰기, 말하기, 윤리학 등 연관 지식에 대한 습득이 데이터과학을 이루는 바탕이 된다. 

데이터과학
데이터과학

데이터과학자

  • 데이터과학자는 데이터의 수집 - 저장 - 가공 - 분석 - 의사결정에 이르는 일련의 과정을 수행하는 전문가를 의미하며, 단순히 데이터를 분석하는데에서 나아가 도메인 지식 또한 가지고 있어야 한다. 이러한 도메인 지식을 기반으로 데이터 분석 기획, 데이터 분석 등을 진행하고 업무 프로세스 개선, 경영 전략 결정 등의 의사결정을 돕는 역할을 수행한다. 
  • 데이터과학자는 빅데이터 시대의 도래와 함께 관심을 받게 되었는데, 내부 데이터 위주였던 기존과 달리 외부 데이터의 비중이 높아지면서 데이터를 입수, 정제하는 과정 또한 중요해짐에 따라 데이터과학자의 역할이 강조되었다. 
  • 빅데이터 시대에는 분석 절차가 과거 대비 많이 달라졌는데, 기존에는 데이터를 가지고 데이터 분석한 후 의사결정 자료를 작성하여 보고하는 형태였다면, 빅데이터 분석은 실시간 수집에서 현장 분석깢 ㅣ진행되는 경우가 많다. 
  • 분석 환경 또한 차이가 있는데, 과거에는 중앙 집중형의 서버 의존형이었다며, 빅데이터는 형태가 다양하고 크기가 커 중앙 서버 시스템에 적합하지 않다. 
  • 데이터과학자에게 요구되는 능력은 비지니스 분석 영역, 통계적 지식, 분석 대상(domain) 지식 등이며, 추가적인 하드스킬과 소프트 스킬이 필요하며 애널리틱스(분석) 능력, IT 전문성, 컨설팅 능력 등이 포함된다. 

 

데이터 주도권

  • 데이터 주도권이란 데이터를 이용하는 사람이 데이터 특성을 이해하고 분석의 결과, 해석, 활용까지 일련의 과정을 책임지는 태도를 의미한다. 데이터 주도권을 지니기 위해서는 다섯 가지 소양이 필요한데 이해력, 인문학적 소양, 통찰력, 윤리의식, 유연성이 포함된다. 
  • 이해력은 도구의 활용 능력을 제고하기 위해 필요한 요소로, 데이터 특징을 정확히 파악하고 분석 대상을 이해하는 것을 의미한다. 데이터는 잘못 이해하고 도구에만 집중할 경우 본질과 어긋난 분석 결과가 나올 것이며, 분석도구에 대한 충분한 이해가 없는 경우,  맹목적인 추종으로  잘못된 결과를 도출할 수 있다. 
  • 인문학적 소양은 데이터과학에서 매우 중요한 조건으로, 본질적인 의미를 이해하고 인간의 존재 가치 및 성찰이 뒷받침 되어야만 한다. 
  • 통찰력은 자주 언급되는 자질이며, 데이터 의미를 파악하고 분석 결과를 적절하게 해석할 수 있는 능력을 의미한다. 
  • 윤리의식은 데이터의 입수 - 접근 - 정제 - 결과해석 - 공표 등 매우 많은 경우에 문제로 작용할 수 있다. 데이터과학자는 최대한 자료를 객관적으로 보고해야 하며, 분석자 입장에서 유불리를 따지지 않는 중립성이 필요하다.
  • 유연성은 상황 변화에도 유연하게 대처할 수 있는 능력을 의미하며, 돌방 상황 즉시 대처 방안 등을 사전 준비해야만 한다.
  • 데이터 주도권의 다섯가지 요소를 교육과정에 연계시 이헤력 요소와 관련이 높으며, 다음으로 인문학적 소양은 쓰기, 말하기 등의 교과목과 연관성이 높은 것을 확인할 수 있다.