1. 웹페이지 데이터의 수집과 활용
1) 웹크롤링
- 웹크롤링(Web Crawling)이란 웹스크래핑(Web Scraping)_이라고도 부르며, 데이터분석을 위해 HTML로 작성된 웹페이지에서 필요한 정보를 추출하는 행위이다.
- 웹크롤링은 사진, 이미지, 텍스트 등의 비정형 데이터를 그대로 가져오는 것은 아니고, 데이터 분석에 적합한 형태로 추출하는 것으로 웹사이트의 HTML/CSS 파싱(Parsing)을 통해 데이터를 구해야 한다.
- 웹사이트는 일정한 형태의 HTML 템플릿을 사용하는데, 각 사이트 마다 일부 차이가 있지만 충분히 분석하여 규칙에 따라 데이터를 추출하여야 한다.
- 웹크롤링은 크롤링 소프트웨어인 크롤러를 활용하여 진행할 수도 있는데, 크롤러는 다양한 웹페이지를 돌아다니며 색인을 만들어 데이터베이스에 저장을 진행한다.
- 단, 크롤링 기술을 활용하여 정보 무단 복제 시, 지적재산권 이슈가 발생할 수 있으므로 항상 주의해야 한다.
2) 웹페이지 데이터의 활용
- [ 온라인 물가지수 ]
- 물가지수는 통계청 등에서 공식 조사하여 주기적으로 공표하고 있으며, 소비자물가지수는 주요 소비 품목에 대해 월 1회 주기로 측정하여 라스파이레스 산식으로 지수를 만들고 있다.
- 이를 기반으로 한국은행이 소비자물가상승률의 중장기 타겟을 설정하고, 금리를 조정하는 등의 의사결정을 내리게 되는데, 때로는 물가지수가 가격 변동을 제대로 측정하지 못하기도 한다.
- 그리고 상품 가격 조사 시에도 주요 품목 위주로 진행하다 보니, 기준 연도의 품목이나 판매 형태에 국한되는 이슈가 있다.
- 한편 온라인 쇼핑몰의 상품가격의 경우, 품목 다양성이 높고 상품 가격이 실시간으로 변동하여 실제 물가에 대한 설명력이 높을 가능성이 크기 때문에 이러한 온라인 쇼핑몰 가격 변동 혹은 마트의 상품 바코드 스캔 데이터를 보조적으로 활용한다.
- MIT Billion Price 프로젝트란 웹크롤링으로 올라인 쇼핑몰 가격을 수집 후 실시간 지수를 만든 것으로, 미국의 경우 온라인 상승률과 공식 소비자물가 상승률이 매우 유사하다.
- 반면 아르헨티나의 경우 온라인 상승률과 공식 소비자 물가 상승률이 큰 차이를 보이며, 이는 물가지수가 제대로 작성되지 않아 국가 물가 파악에 어려움이 존재하는 예시로 활용될 수 있다.
- [ 감정 데이터 분석 ]
- 2005년 해리스와 캄바르는 전 세계의 블로그(MSN Space, Blogger, Flicker, Google 등)로부터 사람들이 느끼는 감정 데이터를 수집하여 정리하였다.
- 그들은 블로그 글 중 I feel, I am feeling으로 시작하는 문장을 로봇을 활용하여 검색하고, 추출된 단어를 분류하여 시간/지역에 따른 사람들의 감정 변화를 파악하고자 하였다.
2. API를 이용한 데이터의 수집과 활용
1) 트위터 데이터의 수집과 활용
- 2006년 트위터가 시작되었으며, 약 140자 이하의 짧은 문장을 공유하는 마이크로블로그이다. 트위터에서는 다른 사람을 팔로우함으로써 해당 사람이 작성한 글을 읽을 수 있는데, 타 채널보다 메세지 전파력 및 속도 측면에서 월등한 툴로 평가된다.
- 이에 기업의 프로모션, 정치/선거 캠페인 등에도 적극 활용되는 추세이다.
- 트위터는 제3자 앱 개발 및 데이터 수집을 가능하게 하도록 하는 공개 API를 제공하는데, 이에 데이터 분석자 또한 트윗 들을 API를 활용하여 분석할 수 있다.
- 트위터는 특히 미국 대선에서 자주 활용되는데 대선 관련 트윗을 분석하여 트위터 정치 지수를 발표하며, 이는 트위터 미국 대선 홈페이지에서 확인 할 수 있다.
2) 공공데이터의 수집과 활용
- 세계 많은 국가들은 정부 및 공공기관의 데이터를 개방하여 국가 경쟁력을 강화하고자 하며, 우리나라도 '공공데이터의 제공 및 이용 활성화에 관한 법률' 제정을 통하여 데이터 산업 육성 및 정책 투명화 노력을 기울이고 있다.
- 2009년 서울 내 버스정류장에서는 버스 도착 알림 전광판이 없어 무한정 기다려야 했으나, 서울과 경기도의 버스 정보 위치를 받아 스마트폰으로 알려주는 '서울버스' 앱이 개발되어 주목 받은 바 있다.
- 또한 코로나19 확산 초기, 마스크의 재고 확보에 상당한 어려움이 있었는데 이때도 빅데이터가 활용되었다.
'통계와 빅데이터' 카테고리의 다른 글
텍스트 빅데이터 (2) - 단어의 표현과 언어 모형 (3) | 2024.08.31 |
---|---|
텍스트 빅데이터 (1) - 자연어 처리 기술과 텍스트 전처리 (6) | 2024.08.31 |
빅데이터의 수집과 활용 (1) - 데이터 플랫폼 (1) | 2024.08.31 |
빅데이터의 개요 (2) - 데이터 분석과 데이터 과학자 (1) | 2024.08.30 |
빅데이터의 정의와 배경 (4) | 2024.08.30 |