트위터데이터1 빅데이터의 수집과 활용 (2) - 웹크롤링과 API 1. 웹페이지 데이터의 수집과 활용 1) 웹크롤링웹크롤링(Web Crawling)이란 웹스크래핑(Web Scraping)_이라고도 부르며, 데이터분석을 위해 HTML로 작성된 웹페이지에서 필요한 정보를 추출하는 행위이다. 웹크롤링은 사진, 이미지, 텍스트 등의 비정형 데이터를 그대로 가져오는 것은 아니고, 데이터 분석에 적합한 형태로 추출하는 것으로 웹사이트의 HTML/CSS 파싱(Parsing)을 통해 데이터를 구해야 한다. 웹사이트는 일정한 형태의 HTML 템플릿을 사용하는데, 각 사이트 마다 일부 차이가 있지만 충분히 분석하여 규칙에 따라 데이터를 추출하여야 한다. 웹크롤링은 크롤링 소프트웨어인 크롤러를 활용하여 진행할 수도 있는데, 크롤러는 다양한 웹페이지를 돌아다니며 색인을 만들어 데이터베이스에.. 2024. 8. 31. 이전 1 다음