방통대 통계데이터과학1 텍스트 빅데이터 (2) - 단어의 표현과 언어 모형 1. 단어의 표현 방법 컴퓨터는 자연어를 이해하지 못하기 때문에 단어를 숫자로 변경하여 표현함으로써 문서에 포함된 단어들의 빈도수를 파악하고, 주요 단어 여부에 대한 판단할 수 있다. 예를 들어 강연자가 진행한 연설 중에 특정 단어가 계속 반복되는 경우, 해당 단어가 강연의 주제어일 가능성이 있다고 결론을 내는 것이다. 1) 단어가방모형Bag of words / 단어가방모형은 전통적인 텍스트 모형으로 아주 단순한 모형이다. 이는 단어의 순서에 대한 고려 없이 빈도만을 계산하는 방법으로 빈도에 따라 단어가 얼마나 중요한지 여부를 판단한다. 단어가방모형을 만들고자 한다면, 특정 문서에 있는 전체 단어의 리스트를 만들고 해당 단어가 몇 번 사용되었는지 숫자를 세면 된다. [ 단어가방모형 예시 ] The B.. 2024. 8. 31. 이전 1 다음