파이썬을 이용한 텍스트 마이닝으로
‘아’ 다르고 ‘어’ 다른 한글 텍스트 분석하기
알고리즘에 대한 수학적인 이해가 없어도 개념 파악을 도와주며 독자들이 코드를 따라하면서 결과를 바로바로 확인할 수 있도록 구성했다. 또한 텍스트 데이터 추출을 위해 필수적인 웹 크롤링 기술도 익힌다. 따라서 독자들은 어떠한 웹페이지라도 이 책의 내용을 응용하여 스스로 데이터를 추출 할 수 있다. 이 책을 본 이후에는 데이터 수집부터 분석까지 전 과정을 스스로 할 수 있다.
텍스트 마이닝 분야는 공학자들 이외에 인문, 사회, 예체능 학생들 및 기업에서도 논문, 마케팅을 위해 쓸 수 있다. 세상 속에 존재하는 전체 데이터의 90% 이상이 비정형 텍스트 데이터로 이루어져 있다. 특히 각종 웹 페이지, sns 등에서 엄청난 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터를 잘 활용한다면 연구, 기업 경영 전략에 매우 유익하게 활용될 수 있으며 이를 위해서는 텍스트 마이닝 기술이 필수적이다.