Deep learning/NLP(자연어처리)
자연어 처리(불용어)
불용어(Stopword) 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해 큰 의미가 없는 단어 토큰을 제거해야 한다. 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없다. 이러한 단어들을 불용어라 한다. 1. NLTK에서 불용어 확인하기 from nltk.corpus import stopwords stopwords.words('english')[:10] ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your'] stopwords.words("english")는 NLTK가 정의한 영어 불용어 리스트를 리턴합니다. 2. NLTK를 통해서 불용어 제거하기 # NLTK..
2020. 2. 26. 14:36