Deep learning/NLP(자연어처리)
문서 단어 행렬(Document-Term Matrix, DTM)
문서 단어 행렬(Document-Term Matrix, DTM)이란, 각 문서에 대한 BoW 표현 방법을 그대로 갖고 와서, 서로 다른 문서들의 BoW들을 결합한 표현 방법이다. 행과 열을 반대로 선택하면 TDM이라고 부르기도 한다. 1. 문서 단어 행렬(Document-Term Matrix, DTM)의 표기법 문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것을 말한다. * 쉽게 말해, 각 문서에 대한 BoW를 하나의 행렬로 만든 것이다. 예를 들어 4개의 문서가 있다고 하자. 문서1 : 먹고 싶은 사과 문서2 : 먹고 싶은 바나나 문서3 : 길고 노란 바나나 바나나 문서4 : 저는 과일이 좋아요 이를 문서 단어 행렬로 표현..
2020. 3. 3. 00:44