'Deep learning' 카테고리의 글 목록 (2 Page)

정제(Cleaning) and 정규화(Normalization)

코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)라고 하며, 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 일을 행 하여야한다. 정제 및 정규화의 목적은 다음과 같다. 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 정제 작업은 토큰화 작업 전후에 방해가 되는 부분을 배제 시키기 위해 지속적으로 이루어 지기도 한다. 1. 규칙에 기반한 표기가 다른 단어들의 통합 필요에 따라 정의할 수 있는 정규화 규칙의 예로서 같은 의미를 갖고 있음에도, 표기가 다른 단어들을 하나의 단어로 정규..

2020. 3. 1. 00:53

Deep learning/NLP(자연어처리)

토큰화

※ 자연어란 우리가 일상 생활에서 사용하는 언어를 말한다. ※자연어 처리란 이러한 자연어에 의미를 분석하여 컴퓨터가 처리 할 수 있도록 하는 일을 말한다. * 텍스트 전처리 텍스트 전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업입니다. 데이터가 필요에 맞게 전처리 되지 않은 상태라면, 데이터를 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 해야 합니다. 주어진 말뭉치(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화라고 부릅니다. 1. 단어 토큰화 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화라고 합니다. 예를들어, 아래의 입력으로부터 구두점(punctuation)과 같은 문자는 제외시키는 간단..

2020. 3. 1. 00:53

Deep learning/NLP(자연어처리)

펄플렉서티(Perplexity)

두 개의 모델 A, B가 있을 때 두 개의 모델을 오타 교정, 기계번역등의 평가에 투입해보면 모델의 성능을 비교할 수 있다. 그리고 두 모델이 해당 업무의 성능을 누가 더 잘했는지를 비교하면 된다. 그러나 성능 비교를 위해 일일히 모델들에 대해서 실제 작업을 시켜보고 정확도를 비교하는 것은 공수가 너무 많이 드는 작업이다. 만약 비교해야 하는 모델이 여러 개면 시간은 비교해야 하는 모델 수 만큼 배로 늘어날 수 있다. 이러한 평가를 외부평가(extrinsic evaluation)라고 하는데, 이러한 평가보다는 어쩌면 조금은 부정확 할 수는 있어도 테스트 데이터에 대해서 빠르게 식으로 계산되는 더 간단한 평가 방법이 있다. 바로 모델 내에서 자신의 성능을 수치화하여 내놓는 내부평가(Intrinsic eva..

2020. 2. 27. 14:40

Deep learning/NLP(자연어처리)

한국어에서의 언어 모델(Language Model for Korean Sentences)

영어나 기타 언어에 비해서 한국어는 언어 모델로 다음 단어를 예측하기가 훨씬 까다롭다. 1. 한국어는 어순이 중요하지 않다. 한국어에서는 어순이 중요하지 않다. 이전 단어가 주어졌을때, 다음 단어가 나타날 확률을 구해야하는데 어순이 중요하지 않다는 것은 어떤 단어든 나타나도 된다는 의미이다. 예를 들어보면) ① 나는 운동을 합니다 체육관에서. ② 나는 체육관에서 운동을 합니다. ③ 체육관에서 운동을 합니다. ④ 나는 운동을 체육관에서 합니다. 4개의 문장은 전부 의미가 통하는 것을 볼 수 있다. 위와 같이 순서를 뒤죽박죽으로 바꾸어놔도 한국어는 의미가 전달 되기 때문에 확률에 기반한 언어 모델이 제대로 다음 단어를 예측하기 어렵다. 2. 한국어는 교착어이다. 한국어는 교착어이기 때문에 한국어에서의 언어 ..

2020. 2. 27. 14:40

Deep learning/NLP(자연어처리)

N-gram 언어 모델(N-gram Language Model)

n-gram 언어 모델은 카운트에 기반한 통계적 접근을 사용하고 있다. 이전에 등장한 단어 중 일부 단어만 고려하는 접근 방법을 사용하고 있다. 이때 일부 단어를 몇 개 보느냐를 결정하는데 이것이 n-gram에서의 n이 가지는 의미이다. 1. 코퍼스에서 카운트하지 못하는 경우의 감소 SLM의 한계 훈련 corpus에 확률을 계산하고 싶은 문장이나 단어가 없을 수 있다. 확률을 계산하고 싶은 문장이 길어질수록 갖고 있는 코퍼스에서 그 문장이 존재하지 않을 가능성이 높다. 다음과 같이 참고하는 단어들을 줄이면 카운트 할 수 있는 가능성을 높일 수 있다. 위의 수식처럼 앞 단어 중 임의의 개수만 포함해서 카운트하여 근사할 수 있다. 이렇게 하면 갖고 있는 코퍼스에서 해당 단어의 시퀀스를 카운트할 확률이 높아진..

2020. 2. 27. 10:49

Deep learning/NLP(자연어처리)

통계적 언어 모델(Statistical Language Model, SLM)

통계적 언어모델은 전통적인 접근 방법이다. 1. 조건부 확률 조건부 확률은 두 확률 P(A), P(B)에 대해서 아래와 같은 관계를 갖는다. 4개의 확률이 조건부 확률의 관계를 가질 때는 아래와 같이 표현 할 수 있다. 이를 조건부 확률의 연쇄 법칙(chain rule)이라고 한다. 다음은 n개에 대해서 일반화를 해본다. 조건부 확률에 대한 정의를 통해 문장의 확률을 구할 수 있다. 2. 문장에 대한 확률 문장 'An adorable little boy is spreading smiles'의 확률 P(An adorable little boy is spreading smiles)를 식으로 표현해봅시다. 조건부 확률의 일반화 식을 문장의 확률 관점에서 다시 적어보면 문장의 확률은 각 단어들이 이전 단어가 주..

2020. 2. 27. 10:03

Deep learning/NLP(자연어처리)

언어 모델(Language Model)

1. 언어 모델(Language Model, LM) - 언어 모델(Language Model)은 언어라는 현상을 모델링 하고자 단어 시퀀스(또는 문장)에 확률을 할당하는 모델이다. - 언어 모델(Language Model,LM)이란 단어 시퀀스(문장)에 확률을 할당하는 모델을 말한다. 언어 모델을 만드는 방법은 크게 2가지 방법으로 구분한다 통계를 이용한 방법 인공 신경망을 이용한 방법 언어 모델링(Language Modeling)은 주어진 단어들로부터 아직 모르는 단어를 예측하는 작업을 말한다. 2. 단어 시퀀스의 확률 할당 * P = 확률 자연어 처리에서 단어 시퀀스에 확률을 할당하는 일이 왜 필요한지 알아보자. a. 기계 번역(Machine Translation): * P(나는 버스를 탔다) > P..

2020. 2. 26. 20:56

Deep learning/NLP(자연어처리)

자연어 처리(불용어)

불용어(Stopword) 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해 큰 의미가 없는 단어 토큰을 제거해야 한다. 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없다. 이러한 단어들을 불용어라 한다. 1. NLTK에서 불용어 확인하기 from nltk.corpus import stopwords stopwords.words('english')[:10] ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your'] stopwords.words("english")는 NLTK가 정의한 영어 불용어 리스트를 리턴합니다. 2. NLTK를 통해서 불용어 제거하기 # NLTK..

2020. 2. 26. 14:36

정착소

티스토리툴바