목차 1. 정제 1) Noise Data ● 등장 빈도가 작은 단어 ● 불용어 2. 정규화 1) 대.소문자 통합 2) 어간추출 3) 표제어 추출 Reference https://wikidocs.net/217238 정제 Cleaning 목차 1. 정제 1) Noise Data ● 등장 빈도가 작은 단어 ● 불용어 2. 정규화 1) 대.소문자 통합 2) 어간추출 3) 표제어 추출 Reference https://wikidocs.net/217238 알약 Cleaning
■ 가지고 있는 코퍼스에서 Noise Data를 제거하는 전처리 과정 중 하나. ■ 토큰화 작업을 진행하기 전에 미리 실행되기도 하지만 지속적으로 진행되기도 한다. □ Noise Data ■ 자연어가 아닌, 아무런 의미도 없는 문자. (특수문자, emoji 등) ■ 분석하고자 하는 목적에 맞지 않는 불필요한 단어. □ 등장 빈도가 작은 단어■텍스트 데이터에 너무 적게 등장할 경우 NLP에 도움이 되지 않는다. ○ 스팸 메일과 일반 메일을 구별하는 분류기를 설계한다고 가정. ● 스팸메일(코퍼스)에서 주로 쓰이는 단어를 학습하고 일반 메일과 구별하기 위한 학습자료가 필요하다. ● 그런데 자주 등장하지 않는 단어가 있다면 그 단어로 정상/스팸을 구분하는 것은 불가능하다. ● 따라서, 그 단어는 분류기에 필요없는 Noise Data가 되므로 정제과정에서 걸러진다. □ 불용어(Stopword)■영어에서 I, my, me, 조사, 접미사 같은 단어는 문장에서는 자주 등장하지만 실제 분석에는 의미 X.■경험적으로 영어 단어의 평균 길이는 67 정도다. e) school(6), student(7)■따라서 영어권 언어는 길이가 짧은 단어를 삭제하는 것만으로도 불용어(Stopword)를 제거할 수 있다. ■ 가지고 있는 코퍼스에서 Noise Data를 제거하는 전처리 과정 중 하나. ■ 토큰화 작업을 진행하기 전에 미리 실행되기도 하지만 지속적으로 진행되기도 한다. □ Noise Data ■ 자연어가 아닌, 아무런 의미도 없는 문자. (특수문자, emoji 등) ■ 분석하고자 하는 목적에 맞지 않는 불필요한 단어. □ 등장 빈도가 작은 단어■텍스트 데이터에 너무 적게 등장할 경우 NLP에 도움이 되지 않는다. ○ 스팸 메일과 일반 메일을 구별하는 분류기를 설계한다고 가정. ● 스팸메일(코퍼스)에서 주로 쓰이는 단어를 학습하고 일반 메일과 구별하기 위한 학습자료가 필요하다. ● 그런데 자주 등장하지 않는 단어가 있다면 그 단어로 정상/스팸을 구분하는 것은 불가능하다. ● 따라서, 그 단어는 분류기에 필요없는 Noise Data가 되므로 정제과정에서 걸러진다. □ 불용어(Stopword)■영어에서 I, my, me, 조사, 접미사 같은 단어는 문장에서는 자주 등장하지만 실제 분석에는 의미 X.■경험적으로 영어 단어의 평균 길이는 67 정도다. e) school(6), student(7)■따라서 영어권 언어는 길이가 짧은 단어를 삭제하는 것만으로도 불용어(Stopword)를 제거할 수 있다.
正規化정규화 正規化 정규화
■ 표현 방법이 다른 단어를 통합시켜서 같은 단어로 만드는 전처리 과정 중 하나입니다. □ 대,소문자통합 ■ 대문자는 특수한 상황에만 사용되므로 대문자 > 소문자로 변환하는 소문자 변환 작업으로 구성됩니다. ■ 통합하지 않을 경우 NLP는 “Car”와 “car”를 다르게 인식하기 때문에 유용하지 않습니다. ■ 그러나 모든 경우에 해당하는 것은 아닙니다! ■ 표현 방법이 다른 단어를 통합시켜서 같은 단어로 만드는 전처리 과정 중 하나입니다. □ 대,소문자통합 ■ 대문자는 특수한 상황에만 사용되므로 대문자 > 소문자로 변환하는 소문자 변환 작업으로 구성됩니다. ■ 통합하지 않을 경우 NLP는 “Car”와 “car”를 다르게 인식하기 때문에 유용하지 않습니다. ■ 그러나 모든 경우에 해당하는 것은 아닙니다!
어간 추출 표제어 추출 방법 규칙 기반 접미사 제거 사전 기반 형태소 분석 속도 빠른 느린 정확성 낮은 높은 출력 형태 항상 의미 있는 단어가 아닌 의미 있는 기본 형태 어간 추출 표제어 추출 방법 규칙 기반 접미사 제거 사전 기반 형태소 분석 속도 빠른 느린 정확성 낮은 높은 출력 형태 항상 의미 있는 단어가 아닌 의미 있는 기본 형태