정제(클리닝) & 정규화(정규화)

목차 1. 정제 1) Noise Data ● 등장 빈도가 작은 단어 ● 불용어 2. 정규화 1) 대.소문자 통합 2) 어간추출 3) 표제어 추출 Reference https://wikidocs.net/217238 정제 Cleaning 목차 1. 정제 1) Noise Data ● 등장 빈도가 작은 단어 ● 불용어 2. 정규화 1) 대.소문자 통합 2) 어간추출 3) 표제어 추출 Reference https://wikidocs.net/217238 알약 Cleaning

■ 가지고 있는 코퍼스에서 Noise Data를 제거하는 전처리 과정 중 하나. ■ 토큰화 작업을 진행하기 전에 미리 실행되기도 하지만 지속적으로 진행되기도 한다. □ Noise Data ■ 자연어가 아닌, 아무런 의미도 없는 문자. (특수문자, emoji 등) ■ 분석하고자 하는 목적에 맞지 않는 불필요한 단어. □ 등장 빈도가 작은 단어■텍스트 데이터에 너무 적게 등장할 경우 NLP에 도움이 되지 않는다. ○ 스팸 메일과 일반 메일을 구별하는 분류기를 설계한다고 가정. ● 스팸메일(코퍼스)에서 주로 쓰이는 단어를 학습하고 일반 메일과 구별하기 위한 학습자료가 필요하다. ● 그런데 자주 등장하지 않는 단어가 있다면 그 단어로 정상/스팸을 구분하는 것은 불가능하다. ● 따라서, 그 단어는 분류기에 필요없는 Noise Data가 되므로 정제과정에서 걸러진다. □ 불용어(Stopword)■영어에서 I, my, me, 조사, 접미사 같은 단어는 문장에서는 자주 등장하지만 실제 분석에는 의미 X.■경험적으로 영어 단어의 평균 길이는 67 정도다. e) school(6), student(7)■따라서 영어권 언어는 길이가 짧은 단어를 삭제하는 것만으로도 불용어(Stopword)를 제거할 수 있다. ■ 가지고 있는 코퍼스에서 Noise Data를 제거하는 전처리 과정 중 하나. ■ 토큰화 작업을 진행하기 전에 미리 실행되기도 하지만 지속적으로 진행되기도 한다. □ Noise Data ■ 자연어가 아닌, 아무런 의미도 없는 문자. (특수문자, emoji 등) ■ 분석하고자 하는 목적에 맞지 않는 불필요한 단어. □ 등장 빈도가 작은 단어■텍스트 데이터에 너무 적게 등장할 경우 NLP에 도움이 되지 않는다. ○ 스팸 메일과 일반 메일을 구별하는 분류기를 설계한다고 가정. ● 스팸메일(코퍼스)에서 주로 쓰이는 단어를 학습하고 일반 메일과 구별하기 위한 학습자료가 필요하다. ● 그런데 자주 등장하지 않는 단어가 있다면 그 단어로 정상/스팸을 구분하는 것은 불가능하다. ● 따라서, 그 단어는 분류기에 필요없는 Noise Data가 되므로 정제과정에서 걸러진다. □ 불용어(Stopword)■영어에서 I, my, me, 조사, 접미사 같은 단어는 문장에서는 자주 등장하지만 실제 분석에는 의미 X.■경험적으로 영어 단어의 평균 길이는 67 정도다. e) school(6), student(7)■따라서 영어권 언어는 길이가 짧은 단어를 삭제하는 것만으로도 불용어(Stopword)를 제거할 수 있다.

正規化정규화 正規化 정규화

■ 표현 방법이 다른 단어를 통합시켜서 같은 단어로 만드는 전처리 과정 중 하나입니다. □ 대,소문자통합 ■ 대문자는 특수한 상황에만 사용되므로 대문자 > 소문자로 변환하는 소문자 변환 작업으로 구성됩니다. ■ 통합하지 않을 경우 NLP는 “Car”와 “car”를 다르게 인식하기 때문에 유용하지 않습니다. ■ 그러나 모든 경우에 해당하는 것은 아닙니다! ■ 표현 방법이 다른 단어를 통합시켜서 같은 단어로 만드는 전처리 과정 중 하나입니다. □ 대,소문자통합 ■ 대문자는 특수한 상황에만 사용되므로 대문자 > 소문자로 변환하는 소문자 변환 작업으로 구성됩니다. ■ 통합하지 않을 경우 NLP는 “Car”와 “car”를 다르게 인식하기 때문에 유용하지 않습니다. ■ 그러나 모든 경우에 해당하는 것은 아닙니다!

인기글