반응형
텍스트 데이터 전처리 과정
텍스트 데이터 전처리는 자연어 처리(Natural Language Processing, NLP)에서 중요한 단계 중 하나입니다. 텍스트 데이터 전처리는 텍스트 데이터를 기계가 이해하기 쉽게 처리하는 과정을 의미합니다. 아래는 일반적으로 수행되는 텍스트 데이터 전처리 과정입니다.
- 텍스트 데이터 수집
- 대상이 되는 텍스트 데이터를 수집합니다. 인터넷 상에서 수집할 수도 있고, 기업이나 조사 기관에서 제공하는 데이터를 사용할 수도 있습니다.
- 토큰화(Tokenization)
- 텍스트 데이터를 문장 단위 또는 단어 단위로 쪼개는 과정입니다. 문장 토큰화와 단어 토큰화가 있습니다. 예를 들어, "I like to eat pizza." 라는 문장을 단어 단위로 토큰화하면 ["I", "like", "to", "eat", "pizza", "."]와 같이 표현됩니다.
- 불용어 처리(Stopword Removal)
- 자주 등장하지만 문장의 의미 파악에 큰 영향을 주지 않는 단어를 제거하는 과정입니다. 예를 들어, "a", "an", "the", "is", "of" 등이 불용어입니다.
- 어간 추출(Stemming) 또는 원형 복원(Lemmatization)
- 단어의 어간을 추출하거나, 단어를 그 원형으로 복원하는 과정입니다. 예를 들어, "jumping", "jumps", "jumped" 등은 모두 "jump"의 어간을 가지고 있습니다. 이 중에서 원형을 추출하거나 복원할 수 있습니다.
- 벡터화(Vectorization)
- 기계가 처리하기 쉬운 형태로 변환하는 과정입니다. Bag of Words(BoW)모델 기반 onehot encoding이 대표적인 예시이며, 주로 단어나 문서의 특징을 수치화하여 벡터로 표현합니다. Word2Vec, ELMO 등도 사용됩니다.
반응형
'lecture' 카테고리의 다른 글
주소 전처리 종류와 예시 (0) | 2023.04.30 |
---|---|
ngram 수행 과정, ngram workflow (0) | 2023.04.27 |
gpt가 소개하는 데이터 분석 프로그래밍 언어와 파이썬의 장단점 (0) | 2023.04.25 |
알고있으면 좋은 로그 공식 (0) | 2023.04.15 |
sequence_length ? / padding (0) | 2023.04.13 |
댓글