본문 바로가기
lecture

텍스트 데이터 전처리 과정

by 타닥타닥 토다토닥 부부 2023. 4. 11.
반응형

텍스트 데이터 전처리 과정

텍스트 데이터 전처리는 자연어 처리(Natural Language Processing, NLP)에서 중요한 단계 중 하나입니다. 텍스트 데이터 전처리는 텍스트 데이터를 기계가 이해하기 쉽게 처리하는 과정을 의미합니다. 아래는 일반적으로 수행되는 텍스트 데이터 전처리 과정입니다.

 

 

  1. 텍스트 데이터 수집
    • 대상이 되는 텍스트 데이터를 수집합니다. 인터넷 상에서 수집할 수도 있고, 기업이나 조사 기관에서 제공하는 데이터를 사용할 수도 있습니다.
  2. 토큰화(Tokenization)
    • 텍스트 데이터를 문장 단위 또는 단어 단위로 쪼개는 과정입니다. 문장 토큰화와 단어 토큰화가 있습니다. 예를 들어, "I like to eat pizza." 라는 문장을 단어 단위로 토큰화하면 ["I", "like", "to", "eat", "pizza", "."]와 같이 표현됩니다.
  3. 불용어 처리(Stopword Removal)
    • 자주 등장하지만 문장의 의미 파악에 큰 영향을 주지 않는 단어를 제거하는 과정입니다. 예를 들어, "a", "an", "the", "is", "of" 등이 불용어입니다.
  4. 어간 추출(Stemming) 또는 원형 복원(Lemmatization)
    • 단어의 어간을 추출하거나, 단어를 그 원형으로 복원하는 과정입니다. 예를 들어, "jumping", "jumps", "jumped" 등은 모두 "jump"의 어간을 가지고 있습니다. 이 중에서 원형을 추출하거나 복원할 수 있습니다.
  5. 벡터화(Vectorization)
    • 기계가 처리하기 쉬운 형태로 변환하는 과정입니다. Bag of Words(BoW)모델 기반 onehot encoding이 대표적인 예시이며, 주로 단어나 문서의 특징을 수치화하여 벡터로 표현합니다. Word2Vec, ELMO 등도 사용됩니다.
반응형

댓글