본문 바로가기
etc

sst-2 바이너리 데이터 셋 이란?

by 타닥타닥 토다토닥 부부 2024. 11. 19.
반응형

sst-2 바이너리 데이터 셋 이란?

SST-2(Binary) 데이터셋은 Stanford Sentiment Treebank(SST)의 변형으로, 영화 리뷰 데이터를 기반으로 문장의 감정을 이진 분류로 레이블링한 데이터셋입니다. 이 데이터셋은 다음과 같은 특징을 가지고 있습니다:

주요 특징:

  1. 목적:
    텍스트 데이터를 긍정(positive) 또는 부정(negative)으로 분류하는 감성 분석(Sentiment Analysis) 작업에 사용됩니다.
  2. 구조:
    • 입력: 영화 리뷰 텍스트 (한 문장 또는 문장 조각)
    • 출력: 리뷰의 감성 레이블
      • 0: 부정적인 감정
      • 1: 긍정적인 감정
  3. 데이터 분할:
    • 훈련 데이터(Train set): 모델 학습용 데이터.
    • 검증 데이터(Dev set): 모델 성능을 평가하기 위한 중간 테스트용 데이터.
    • 테스트 데이터(Test set): 최종 평가를 위한 데이터.
  4. 특징:
    • SST-2(Binary)는 SST의 5단계 감정 레이블을 단순히 긍정/부정으로 변환한 버전입니다.
    • 중립적인 리뷰는 포함되지 않으며, 감정이 명확한 데이터만 포함됩니다.
  5. 활용:
    • 자연어 처리(NLP) 분야에서 감성 분석 모델의 성능을 평가하는 벤치마크로 자주 사용됩니다.
    • BERT와 같은 사전 학습 모델을 fine-tuning하여 높은 정확도를 달성하는 데 널리 쓰입니다.

이 데이터셋은 텍스트 전처리(transform)와 머신러닝 모델 학습에 매우 유용하며, torchtext 같은 라이브러리를 활용해 쉽게 접근할 수 있습니다.

반응형

댓글