반응형
sst-2 바이너리 데이터 셋 이란?
SST-2(Binary) 데이터셋은 Stanford Sentiment Treebank(SST)의 변형으로, 영화 리뷰 데이터를 기반으로 문장의 감정을 이진 분류로 레이블링한 데이터셋입니다. 이 데이터셋은 다음과 같은 특징을 가지고 있습니다:
주요 특징:
- 목적:
텍스트 데이터를 긍정(positive) 또는 부정(negative)으로 분류하는 감성 분석(Sentiment Analysis) 작업에 사용됩니다. - 구조:
- 입력: 영화 리뷰 텍스트 (한 문장 또는 문장 조각)
- 출력: 리뷰의 감성 레이블
- 0: 부정적인 감정
- 1: 긍정적인 감정
- 데이터 분할:
- 훈련 데이터(Train set): 모델 학습용 데이터.
- 검증 데이터(Dev set): 모델 성능을 평가하기 위한 중간 테스트용 데이터.
- 테스트 데이터(Test set): 최종 평가를 위한 데이터.
- 특징:
- SST-2(Binary)는 SST의 5단계 감정 레이블을 단순히 긍정/부정으로 변환한 버전입니다.
- 중립적인 리뷰는 포함되지 않으며, 감정이 명확한 데이터만 포함됩니다.
- 활용:
- 자연어 처리(NLP) 분야에서 감성 분석 모델의 성능을 평가하는 벤치마크로 자주 사용됩니다.
- BERT와 같은 사전 학습 모델을 fine-tuning하여 높은 정확도를 달성하는 데 널리 쓰입니다.
이 데이터셋은 텍스트 전처리(transform)와 머신러닝 모델 학습에 매우 유용하며, torchtext 같은 라이브러리를 활용해 쉽게 접근할 수 있습니다.
반응형
'etc' 카테고리의 다른 글
vs 코드에서 주피터 노트북 실행하기 - 아나콘다 설치 (맥OS) (0) | 2024.12.03 |
---|---|
화면 너비가 480px 이하가 되면 네비게이션 바 없어지는 html, css 코드 - @media (0) | 2024.11.23 |
CondaEnvironmentError: cannot remove current environment. deactivate and run conda remove again (0) | 2024.11.17 |
콘다 가상환경 삭제 (0) | 2024.11.17 |
echo 를 이용하여 .bashrc 파일 내용 추가하기 (0) | 2024.11.11 |
댓글