반응형
AG news 데이터셋 - torchtext
AG News 데이터셋은 뉴스 기사 제목과 요약 문장을 기반으로 뉴스를 4가지 카테고리로 분류하는 데 사용되는 텍스트 분류 데이터셋입니다. 이 데이터셋은 머신러닝과 자연어 처리(NLP) 모델의 성능 평가를 위한 문서 분류(Doc Classification) 작업에서 자주 활용됩니다.
- 목적:
뉴스 기사를 다음의 4개 카테고리로 분류하는 작업에 사용됩니다:- World (세계 뉴스)
- Sports (스포츠)
- Business (비즈니스)
- Sci/Tech (과학/기술)
- 구조:
- 입력 데이터: 뉴스 제목과 요약.
예:vbnet코드 복사Title: "NASA's New Telescope Begins Its Mission" Description: "The new telescope is set to discover galaxies and explore the universe." - 출력 레이블:
- 1: World
- 2: Sports
- 3: Business
- 4: Sci/Tech
- 입력 데이터: 뉴스 제목과 요약.
- 데이터 분량:
- 훈련 데이터: 약 120,000개의 뉴스 기사
- 테스트 데이터: 약 7,600개의 뉴스 기사
- 데이터 출처:
AG News는 인터넷에서 수집된 뉴스 기사를 기반으로 만들어졌으며, Andrew G.의 뉴스 데이터 모음에서 생성되었습니다. - 활용 사례:
- 뉴스 자동 분류 시스템 개발
- 텍스트 분류 알고리즘 및 모델 성능 테스트
- 딥러닝 기반 텍스트 분류 연구 (예: RNN, CNN, BERT 등의 모델 테스트)
- 데이터 예시:
Title: "Apple Announces New iPhone"
Description: "The tech giant revealed its latest smartphone with new features and improved performance."
Label: Sci/Tech
AG News는 텍스트 분류 모델의 성능을 벤치마크하고, 실제 분류 문제를 해결하는 데 유용한 데이터셋입니다.
반응형
댓글