본문 바로가기
python

AG news 데이터셋 - torchtext

by 타닥타닥 토다토닥 부부 2024. 11. 20.
반응형

AG news 데이터셋 - torchtext

AG News 데이터셋은 뉴스 기사 제목과 요약 문장을 기반으로 뉴스를 4가지 카테고리로 분류하는 데 사용되는 텍스트 분류 데이터셋입니다. 이 데이터셋은 머신러닝과 자연어 처리(NLP) 모델의 성능 평가를 위한 문서 분류(Doc Classification) 작업에서 자주 활용됩니다.

  1. 목적:
    뉴스 기사를 다음의 4개 카테고리로 분류하는 작업에 사용됩니다:
    • World (세계 뉴스)
    • Sports (스포츠)
    • Business (비즈니스)
    • Sci/Tech (과학/기술)
  2. 구조:
    • 입력 데이터: 뉴스 제목과 요약.
      예:
      vbnet
      코드 복사
      Title: "NASA's New Telescope Begins Its Mission" Description: "The new telescope is set to discover galaxies and explore the universe."
    • 출력 레이블:
      • 1: World
      • 2: Sports
      • 3: Business
      • 4: Sci/Tech
  3. 데이터 분량:
    • 훈련 데이터: 약 120,000개의 뉴스 기사
    • 테스트 데이터: 약 7,600개의 뉴스 기사
  4. 데이터 출처:
    AG News는 인터넷에서 수집된 뉴스 기사를 기반으로 만들어졌으며, Andrew G.의 뉴스 데이터 모음에서 생성되었습니다.
  5. 활용 사례:
    • 뉴스 자동 분류 시스템 개발
    • 텍스트 분류 알고리즘 및 모델 성능 테스트
    • 딥러닝 기반 텍스트 분류 연구 (예: RNN, CNN, BERT 등의 모델 테스트)
  6. 데이터 예시:
Title: "Apple Announces New iPhone" 
Description: "The tech giant revealed its latest smartphone with new features and improved performance." 
Label: Sci/Tech

 

AG News는 텍스트 분류 모델의 성능을 벤치마크하고, 실제 분류 문제를 해결하는 데 유용한 데이터셋입니다.

반응형

댓글