본문 바로가기
python

torchtext data.field 파라미터 설명

by 와우지니 2023. 5. 8.
반응형

torchtext data.field 파라미터 설명

 

파라미터 설명
sequential - 데이터가 순차적인지 여부를 나타내는 불린(Boolean) 값입니다.
- 텍스트 데이터의 경우 일반적으로
True로 설정하며, 기본값은 True입니다.
use_vocab - 데이터를 정수로 변환할지 여부를 나타내는 불린(Boolean) 값입니다.
- 텍스트 데이터의 경우 일반적으로
True로 설정하며, 기본값은 True입니다.
- 이미 정수 인덱스로 변환된 데이터를 처리하므로 use_vocabFalse로 설정하고 사용합니다.
include_lengths - 패딩된 미니배치와 각 예제의 길이를 포함한 리스트를 반환할지, 아니면 패딩된 미니배치만 반환할지를 결정합니다.
- True로 설정된 경우, 데이터 로더는 패딩된 미니배치와 각 예제의 길이를 포함하는 튜플을 반환합니다.
- False로 설정된 경우 (기본값), 데이터 로더는 패딩된 미니배치만 반환합니다.
fix_length - 시퀀스의 길이를 고정하려면 정수 값을 설정하세요.
- 기본값은
None입니다.
init_token - 모든 시퀀스의 시작 부분에 추가할 토큰입니다.
- 이 토큰은 일반적으로 문장의 시작을 나타냅니다.
- 기본값은
None입니다.
eos_token - 모든 시퀀스의 끝 부분에 추가할 토큰입니다.
- 이 토큰은 일반적으로 문장의 끝을 나타냅니다.
- 기본값은
None입니다.
pad_token - 시퀀스를 패딩할 때 사용할 토큰입니다.
- 기본값은
'<pad>'입니다.
unk_token - 사전에 없는 단어를 나타내는 토큰입니다.
- 기본값은
'<unk>'입니다.
batch_first - 배치차원에 순서를 조절하는 옵션입니다.
- batch_first=True로 설정하면 (batch_size, seq_len, input_size)와 같이 텐서를 조절합니다.

 

 

torchtext 를 활용하여 데이터를 구성해본 예시는 아래 링크를 통해 확인할 수 있습니다.

https://noanomal.tistory.com/entry/torchtext%EB%A5%BC-%ED%99%9C%EC%9A%A9%ED%95%9C-%ED%95%99%EC%8A%B5%EB%8D%B0%EC%9D%B4%ED%84%B0-%EA%B5%AC%EC%84%B1-%EC%98%88%EC%8B%9C

 

torchtext를 활용한 학습데이터 구성 예시

In [1]: # 버젼이 달라지면 패키지 불러오는 방식이 달라집니다. # 반드시 아래 버젼으로 설치해주세요 # pip install torchtext==0.10.0 torchtext를 활용한 학습데이터 구성 예시¶ In [2]: # torchtext 관련 패키

noanomal.tistory.com

 

반응형

댓글