반응형
torchtext data.field 파라미터 설명
파라미터 | 설명 |
sequential | - 데이터가 순차적인지 여부를 나타내는 불린(Boolean) 값입니다. - 텍스트 데이터의 경우 일반적으로 True로 설정하며, 기본값은 True입니다. |
use_vocab | - 데이터를 정수로 변환할지 여부를 나타내는 불린(Boolean) 값입니다. - 텍스트 데이터의 경우 일반적으로 True로 설정하며, 기본값은 True입니다. - 이미 정수 인덱스로 변환된 데이터를 처리하므로 use_vocab을 False로 설정하고 사용합니다. |
include_lengths | - 패딩된 미니배치와 각 예제의 길이를 포함한 리스트를 반환할지, 아니면 패딩된 미니배치만 반환할지를 결정합니다. - True로 설정된 경우, 데이터 로더는 패딩된 미니배치와 각 예제의 길이를 포함하는 튜플을 반환합니다. - False로 설정된 경우 (기본값), 데이터 로더는 패딩된 미니배치만 반환합니다. |
fix_length | - 시퀀스의 길이를 고정하려면 정수 값을 설정하세요. - 기본값은 None입니다. |
init_token | - 모든 시퀀스의 시작 부분에 추가할 토큰입니다. - 이 토큰은 일반적으로 문장의 시작을 나타냅니다. - 기본값은 None입니다. |
eos_token | - 모든 시퀀스의 끝 부분에 추가할 토큰입니다. - 이 토큰은 일반적으로 문장의 끝을 나타냅니다. - 기본값은 None입니다. |
pad_token | - 시퀀스를 패딩할 때 사용할 토큰입니다. - 기본값은 '<pad>'입니다. |
unk_token | - 사전에 없는 단어를 나타내는 토큰입니다. - 기본값은 '<unk>'입니다. |
batch_first | - 배치차원에 순서를 조절하는 옵션입니다. - batch_first=True로 설정하면 (batch_size, seq_len, input_size)와 같이 텐서를 조절합니다. |
torchtext 를 활용하여 데이터를 구성해본 예시는 아래 링크를 통해 확인할 수 있습니다.
반응형
'python' 카테고리의 다른 글
파이썬 마지막 문자 확인 (1) | 2023.05.09 |
---|---|
파이토치 clamp 최소값, 최대값 고정 (0) | 2023.05.09 |
torchtext를 활용한 학습데이터 구성 예시 (0) | 2023.05.08 |
파이썬 정적 함수 vs 동적함수 (0) | 2023.05.07 |
@staticmethod 데코레이터, 객체선언 없이 클래스 메서드 사용하기 (0) | 2023.05.07 |
댓글