반응형
sequence_length ? / padding 패딩
설명 |
sequence_length는 입력 텐서의 시퀀스 길이를 나타냅니다. 시퀀스 길이는 주로 텍스트 데이터에서 문장의 길이, 시계열 데이터에서 관측치의 수, 혹은 다른 순차적 데이터에서 연속된 요소의 개수와 같은 것을 의미합니다. |
자연어 처리(NLP) 작업에서, 시퀀스 길이는 주어진 문장 또는 문서에 포함된 토큰(단어, 문자, 서브워드 등)의 개수를 나타냅니다. 시퀀스 길이가 고정되지 않은 경우, 모든 입력 시퀀스가 동일한 길이를 갖도록 패딩(padding)을 사용하여 길이를 조정할 수 있습니다.
특징(padding) |
자연어 처리(NLP) 작업에서, 시퀀스 길이는 주어진 문장 또는 문서에 포함된 토큰(단어, 문자, 서브워드 등)의 개수를 나타냅니다. 시퀀스 길이가 고정되지 않은 경우, 모든 입력 시퀀스가 동일한 길이를 갖도록 패딩(padding)을 사용하여 길이를 조정할 수 있습니다. |
padding 과정 |
1. 예시 문장 제시 |
"안녕하세요 여러분" "저는 인공지능입니다" "오늘은 좋은 날씨에요" |
2. 토큰화 |
["안녕하세요", "여러분"] ["저는", "인공지능입니다"] ["오늘은", "좋은", "날씨에요"] |
3. 토큰 시퀀스들의 시퀀스 길이는 각각 2, 2, 3. -> 동일한 길이로 맞추기 위해 가장 긴 시퀀스 길이인 3으로 패딩 |
["안녕하세요", "여러분", "<pad>"] ["저는", "인공지능입니다", "<pad>"] ["오늘은", "좋은", "날씨에요"] |
반응형
'lecture' 카테고리의 다른 글
주소 전처리 종류와 예시 (0) | 2023.04.30 |
---|---|
ngram 수행 과정, ngram workflow (0) | 2023.04.27 |
gpt가 소개하는 데이터 분석 프로그래밍 언어와 파이썬의 장단점 (0) | 2023.04.25 |
알고있으면 좋은 로그 공식 (0) | 2023.04.15 |
텍스트 데이터 전처리 과정 (0) | 2023.04.11 |
댓글