본문 바로가기
lecture

sequence_length ? / padding

by 타닥타닥 토다토닥 부부 2023. 4. 13.
반응형

sequence_length ? / padding 패딩

 

설명
sequence_length는 입력 텐서의 시퀀스 길이를 나타냅니다. 시퀀스 길이는 주로 텍스트 데이터에서 문장의 길이, 시계열 데이터에서 관측치의 수, 혹은 다른 순차적 데이터에서 연속된 요소의 개수와 같은 것을 의미합니다.

자연어 처리(NLP) 작업에서, 시퀀스 길이는 주어진 문장 또는 문서에 포함된 토큰(단어, 문자, 서브워드 등)의 개수를 나타냅니다. 시퀀스 길이가 고정되지 않은 경우, 모든 입력 시퀀스가 동일한 길이를 갖도록 패딩(padding)을 사용하여 길이를 조정할 수 있습니다.

특징(padding)
자연어 처리(NLP) 작업에서, 시퀀스 길이는 주어진 문장 또는 문서에 포함된 토큰(단어, 문자, 서브워드 등)의 개수를 나타냅니다. 시퀀스 길이가 고정되지 않은 경우, 모든 입력 시퀀스가 동일한 길이를 갖도록 패딩(padding)을 사용하여 길이를 조정할 수 있습니다.

 

padding 과정
1. 예시 문장  제시
"안녕하세요 여러분"
"저는 인공지능입니다"
"오늘은 좋은 날씨에요"
2. 토큰화
["안녕하세요", "여러분"]
["저는", "인공지능입니다"]
["오늘은", "좋은", "날씨에요"]
3. 토큰 시퀀스들의 시퀀스 길이는 각각 2, 2, 3. -> 동일한 길이로 맞추기 위해 가장 긴 시퀀스 길이인 3으로 패딩
["안녕하세요", "여러분", "<pad>"]
["저는", "인공지능입니다", "<pad>"]
["오늘은", "좋은", "날씨에요"]
반응형

댓글