본문 바로가기

lecture15

알고있으면 좋은 로그 공식 기본 설명 로그에는 자연로그, 상용로그, 밑이 a인 로그 등 여러 가지 종류가 있습니다. 로그 성질 log_a(1) = 0 로그의 밑과 관계없이 진수가 1이면 그 값은 0과 같음 log_a(a) = 1 로그의 밑과 진수가 같으면 1과 같음 log_a(a^x) = x 밑이 a인 로그에서 a의 x 거듭제곱은 x와 같다. a^(log_a(x)) = x 밑이 a인 로그에서 log_a(x)만큼의 거듭제곱을 한 a는 x와 같다. 로그의 연산 규칙 log_a(x * y) = log_a(x) + log_a(y) 밑이 a인 로그에서 x와 y의 곱에 대한 로그값은 x에 대한 로그값과 y에 대한 로그값의 합과 같다. log_a(x / y) = log_a(x) - log_a(y) 밑이 a인 로그에서 x를 y로 나눈 값에 대한.. 2023. 4. 15.
sequence_length ? / padding sequence_length ? / padding 패딩 설명 sequence_length는 입력 텐서의 시퀀스 길이를 나타냅니다. 시퀀스 길이는 주로 텍스트 데이터에서 문장의 길이, 시계열 데이터에서 관측치의 수, 혹은 다른 순차적 데이터에서 연속된 요소의 개수와 같은 것을 의미합니다. 자연어 처리(NLP) 작업에서, 시퀀스 길이는 주어진 문장 또는 문서에 포함된 토큰(단어, 문자, 서브워드 등)의 개수를 나타냅니다. 시퀀스 길이가 고정되지 않은 경우, 모든 입력 시퀀스가 동일한 길이를 갖도록 패딩(padding)을 사용하여 길이를 조정할 수 있습니다. 특징(padding) 자연어 처리(NLP) 작업에서, 시퀀스 길이는 주어진 문장 또는 문서에 포함된 토큰(단어, 문자, 서브워드 등)의 개수를 나타냅니다.. 2023. 4. 13.
텍스트 데이터 전처리 과정 텍스트 데이터 전처리 과정 텍스트 데이터 전처리는 자연어 처리(Natural Language Processing, NLP)에서 중요한 단계 중 하나입니다. 텍스트 데이터 전처리는 텍스트 데이터를 기계가 이해하기 쉽게 처리하는 과정을 의미합니다. 아래는 일반적으로 수행되는 텍스트 데이터 전처리 과정입니다. 텍스트 데이터 수집 대상이 되는 텍스트 데이터를 수집합니다. 인터넷 상에서 수집할 수도 있고, 기업이나 조사 기관에서 제공하는 데이터를 사용할 수도 있습니다. 토큰화(Tokenization) 텍스트 데이터를 문장 단위 또는 단어 단위로 쪼개는 과정입니다. 문장 토큰화와 단어 토큰화가 있습니다. 예를 들어, "I like to eat pizza." 라는 문장을 단어 단위로 토큰화하면 ["I", "like".. 2023. 4. 11.