ngram 수행 과정, ngram workflow
ngram 정의 N-gram은 언어 모델링, 자연어 처리, 텍스트 분석 등에서 널리 사용되는 기술입니다. N-gram은 연속된 N개의 단어 또는 문자열을 추출하는 기술입니다. ngram 수행 과정 전처리: 대소문자 변환, 구두점 제거, 특수 문자 제거 등 전처리 토큰화: 텍스트를 단어, 음절 또는 문자 단위로 분할합니다. 이를 위해 정규식, 공백, 쉼표 등을 사용할 수 있습니다. N-gram 추출: 분리된 단어, 음절 또는 문자열 중에서 연속된 N개의 토큰을 추출합니다. 예를 들어, 3-gram은 세 개의 연속된 단어, 음절 또는 문자열을 의미합니다. 빈도 계산: 추출된 N-gram의 빈도를 계산합니다. 이를 위해 딕셔너리 또는 카운터(Counter) 등을 사용할 수 있습니다. 분석: 추출된 N-gram..
2023. 4. 27.
gpt가 소개하는 데이터 분석 프로그래밍 언어와 파이썬의 장단점
데이터 분석 프로그래밍 언어 종류와 설명 Python 데이터 분석에 가장 인기 있는 언어 중 하나로, 뛰어난 라이브러리와 패키지(NumPy, pandas, Matplotlib, Seaborn, SciPy 등) 덕분에 데이터 처리, 시각화, 통계 분석, 머신 러닝 등의 작업에 적합합니다. R 통계 분석과 그래픽에 특화된 프로그래밍 언어로, 데이터 분석가와 통계학자들에게 인기가 많습니다. R은 ggplot2, dplyr, tidyr 등 다양한 패키지를 통해 데이터 전처리, 시각화 및 모델링을 지원합니다. SQL (Structured Query Language) 데이터베이스에서 데이터를 검색, 추가, 수정 및 관리하는 데 사용되는 표준 질의 언어입니다. 대부분의 데이터 분석가는 데이터를 추출하고 조작하는 데 ..
2023. 4. 25.