반응형
파이썬을 텍스트 데이터 엘라스틱서치 업로드
패키지 설치
# 엘라스틱서치 5.5.3 버전을 활용합니다.
#!pip install elasticsearch==5.5.3
데이터 업로드(sklean에 20newsgroups 데이터를 업로드 합니다)
# 패키지 불러오기
import numpy as np
from sklearn.datasets import fetch_20newsgroups
from elasticsearch import Elasticsearch
# 20newsgroups 데이터 불러오기
data = fetch_20newsgroups()
# 엘라스틱 서치 접속
es = Elasticsearch(["localhost:9200"])
for document, category_num in zip(data.data, data.target):
# 엘라스틱서치 업로드를 위해 단위별 dictionary 형태로 전환
# 단위별 dictionary 형태 예시: {"document" : "뉴스내용", "category" : "카테고리 명"}
doc = {
"document" : document,
"category" : np.array(data.target_names)[category_num]
}
# 엘라스틱 단위별 dictionary 엘라스틱서치에 업로드
es.index(index="naver_news", doc_type="_doc", body=doc)
업로드 데이터 확인
# 터미널에서 실행
# curl -XGET http://localhost:9200/naver_news/_search?pretty
반응형
'python' 카테고리의 다른 글
파이썬 리스트 차원 축소 (0) | 2023.06.29 |
---|---|
nsmc 다운로드 네이버 영화 리뷰 댓글 샘플데이터 다운로드 (0) | 2023.06.29 |
파이썬 한번이라도 같이 등장한 값 끼리 모으기 (0) | 2023.06.27 |
파이썬 자연어 처리 샘플 문서 받아오기 nltk news (0) | 2023.06.27 |
파이썬 딕셔너리 min / max 적용 (0) | 2023.06.25 |
댓글