본문 바로가기
python

파이썬을 텍스트 데이터 엘라스틱서치 업로드

by 타닥타닥 토다토닥 부부 2023. 6. 27.
반응형

파이썬을 텍스트 데이터 엘라스틱서치 업로드

패키지 설치

# 엘라스틱서치 5.5.3 버전을 활용합니다.
#!pip install elasticsearch==5.5.3

 

데이터 업로드(sklean에 20newsgroups 데이터를 업로드 합니다)

# 패키지 불러오기
import numpy as np

from sklearn.datasets import fetch_20newsgroups
from elasticsearch import Elasticsearch

# 20newsgroups 데이터 불러오기
data = fetch_20newsgroups()

# 엘라스틱 서치 접속
es = Elasticsearch(["localhost:9200"])

for document, category_num in zip(data.data, data.target):
    # 엘라스틱서치 업로드를 위해 단위별 dictionary 형태로 전환
    # 단위별 dictionary 형태 예시: {"document" : "뉴스내용", "category" : "카테고리 명"}
    doc = {
        "document" : document,
        "category" : np.array(data.target_names)[category_num]
    }
    # 엘라스틱 단위별 dictionary 엘라스틱서치에 업로드
    es.index(index="naver_news", doc_type="_doc", body=doc)

 

업로드 데이터 확인

# 터미널에서 실행
# curl -XGET http://localhost:9200/naver_news/_search?pretty
반응형

댓글