반응형
파이썬, 판다스 nan 값 제거, dropna, 결측값 제거¶
- 예시 데이터 생성
In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame({"name": ["mike", "twit", "lolli", "cock", "krill", "putty"],
"grade" : [np.nan, 1, 2, 2, 3, np.nan],
"math":[50, 64, np.nan, np.nan, 75, np.nan],
"enlish":[86, 75, 86, np.nan, 90, np.nan]})
In [2]:
df
Out[2]:
name | grade | math | enlish | |
---|---|---|---|---|
0 | mike | NaN | 50.0 | 86.0 |
1 | twit | 1.0 | 64.0 | 75.0 |
2 | lolli | 2.0 | NaN | 86.0 |
3 | cock | 2.0 | NaN | NaN |
4 | krill | 3.0 | 75.0 | 90.0 |
5 | putty | NaN | NaN | NaN |
- dropna()
- 데이터 프레임 내 결측값 nan 값이 포함되어 있는 행을 제거하는 함수 입니다.
In [3]:
df.dropna()
Out[3]:
name | grade | math | enlish | |
---|---|---|---|---|
1 | twit | 1.0 | 64.0 | 75.0 |
4 | krill | 3.0 | 75.0 | 90.0 |
- dropna(axis='columns')
- 컬럼(행)을 기준으로 nan 값이 하나라도 있는 컬럼(행) 삭제
In [4]:
df.dropna(axis="columns")
Out[4]:
name | |
---|---|
0 | mike |
1 | twit |
2 | lolli |
3 | cock |
4 | krill |
5 | putty |
- dropna(thresh=number)
- number 이하의 nan 값이 있는 열을 유지함
In [5]:
df.dropna(thresh=2)
Out[5]:
name | grade | math | enlish | |
---|---|---|---|---|
0 | mike | NaN | 50.0 | 86.0 |
1 | twit | 1.0 | 64.0 | 75.0 |
2 | lolli | 2.0 | NaN | 86.0 |
3 | cock | 2.0 | NaN | NaN |
4 | krill | 3.0 | 75.0 | 90.0 |
반응형
'python' 카테고리의 다른 글
datetime to str 파이썬 데이트타임을 문자열로 (0) | 2023.03.01 |
---|---|
파이썬 판다스 nan 값 개수에 따른 결측치 처리 thresh (0) | 2023.02.27 |
넘파이 어레이 차원 합치기 numpy append (0) | 2023.02.26 |
넘파이 제곱근 Square Root, 제곱값 square, np.sqrt(), np.square() (0) | 2023.02.25 |
pillow crop, PIL 이미지 자르기, pillow 그림 자르기< (0) | 2023.02.25 |
댓글