반응형
파이썬 판다스 결측값 몇 개 이상 일때 제거
In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame({"name": ["mike", "twit", "lolli", "cock", "krill", "putty"],
"grade" : [np.nan, 1, 2, 2, 3, np.nan],
"math":[50, 64, np.nan, np.nan, 75, np.nan],
"enlish":[86, 75, 86, np.nan, 90, np.nan]})
df
Out[1]:
name | grade | math | enlish | |
---|---|---|---|---|
0 | mike | NaN | 50.0 | 86.0 |
1 | twit | 1.0 | 64.0 | 75.0 |
2 | lolli | 2.0 | NaN | 86.0 |
3 | cock | 2.0 | NaN | NaN |
4 | krill | 3.0 | 75.0 | 90.0 |
5 | putty | NaN | NaN | NaN |
nan 값이 아닌 값이 2개 이상인 열만 유지
In [2]:
df.dropna(axis=0, thresh=2)
Out[2]:
name | grade | math | enlish | |
---|---|---|---|---|
0 | mike | NaN | 50.0 | 86.0 |
1 | twit | 1.0 | 64.0 | 75.0 |
2 | lolli | 2.0 | NaN | 86.0 |
3 | cock | 2.0 | NaN | NaN |
4 | krill | 3.0 | 75.0 | 90.0 |
nan 값이 아닌 값이 4개 이상인 행만 유지
In [3]:
df.dropna(axis=1, thresh=4)
Out[3]:
name | grade | enlish | |
---|---|---|---|
0 | mike | NaN | 86.0 |
1 | twit | 1.0 | 75.0 |
2 | lolli | 2.0 | 86.0 |
3 | cock | 2.0 | NaN |
4 | krill | 3.0 | 90.0 |
5 | putty | NaN | NaN |
반응형
'python' 카테고리의 다른 글
datetime을 이용하여 일주일치 날짜 만들기 (0) | 2023.03.01 |
---|---|
datetime to str 파이썬 데이트타임을 문자열로 (0) | 2023.03.01 |
pandas 판다스 nan 값 제거, dropna (0) | 2023.02.27 |
넘파이 어레이 차원 합치기 numpy append (0) | 2023.02.26 |
넘파이 제곱근 Square Root, 제곱값 square, np.sqrt(), np.square() (0) | 2023.02.25 |
댓글