pandas DataFrame의 열에서 NaN 값을 계산하는 방법

Programming

pandas DataFrame의 열에서 NaN 값을 계산하는 방법

procodes 2020. 2. 28. 19:37

pandas DataFrame의 열에서 NaN 값을 계산하는 방법

number of을 찾고 싶은 데이터가 NaN있으므로 임계 값보다 작 으면이 열을 삭제합니다. 나는 보았지만 이것에 대한 기능을 찾지 못했습니다. 이 value_counts있지만 대부분의 값이 고유하고 카운트 NaN만 원하기 때문에 속도가 느려집니다 .

이 isna()방법 (또는 isnull()구형 팬더 버전 <0.21.0 과도 호환되는 별명 )을 사용한 다음 합하여 NaN 값을 계산할 수 있습니다. 한 열의 경우 :

In [1]: s = pd.Series([1,2,3, np.nan, np.nan])

In [4]: s.isna().sum()   # or s.isnull().sum() for older pandas versions
Out[4]: 2

여러 열의 경우 다음과 같이 작동합니다.

In [5]: df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})

In [6]: df.isna().sum()
Out[6]:
a    1
b    2
dtype: int64

난이 아닌 값 의 개수 에서 총 길이를 뺄 수 있습니다.

count_nan = len(df) - df.count()

당신은 당신의 데이터에 시간을해야합니다. 소형 Series의 경우 isnull솔루션 과 비교하여 3 배의 속도가 향상되었습니다 .

df가 팬더 DataFrame이라고 가정합니다.

그때,

    df.isnull().sum(axis = 0)

이것은 모든 열에 많은 NaN 값을 줄 것입니다.

필요한 경우 모든 행의 NaN 값

    df.isnull().sum(axis = 1)

dataset.isnull().sum()

이 작동합니다!

가장 투표가 많은 답변을 바탕으로 각 열의 결 측값과 결 측값의 %를 미리 볼 수있는 데이터 프레임을 제공하는 함수를 쉽게 정의 할 수 있습니다.

def missing_values_table(df):
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
            "There are " + str(mis_val_table_ren_columns.shape[0]) +
              " columns that have missing values.")
        return mis_val_table_ren_columns

팬더 이후 0.14.1 내 제안 여기가 구현 된 value_counts 방법에 키워드 인수를가합니다 :

import pandas as pd
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})
for col in df:
    print df[col].value_counts(dropna=False)

2     1
 1     1
NaN    1
dtype: int64
NaN    2
 1     1
dtype: int64

팬더 열에서 난 값을 계산하는 것이 빠른 방법이라면

import pandas as pd
## df1 as an example data frame 
## col1 name of column for which you want to calculate the nan values
sum(pd.isnull(df1['col1']))

Jupyter Notebook을 사용하는 경우 어떻습니까 ....

 %%timeit
 df.isnull().any().any()

또는

 %timeit 
 df.isnull().values.sum()

또는 데이터의 NaN이 어디에 있습니까?

 df.isnull().any()

value_counts 방법을 사용하고 np.nan의 값을 인쇄 할 수 있습니다

s.value_counts(dropna = False)[np.nan]

import numpy as np
import pandas as pd

raw_data = {'first_name': ['Jason', np.nan, 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', np.nan, np.nan, 'Milner', 'Cooze'], 
        'age': [22, np.nan, 23, 24, 25], 
        'sex': ['m', np.nan, 'f', 'm', 'f'], 
        'Test1_Score': [4, np.nan, 0, 0, 0],
        'Test2_Score': [25, np.nan, np.nan, 0, 0]}
results = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'Test1_Score', 'Test2_Score'])

results 
'''
  first_name last_name   age  sex  Test1_Score  Test2_Score
0      Jason    Miller  22.0    m          4.0         25.0
1        NaN       NaN   NaN  NaN          NaN          NaN
2       Tina       NaN  23.0    f          0.0          NaN
3       Jake    Milner  24.0    m          0.0          0.0
4        Amy     Cooze  25.0    f          0.0          0.0
'''

다음 기능을 사용하면 Dataframe에서 출력 할 수 있습니다

제로 값
결 측값
총 가치의 %
총 제로 결 측값
총 제로 결 측값 %
데이터 형식

다음 함수를 복사하여 붙여 넣기 만하면 팬더 데이터 프레임을 전달하여 호출합니다.

def missing_zero_values_table(df):
        zero_val = (df == 0.00).astype(int).sum(axis=0)
        mis_val = df.isnull().sum()
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        mz_table = pd.concat([zero_val, mis_val, mis_val_percent], axis=1)
        mz_table = mz_table.rename(
        columns = {0 : 'Zero Values', 1 : 'Missing Values', 2 : '% of Total Values'})
        mz_table['Total Zero Missing Values'] = mz_table['Zero Values'] + mz_table['Missing Values']
        mz_table['% Total Zero Missing Values'] = 100 * mz_table['Total Zero Missing Values'] / len(df)
        mz_table['Data Type'] = df.dtypes
        mz_table = mz_table[
            mz_table.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns and " + str(df.shape[0]) + " Rows.\n"      
            "There are " + str(mz_table.shape[0]) +
              " columns that have missing values.")
#         mz_table.to_excel('D:/sampledata/missing_and_zero_values.xlsx', freeze_panes=(1,0), index = False)
        return mz_table

missing_zero_values_table(results)

산출

Your selected dataframe has 6 columns and 5 Rows.
There are 6 columns that have missing values.

             Zero Values  Missing Values  % of Total Values  Total Zero Missing Values  % Total Zero Missing Values Data Type
last_name              0               2               40.0                          2                         40.0    object
Test2_Score            2               2               40.0                          4                         80.0   float64
first_name             0               1               20.0                          1                         20.0    object
age                    0               1               20.0                          1                         20.0   float64
sex                    0               1               20.0                          1                         20.0    object
Test1_Score            3               1               20.0                          4                         80.0   float64

간단하게 유지하려면 다음 함수를 사용하여 누락 된 값을 %로 얻을 수 있습니다

def missing(dff):
    print (round((dff.isnull().sum() * 100/ len(dff)),2).sort_values(ascending=False))


missing(results)
'''
Test2_Score    40.0
last_name      40.0
Test1_Score    20.0
sex            20.0
age            20.0
first_name     20.0
dtype: float64
'''

df1.isnull().sum()

이것은 트릭을 할 것입니다.

다음은 Null열을 현명하게 계산하는 코드입니다 .

df.isna().sum()

2017 년 7 월부터 NaN 값을 요약하는 다양한 방법을 자세히 설명하는 멋진 Dzone 기사가 있습니다. 여기서 확인 하십시오 .

내가 인용 한 기사는 다음과 같은 방법으로 추가 값을 제공합니다. (1) 모든 열에 대한 NaN 수를 계산하고 표시하는 방법을 보여 주므로 해당 열을 삭제할지 여부를 쉽게 결정할 수 있습니다. (2) 선택적으로 폐기되거나 대치 될 수 있도록 NaN을 갖는 특정.

다음은 접근 방식의 유틸리티를 보여주는 간단한 예입니다. 열이 몇 개 밖에 없기 때문에 유용성이 명확하지 않지만 더 큰 데이터 프레임에 도움이되는 것으로 나타났습니다.

import pandas as pd
import numpy as np

# example DataFrame
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})

# Check whether there are null values in columns
null_columns = df.columns[df.isnull().any()]
print(df[null_columns].isnull().sum())

# One can follow along further per the cited article

NaN을 계산하기 위해 아직 제안되지 않은 다른 간단한 옵션은 NaN이있는 행 수를 반환하는 모양을 추가하는 것입니다.

df[df['col_name'].isnull()]['col_name'].shape

0을 세려면

df[df == 0].count(axis=0)

NaN을 계산하려면 :

df.isnull().sum()

또는

df.isna().sum()

주어진 답변과 일부 개선 사항을 기반으로 이것은 내 접근 방식입니다.

def PercentageMissin(Dataset):
    """this function will return the percentage of missing values in a dataset """
    if isinstance(Dataset,pd.DataFrame):
        adict={} #a dictionary conatin keys columns names and values percentage of missin value in the columns
        for col in Dataset.columns:
            adict[col]=(np.count_nonzero(Dataset[col].isnull())*100)/len(Dataset[col])
        return pd.DataFrame(adict,index=['% of missing'],columns=adict.keys())
    else:
        raise TypeError("can only be used with panda dataframe")

그룹별로 뽑은 다른 그룹에서 비 NA (Non-None) 및 NA (None) 카운트를 가져와야하는 경우 :

gdf = df.groupby(['ColumnToGroupBy'])

def countna(x):
    return (x.isna()).sum()

gdf.agg(['count', countna, 'size'])

비 NA, NA 및 그룹당 총 항목 수를 반환합니다.

df.isnull (). sum ()은 열 단위의 결 측값 합계를 제공합니다.

특정 열에서 누락 된 값의 합계를 알고 싶다면 다음 코드가 작동합니다. df.column.isnull (). sum ()

내 코드에서 @sushmit이 제안한 솔루션을 사용했습니다.

동일한 변형이있을 수도 있습니다

colNullCnt = []
for z in range(len(df1.cols)):
    colNullCnt.append([df1.cols[z], sum(pd.isnull(trainPd[df1.cols[z]]))])

이것의 장점은 이후 df의 각 열에 대한 결과를 반환한다는 것입니다.

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.count.html#pandas.Series.count

pandas.Series.count Series.count (level = None) [source] 시리즈에서 비 NA / 널 관찰 수를 반환합니다.

import pandas as pd
import numpy as np

# example DataFrame
df = pd.DataFrame({'a':[1,2,np.nan], 'b':[np.nan,1,np.nan]})

# count the NaNs in a column
num_nan_a = df.loc[ (pd.isna(df['a'])) , 'a' ].shape[0]
num_nan_b = df.loc[ (pd.isna(df['b'])) , 'b' ].shape[0]

# summarize the num_nan_b
print(df)
print(' ')
print(f"There are {num_nan_a} NaNs in column a")
print(f"There are {num_nan_b} NaNs in column b")

출력으로 제공합니다 :

     a    b
0  1.0  NaN
1  2.0  1.0
2  NaN  NaN

There are 1 NaNs in column a
There are 2 NaNs in column b

reviews라고하는 데이터 프레임에서 가격으로 알려진 열 (계열)에서 결 측값 (NaN)의 수를 얻으려고한다고 가정합니다.

#import the dataframe
import pandas as pd

reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0)

변수로 n_missing_prices를 사용하여 결 측값을 얻으려면 다음을 수행하십시오.

n_missing_prices = sum(reviews.price.isnull())
print(n_missing_prices)

sum은 여기서 중요한 방법입니다. sum 이이 맥락에서 사용하기에 적합한 방법임을 깨 달기 전에 count를 사용하려고했습니다.

참고 URL : https://stackoverflow.com/questions/26266362/how-to-count-the-nan-values-in-a-column-in-pandas-dataframe

'Programming' 카테고리의 다른 글

우분투 12.04의 nodejs와 node (0)	2020.02.28
MySQL의 여러 업데이트 (0)	2020.02.28
브라우저 창 / 탭을 닫을 때 localStorage 항목을 삭제하는 방법은 무엇입니까? (0)	2020.02.28
명령 행에서 특정 Subversion 개정판을 체크 아웃하는 방법은 무엇입니까? (0)	2020.02.28
Java로 디렉토리를 작성하는 방법은 무엇입니까? (0)	2020.02.28

현재글pandas DataFrame의 열에서 NaN 값을 계산하는 방법

procodes

pandas DataFrame의 열에서 NaN 값을 계산하는 방법

pandas DataFrame의 열에서 NaN 값을 계산하는 방법

'Programming' 카테고리의 다른 글

'Programming'의 다른글

티스토리툴바

pandas DataFrame의 열에서 NaN 값을 계산하는 방법

pandas DataFrame의 열에서 NaN 값을 계산하는 방법

'Programming' 카테고리의 다른 글

'Programming'의 다른글

관련글

티스토리툴바