본문 바로가기
Python

[파이썬] 데이터 전처리 진행하기

by IT두잇 2022. 5. 17.

데이터에 결측치가 있을 경우 전처리를 진행합니다. 

 

학생들의 gpa를 정리한 데이터를 활용해보았습니다. 

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

import pandas as pd
import numpy as np

data = pd.read_csv('D:/Python/data/gpascore.csv')
print(data)

결과값: 


결측 데이터 전처리

- 데이터 내부에 결측값이 있어서 결측치 처리를 진행하는 다양한 방법을 알아보았습니다.

 

결측치 개수 확인: isnull( ).sum( )

- 개수를 확인해보니 gre 열에 1개의 결측값이 있는 것이 확인됩니다. 

data.isnull().sum()

결과값: 

 

 

결측치 삭제: dropna( )

- 기존 데이터와 비교했을 때 열의 개수가 하나 줄어든 것을 볼 수 있습니다. 

따라서, dropna를 진행하면 결측값이 포함된 열 전체가 삭제됩니다.

data2 = data.dropna()
print(data2)

결과값:

 

 

다른 값으로 채울 때: fillna(값)

- 괄호안에 넣은 값으로 결측치가 대체됩니다. 

data2.fillna(100)