본문 바로가기

전체 글24

Pandas - 1차원 자료 (Series), 2차원 자료(DataFrame) 만들기 Pandas란 panel datas(패널자료)의 약자로, 쉽게 사용 가능한 자료 구조이자 데이터 분석 툴을 말합니다. 1차원 자료: Series 이번에는 Pandas의 1차원 자료 구조인 Series에 대해 설명해보려 합니다. 먼저, 판다스의 모듈(라이브러리)를 호출합니다. import pandas as pd cs 판다스의 1차원 자료구조는 index와 value로 이루어져 있습니다. 기본 파이썬과의 차별점은 행을 row가 아닌 index로 칭한다는 점 입니다. 이제 본격적으로 시리즈를 생성해보겠습니다. 시리즈 만들기 : 1)List로 Series 만들기 1 2 3 animals = ['Tigers', 'Bears', 'Moose'] p = pd.Series(animals) p Colored by Col.. 2022. 3. 22.
R - plotly: ggplot2 패키지 (2) ggplot2 패키지를 활용한 그래프에 대해 조금 더 자세히 알아보겠습니다. 😊 산점도 그래프: facet_grid( ) facet_grid( )를 사용하면 x축의 그래프 별로 그룹지어 그래프를 그릴 수 있습니다. # 세로로 그루핑: facet_grid ( ~ 변수) ggplot(data = mpg, aes(x=displ, y = hwy, color = drv, shape = drv))+ geom_point(size=3)+ facet_grid( ~ drv) # 가로로 그루핑: facet_grid ( 변수 ~.) ggplot(data = mpg, aes(x=displ, y = hwy, color = drv, shape = drv))+ geom_point(size=3)+ facet_grid( drv~ .) .. 2022. 3. 17.
R - plotly: ggplot2 패키지 (1) plotly는 인터랙티브한 그래프를 출력하는 라이브러리이며, Scala, R, Python 등에서 사용할 수 있습니다. 그래프 종류: geom_point( ): 산점도 geom_bar( ): 바 그래프 (x변수) geom_col( ): 바 그래프 (x변수 & y변수) geom_histogram( ): 히스토그램 boxplot( ): 박스플롯 그래프 준비 과정: 1. 먼저 ggplot2 패키지를 사용하기 위해서는 패키지 설치 후, 로드가 필요합니다. # ggplot2 패키지 설치하기 install.packages('ggplot2') #library 로드하기 library(ggplot2) 2. 그래프를 그릴 데이터와 x축, y축을 설정합니다. # ggplot(data = 데이터명, aes(x= x축 변수, .. 2022. 3. 17.
R - 이상치/결측치 확인 및 처리 방법 결측치는 NA, not available, 빈칸 등 값이 나타나지 않는 값을 말합니다. 결측치 값 확인하기 결측치 유무 확인 is.na(df) 결과값: TRUE 혹은 FALSE 결측치 개수 확인 sum(is.na(df)) #혹은 sum(is.na(df$score)) 결과값: 결측치 총 개수 (ex. 2) 결측치 & 결측치 아닌 개수 확인 table(is.na(df)) 결과값: 각각 FALSE와 TRUE 값 반환 결측치 값 처리 방법 NA 데이터 삭제 (※ 해당 방식은 분석에 필요한 데이터까지 삭제할 수 있어서 잘 사용하지 않습니다) na.omit(df) 필터링 (NA 제외하고 계산) df %>% filter (!is.na(df)) %>% summarise(sum(score)) # !is.na(df) = .. 2022. 3. 17.