본문 바로가기

R5

R - plotly: ggplot2 패키지 (2) ggplot2 패키지를 활용한 그래프에 대해 조금 더 자세히 알아보겠습니다. 😊 산점도 그래프: facet_grid( ) facet_grid( )를 사용하면 x축의 그래프 별로 그룹지어 그래프를 그릴 수 있습니다. # 세로로 그루핑: facet_grid ( ~ 변수) ggplot(data = mpg, aes(x=displ, y = hwy, color = drv, shape = drv))+ geom_point(size=3)+ facet_grid( ~ drv) # 가로로 그루핑: facet_grid ( 변수 ~.) ggplot(data = mpg, aes(x=displ, y = hwy, color = drv, shape = drv))+ geom_point(size=3)+ facet_grid( drv~ .) .. 2022. 3. 17.
R - plotly: ggplot2 패키지 (1) plotly는 인터랙티브한 그래프를 출력하는 라이브러리이며, Scala, R, Python 등에서 사용할 수 있습니다. 그래프 종류: geom_point( ): 산점도 geom_bar( ): 바 그래프 (x변수) geom_col( ): 바 그래프 (x변수 & y변수) geom_histogram( ): 히스토그램 boxplot( ): 박스플롯 그래프 준비 과정: 1. 먼저 ggplot2 패키지를 사용하기 위해서는 패키지 설치 후, 로드가 필요합니다. # ggplot2 패키지 설치하기 install.packages('ggplot2') #library 로드하기 library(ggplot2) 2. 그래프를 그릴 데이터와 x축, y축을 설정합니다. # ggplot(data = 데이터명, aes(x= x축 변수, .. 2022. 3. 17.
R - 이상치/결측치 확인 및 처리 방법 결측치는 NA, not available, 빈칸 등 값이 나타나지 않는 값을 말합니다. 결측치 값 확인하기 결측치 유무 확인 is.na(df) 결과값: TRUE 혹은 FALSE 결측치 개수 확인 sum(is.na(df)) #혹은 sum(is.na(df$score)) 결과값: 결측치 총 개수 (ex. 2) 결측치 & 결측치 아닌 개수 확인 table(is.na(df)) 결과값: 각각 FALSE와 TRUE 값 반환 결측치 값 처리 방법 NA 데이터 삭제 (※ 해당 방식은 분석에 필요한 데이터까지 삭제할 수 있어서 잘 사용하지 않습니다) na.omit(df) 필터링 (NA 제외하고 계산) df %>% filter (!is.na(df)) %>% summarise(sum(score)) # !is.na(df) = .. 2022. 3. 17.
R - dplyr 패키지 (2) (group_by/ left_join/ bind_rows) R에서는 dplyr 패키지를 이용하여 데이터 전처리를 진행할 수 있습니다. dplyr 함수는 아래 8가지가 있으며, 오늘은 마지막 3가지 함수에 대해 알아보려고 합니다. filter( ) select( ) arrange( ) mutate( ) summarise( ) group_by( ) left_join( ) bind_rows( ) group_by( ): 집단별로 나누기 데이터를 필터링 할 때, 특정 집단별로 나누고 싶다면 group_by( ) 함수를 사용합니다. 예시 1) 성별별로 데이터 나누기 df %>% group_by(sex) 예시 2) 제조사별로 시내주행 평균 출력 df %>% group_by(manufacturer) %>% summarise(mean(city)) 예시 3) 1차는 제조사, 2차.. 2022. 3. 17.