tidyr

본문 바로가기 메뉴 바로가기

티스토리 뷰

Programming Language/R

tidyr

기내식은수박바 2019. 7. 10. 14:43

0. 예시 데이터 생성

1. gather(데이터, key, value, 열1, 열2, ..., fill = NA)

Column을 Row로 모은다고 생각하면 이해하기 쉽다. key = column 이름, value = column 값.
데이터에서 key와 value column들을 생성하며, key 위치에는 parameter 열의 이름 / value 위치에는 해당 열의 값들을 입력한다.
fill은 NA 값이 존재 할 경우 어떠한 값으로 채울지 결정하는 parameter.
예제로 보면 'column 이름을 모으는 column'은 stock, 'column 값을 모으는 column'은 price, '모이는 column'은 X, Y, Z이다.
-time 같은 경우는 모든 column들 중 time column만 제외하겠다는 의미.

2. Spread(데이터, key, value, fill = NA)

gather의 역함수라고 생각하면 되며, gather와 마찬가지로 key : 생성할 column명, value : column 값이다.
stock의 X, Y, Z를 column으로 뿌려주고, 해당하는 price들을 각 field에 넣어준다.

3. separate(데이터, 분리 할 column, 분해 후 생성할 column들, sep = "", remove = T, extra = "warn", fill = "warn")

sep를 기준으로 column을 분리하고 새로운 column(들)을 생성한다.
만약 아래의 예시에서 분리 후에 year과 month는 버리고 day만 출력하고 싶다면 c(NA, NA, "day")를 parameter에 삽입하면 된다.
remove = T는 분리 할 column을 새로 만들어지는 data.frame에 포함하지 않고 제거한다는 뜻이다. F라면 포함시킨다.

extra와 fill은 sep이 character vector일 경우 채워주는 parameter option이다.

extra

"warn" = default값이며, warning을 출력하면서 넘치는 vector를 짤라낸다.
"drop" = warning없이 넘치는 vector를 짤라낸다.
"merge" = 넘치는 vector를 버리지 않고 sep을 통해 분리 한 열의 길이만큼 시행한다.

fill

"warn" = default값으로 warning을 출력하면서 NA를 오른쪽부터 채운다.
"right" = 오른쪽 부터 NA를 채워넣는다.
"left" = 왼쪽 부터 NA를 채워넣는다.

아래의 예시와 같이 warn, drop은 vector를 모두 분리한 다음 column 갯수만큼 채워넣고 나머지는 버린다.
merge는 column 갯수만큼 분리 후 마지막 column field에 모두 집어넣는다.

4. unite(데이터, 생성할 column명, 합칠 column들, sep = "_", remove = T)

separate의 역함수로, 세 번째 parameter들을 모두 합쳐서 두 번째 paramter 이름으로 column을 생성한다.
sep은 합칠 value 사이에 집어넣을 구분자이다.
separate와 마찬가지로 remove는 합칠 column들을 새로 생성한 data.frame에 포함할 지 여부이다.

'Programming Language > R' 카테고리의 다른 글

stringr (0)	2019.09.01
forcats (0)	2019.07.15
dplyr (0)	2019.07.11

댓글

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바