티스토리 뷰

Programming Language/R

stringr

기내식은수박바 2019. 9. 1. 22:56
반응형

예시 데이터는 fruit를 사용한다.

 

1. str_detect(string, pattern)

  • string 문자열내에 pattern의 위치에 상관없이 존재하는지의 여부를 알려준다.

 

2. str_which(string, pattern)

  • str_detect와 달리 pattern이 있는 string의 index를 반환한다. (문자열 내부 index는 str_locate)

 

3. str_locate(string, pattern)

  • str_which가 pattern을 포함하는 string의 index를 알려주는 것이라면 str_locate는 string 문자열 내우베엇 pattern이 시작되고 끝나는 index를 반환한다.

 

4. str_count(string, pattern)

  • string 문자열 내 pattern의 개수를 반환한다.

 

5. str_sub(string, start, end)

  • start index부터 end index까지의 sub-string을 반환한다.
  • 기억할 것은 end index까지 포함한 string이라는 점이다.

 

6. str_subset(string, pattern)

  • 다른 str_함수 (str_detect, str_which, ...) 는 boolean, index를 반환한다.
  • str_subset은 pattern을 포함하는 string '문자열' 전체를 반환한다.

 

7. str_extract(string, pattern) / str_extract_all(string, pattern)

  • str_extract는 string에 pattern의 등장 횟수에 상관 없이, pattern이 존재한다면 해당 pattern을 반환하고 없다면 NA를 반환한다.
  • str_extract_all은 존재하는 pattern 모두를 반환하되 list 형태로 반환한다.

 

8. str_match(string, pattern) / str_match_all(string, pattern)

  • str_extract와 str_match는 동일하게 작동한다. 
  • pattern이 존재한다면 pattern을 반환하며, 없다면 NA를 반환한다.
  • 차이점은 str_extract 함수의 반환형은 기본적으로 vector 형태이며, str_match는 matrix 형태로 반환한다.
  • _all 함수들도 마찬가지로 크게 list 내에 vector, matrix 형태로 저장되어 반환한다.

 

9. str_length(string)

  • string 문자열의 길이를 반환한다. 
  • 문자의 수를 세주는 nchar 함수와 동일하게 작동한다.

 

10. str_pad(string, width, side = c("left", "right", "both"), pad = " ")

  • 서로 다른 길이를 가진 string 문자열을 똑같은 width 길이로 맞추기 위해 side 방향에 pad를 채우는 함수이다.

  • 문자열의 길이 >= width 이라면, 문자열은 아무 처리도 되지 않고 문자열 그대로 반환한다.

  • side = "both"로 설정 할 경우, 문자열을 pad로 채워넣는 방향의 순서는 오른쪽 -> 왼쪽 순이다.

 

11. str_trunc(string, width, side = c("left", "right", "center"), ellipsis = "...")

  • 정해진 width 길이가 넘어간 string 문자열에 대해 side 방향에서 ellipsis 문자열로 대체한다.

 

12. str_trim(string, side = c("left", "right", "both"))

  • string 문자열에서 side 방향의 공백 (whitespace) 를 제거해주는 함수이다.
  • 아래의 예시는 str_pad의 두 번째 코드 변수를 바탕으로 양쪽의 공백 중 왼쪽만 지워준 것이다.

 

13. str_replace(string, pattern, replacement) / str_replace_all(string, pattern, replacement)

  • string 문자열 내에서 pattern을 찾아 replacement로 대체하는 함수이다.
  • str_replace는 첫 번째로 찾아낸 pattern만 대체하지만 _all은 모든 pattern을 찾아 대체한다.

 

14. str_to_upper(string, locale = "en")

  • string 문자열을 모두 대문자로 바꾼다.

 

15. str_to_lower(string, locale = "en")

  • string 문자열을 모두 소문자로 바꾼다.

 

16. str_to_title(string, locale = "en")

  • string 내 띄어쓰기 구분으로 단어들의 첫 번째 글자만 대문자로 바꾼다.

 

17. str_c(..., sep = "", collapse = NULL)

  • ...의 parameter를 통해 문자열을 입력받아 여러 개의 문자열을 합치는 함수이다.
  • sep와 collapse 모두 문자열을 합칠 때 덧붙이는 문자열이지만 조금 다르다.
  • sep은 ...에 들어갈 여러 vector 문자열 데이터를 합칠 때 연결해주는 문자열이다.

  • collapse는 vector내 데이터들을 모두 묶어 하나의 문자열로 만들 때 연결해주는 문자열이다.

 

18. str_dup(string, times)

  • string 문자열을 times 만큼 복사해서 연결한다.

 

19. str_split_fixed(string, pattern, n)

  • string 문자열을 pattern을 기준으로 문자열이 n개만큼 되도록 나누며, matrix 형태로 반환한다.
  • n = 2라면, 첫 번째 pattern만 찾아 문자열을 나눈다는 얘기가 된다.
  • 만약 문자열 내에 pattern 갯수 <= n 이라면, 나머지 부분은 빈칸으로 채워진다.

str_split(string, pattern, n = Inf, simplify = F)

  • str_split_fixed와 비슷한 함수이며, 동일하게 작동하지만 반환형이 다르다.
  • simplify = F 이라면 list형태로 반환한다. default 값은 simplify = F 이다.

  • simplify = T 이라면 str_split_fixed와 동일하게 Matrix로 반환한다.
  • default n 값은 Inf (무한) 이기 때문에 모든 pattern을 찾아 문자열을 나눈다.

 

20. str_glue(..., sep = "", .envir = parent.frame())

str_glue_data(.x, ..., .sep = "", .envir = parent.frame(), .na = "NA)

Parameter Description

  • 문자열에 변수 데이터를 덧붙일 수 있으며, 두 가지 방식이 있다.

  • str_glue_data는 예시 데이터를 사용하여 문자열에 덧붙인다.

 

21. str_order(x, decreasing = F, na.last = T, locale = "en", numeric = F, ...)

Parameter Description

  • 정렬된 문자열의 index를 반환한다. 먼저 샘플을 몇 개 뽑아보자.

 

22. str_sort(x, decreasing = F, na.last = T, locale = "en", numeric = F, ...)

  • str_order는 정렬된 문자열의 index를 반환한다면, str_sort는 정렬된 문자열 vector를 반환한다.

반응형

'Programming Language > R' 카테고리의 다른 글

forcats  (0) 2019.07.15
dplyr  (0) 2019.07.11
tidyr  (0) 2019.07.10
댓글
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
more
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함