티스토리 뷰
반응형
예시 데이터는 fruit를 사용한다.

1. str_detect(string, pattern)
- string 문자열내에 pattern의 위치에 상관없이 존재하는지의 여부를 알려준다.

2. str_which(string, pattern)
- str_detect와 달리 pattern이 있는 string의 index를 반환한다. (문자열 내부 index는 str_locate)

3. str_locate(string, pattern)
- str_which가 pattern을 포함하는 string의 index를 알려주는 것이라면 str_locate는 string 문자열 내우베엇 pattern이 시작되고 끝나는 index를 반환한다.

4. str_count(string, pattern)
- string 문자열 내 pattern의 개수를 반환한다.

5. str_sub(string, start, end)
- start index부터 end index까지의 sub-string을 반환한다.
- 기억할 것은 end index까지 포함한 string이라는 점이다.

6. str_subset(string, pattern)
- 다른 str_함수 (str_detect, str_which, ...) 는 boolean, index를 반환한다.
- str_subset은 pattern을 포함하는 string '문자열' 전체를 반환한다.

7. str_extract(string, pattern) / str_extract_all(string, pattern)
- str_extract는 string에 pattern의 등장 횟수에 상관 없이, pattern이 존재한다면 해당 pattern을 반환하고 없다면 NA를 반환한다.
- str_extract_all은 존재하는 pattern 모두를 반환하되 list 형태로 반환한다.

8. str_match(string, pattern) / str_match_all(string, pattern)
- str_extract와 str_match는 동일하게 작동한다.
- pattern이 존재한다면 pattern을 반환하며, 없다면 NA를 반환한다.
- 차이점은 str_extract 함수의 반환형은 기본적으로 vector 형태이며, str_match는 matrix 형태로 반환한다.
- _all 함수들도 마찬가지로 크게 list 내에 vector, matrix 형태로 저장되어 반환한다.

9. str_length(string)
- string 문자열의 길이를 반환한다.
- 문자의 수를 세주는 nchar 함수와 동일하게 작동한다.

10. str_pad(string, width, side = c("left", "right", "both"), pad = " ")
- 서로 다른 길이를 가진 string 문자열을 똑같은 width 길이로 맞추기 위해 side 방향에 pad를 채우는 함수이다.

- 문자열의 길이 >= width 이라면, 문자열은 아무 처리도 되지 않고 문자열 그대로 반환한다.

- side = "both"로 설정 할 경우, 문자열을 pad로 채워넣는 방향의 순서는 오른쪽 -> 왼쪽 순이다.

11. str_trunc(string, width, side = c("left", "right", "center"), ellipsis = "...")
- 정해진 width 길이가 넘어간 string 문자열에 대해 side 방향에서 ellipsis 문자열로 대체한다.

12. str_trim(string, side = c("left", "right", "both"))
- string 문자열에서 side 방향의 공백 (whitespace) 를 제거해주는 함수이다.
- 아래의 예시는 str_pad의 두 번째 코드 변수를 바탕으로 양쪽의 공백 중 왼쪽만 지워준 것이다.

13. str_replace(string, pattern, replacement) / str_replace_all(string, pattern, replacement)
- string 문자열 내에서 pattern을 찾아 replacement로 대체하는 함수이다.
- str_replace는 첫 번째로 찾아낸 pattern만 대체하지만 _all은 모든 pattern을 찾아 대체한다.

14. str_to_upper(string, locale = "en")
- string 문자열을 모두 대문자로 바꾼다.

15. str_to_lower(string, locale = "en")
- string 문자열을 모두 소문자로 바꾼다.

16. str_to_title(string, locale = "en")
- string 내 띄어쓰기 구분으로 단어들의 첫 번째 글자만 대문자로 바꾼다.

17. str_c(..., sep = "", collapse = NULL)
- ...의 parameter를 통해 문자열을 입력받아 여러 개의 문자열을 합치는 함수이다.
- sep와 collapse 모두 문자열을 합칠 때 덧붙이는 문자열이지만 조금 다르다.
- sep은 ...에 들어갈 여러 vector 문자열 데이터를 합칠 때 연결해주는 문자열이다.

- collapse는 vector내 데이터들을 모두 묶어 하나의 문자열로 만들 때 연결해주는 문자열이다.

18. str_dup(string, times)
- string 문자열을 times 만큼 복사해서 연결한다.

19. str_split_fixed(string, pattern, n)
- string 문자열을 pattern을 기준으로 문자열이 n개만큼 되도록 나누며, matrix 형태로 반환한다.
- n = 2라면, 첫 번째 pattern만 찾아 문자열을 나눈다는 얘기가 된다.
- 만약 문자열 내에 pattern 갯수 <= n 이라면, 나머지 부분은 빈칸으로 채워진다.

str_split(string, pattern, n = Inf, simplify = F)
- str_split_fixed와 비슷한 함수이며, 동일하게 작동하지만 반환형이 다르다.
- simplify = F 이라면 list형태로 반환한다. default 값은 simplify = F 이다.

- simplify = T 이라면 str_split_fixed와 동일하게 Matrix로 반환한다.
- default n 값은 Inf (무한) 이기 때문에 모든 pattern을 찾아 문자열을 나눈다.

20. str_glue(..., sep = "", .envir = parent.frame())
str_glue_data(.x, ..., .sep = "", .envir = parent.frame(), .na = "NA)
Parameter Description

- 문자열에 변수 데이터를 덧붙일 수 있으며, 두 가지 방식이 있다.

- str_glue_data는 예시 데이터를 사용하여 문자열에 덧붙인다.

21. str_order(x, decreasing = F, na.last = T, locale = "en", numeric = F, ...)
Parameter Description

- 정렬된 문자열의 index를 반환한다. 먼저 샘플을 몇 개 뽑아보자.

22. str_sort(x, decreasing = F, na.last = T, locale = "en", numeric = F, ...)
- str_order는 정렬된 문자열의 index를 반환한다면, str_sort는 정렬된 문자열 vector를 반환한다.

반응형
'Programming Language > R' 카테고리의 다른 글
forcats (0) | 2019.07.15 |
---|---|
dplyr (0) | 2019.07.11 |
tidyr (0) | 2019.07.10 |