데이터분석/R 7

R언어 공부 - 7

분포의 이름 R에는 모든 확률분포의 축약형 이름이 따로 존재한다. 이름을 가지고 그 분포와 관계된 함수들을 식별 해낼수 있다. 예를 들어, 정규분포의 이름은 norm이다. 함수 용도 dnorm 정규분포 확률 밀도(normal density) pnorm 정규분포함수(normal distribution function) qnorm 정규분포 분위수 함수(normal quantile function) rnorm 정규분포 난수(normal random variates) 일반적인 이산분포 이산분포 이름 R에서의 이름 매개변수(인자) 이항(binomial) binom n = 시행 횟수.p = 시행 한번당 성공 확률 기하(geometric) geom p = 시행 한번당 성공확률 초기하(hypergeometric) hy..

데이터분석/R 2022.12.30

R언어 공부 - 6

날짜와 시간을 다루는 클래스 Date - 날짜는 나타낼 수 있지만 시간은 나타내지 못한다. 날짜 관련 작업을 하는 일반적인 용도의 클래스, 변환, 형식 설정, 기본 날짜, 연산, 표준시간대 처리 등의 작업을 할 때 사용한다. POSIXct - 날짜 및 시간 클래스, 1초 간격의 정확도로 시간의 순간을 나타낼 수 있다. 1970년 1월 1일 이후 몇 초나 흘렀는지 기록하는 방식으로 저장한다. 날짜 시간 정보(데이터 프레임 내)를 저장할 때 쓴다. chron - 날짜와 시간 모두 나타낼 수 있지만 복잡한 표준시간대 처리나 일광절약시간 등은 제외한다. 개량경제학이나 시게열 분석할 때 유용하다. lubridate - tidyverse 패키지이다. 표준시간대 같은 중요한 부가 기능을 유지하면서 날짜와 시간을 다루..

데이터분석/R 2022.12.30

R언어 공부 - 5

1) 두 데이터 프레임 합치기 두 데이터 프레임의 열을 옆으로 이어 붙이려면 cbind를 사용한다 두 데이터 프레임의 행을 쌓으려면 rbind를 사용한다 all.cols as.numeric("3.14") [1] 3.14 > as.integer(3.14) [1] 3 # 논릿값에서 숫자값으로 변환 시, FALSE는 0, TRUE는 1로 바뀜 > as.numeric(FALSE) [1] 0 3) 구조화된 자료형을 다른 형식으로 변환하기 다음 함수들은 데이터 구조로 인자를 변환한다 as.data.frame(x) as.list(x) as.matrix(x) as.vector(x) 데이터 구조를 상호 변환하는 일은 조금 어려울 수 있다. 일부는 생각대로 변환하지만 나머지는 그렇지 않다 변환 방법 벡터 -> 리스트 as..

데이터분석/R 2022.12.29

R언어 공부 - 4

1) 재활용 규칙 서로 길이가 다른 벡터끼리 연산할 때 적용되는 규칙 양쪽 벡터의 첫 번째 원소들에서부터 쌍으로 처리한 후 어떤 시점이 되면 긴 벡터 쪽에는 처리되지 않은 원소가 남아 있고 짧은 벡터에는 원소가 모자르게 된다.이때 재활용 규칙이 적용되어 짧은 벡터의 처음으로 돌아가서 다시 원소들을 재활용한다. # 예시 > 1:6 [1] 1 2 3 4 5 6 > 1:3 [1] 1 2 3 > (1:6) + (1:3) [1] 2 4 6 5 7 9 # 행 뿐만 아니라 열 벡터에 적용된다 > cbind(1:6) [,1] [1,] 1 [2,] 2 [3,] 3 [4,] 4 [5,] 5 [6,] 6 > cbind(1:3) [,1] [1,] 1 [2,] 2 [3,] 3 > cbind(1:6, 1:3) [,1] [,2] ..

데이터분석/R 2022.12.27

R언어 공부 - 3

1) 벡터 벡터는 동질적이다(전부 동일한 자료형이어야 함) 벡터는 위치로 인덱스된다 벡터는 여러 개의 위치로 인덱스될 수도 있으며, 이때 하위 벡터를 반환한다 v[c(2,3)] 은 v의 2, 3번쨰 원소로 이루어진 하위 벡터 벡터 원소들은 이름을 가질 수 있다. 2) 리스트 리스트는 이질적이다(여러 자료형의 원소들이 포함될 수 있다) 리스트는 위치로 인덱스된다 리스트에서 하위 리스트를 추출할 수 있다 lst[c(2,3)] 은 lst의 2, 3번쨰 원소로 이루어진 하위 리스트 리스트의 원소들은 이름을 가질 수 있다. 3) 모드 : 물리적 자료형 메모리에 어떻게 저장되는지를 가리키는 것 숫자로 저장될 것인가, 문자열, 다른 객체로 저장될 것인가를 나타내는게 모드 객체 예 모드 숫자 3.1415 수치형 숫자 ..

데이터분석/R 2022.12.27

R언어 공부 - 2

1 ) 자릿수 더 적게(많게) 출력하기 print에서 digits 인자는 출력되는 자릿수 조정 가능, cat에서는 format 함수로 숫자의 형식을 수정 > print(pi, digits=4) [1] 3.142 > print(pi, digits = 10) [1] 3.141592654 # cat 함수에서는 형식을 바로 지정 X, format함수로 숫자 형식을 바꾸고 사용 > cat(pi, "\n") 3.141593 > cat(format(pi, digits=4), "\n") 3.142 # 모든 숫자가 동일한 길이를 가지도록 형식 지정 # 테이블 전체의 형식을 지정할 때 > q tbl tbl Quant Lower Upper 1 0.0 0.500000000 0.5000000 2 0.5 0.308537539 0..

데이터분석/R 2022.12.26

R언어 공부 - 1

R은 동적 타입 언어(Dynamically typed language)이기 때문에 변수의 자료형을 마음대로 바꿀 수 있다는 장점이 있다. 또한 다양한 통계, 시각화 패키지들이 존재하여 손쉽게 꺼내쓸 수 있다는 점이다. 또한 오픈소스이고 직관적이고 쉽게 데이터 전처리가 가능하다는 점이다. 하지만 단점으로는 모든 데이터를 메모리에 로딩한 후 처리하기에 속도 측면에서 불리하다. 불필요한 데이터 저장으로 메모리 부족 현상이 일어난다. 1) Cat cat 함수는 print의 대안으로, 여러 개의 항목을 묶어서 출력할 때 쓰임 추가로 한 줄을 끝내고 싶을 때에는 \n 개행 문자 삽입 하지만 행렬이나 리스트 같은 데이터 구조는 출력할 수 없다는 점 > cat(pi, 2*pi, sqrt(3)) 3.141593 6.28..

데이터분석/R 2022.12.26