데이터분석 33

[Tableau] 라이브 커넥션 vs 추출 커넥션, 데이터 원본 필터

라이브 커넥션 vs 추출 커넥션 라이브 연결의 장점 - 신속한 업데이트 라이브 연결의 단점 - DB 부하 - (상대적으로) 늦은 처리 속도 추출 연결의 장점 - 빠른 처리 속도 - 모든 종류의 태블로 기능 사용 가능 추출 연결의 단점 - (상대적으로) 느린 업데이트 주기 데이터 원본 필터 - 대용량 데이터일 경우 적절히 사용할 경우 매우 유용하다

과대적합, 과소적합 및 해결방법

과대적합(overfitting) 모델이 훈련 세트에 과하게 적합한 상태가 되었을 때 발생하는 문제를 말한다. 모델을 지나치게 복잡하게 학습하여 훈련 데이터 셋에서는 모델 성능이 높지만 다른 데이터가 주어졌을 때에는 정확한 예측/분류를 못한다는 것이다. 예를 들어, 중간고사 시험을 위해 중간고사에 대한 답지를 모델에게 학습 시켰을 때 중간고사 시험에 대한 테스트 점수는 높겠지만 기말고사 시험 문제를 주었을 때에는 점수가 낮게 나오는 것으로 비유할 수 있다. 발생 원인 데이터 세트 내 데이터가 충분하지 못한 경우 데이터 세트 내 분산이 크거나 노이즈가 큰 경우 모델의 복잡도가 큰 경우 과도하게 큰 epoch로 학습한 경우 해결 방법 데이터 양 늘리기 데이터 양이 적어서 해당 데이터의 특징 패턴, 노이즈까지 ..

경사 하강법(Gradient descent)

1차 근삿값 발견용 최적화 알고리즘, 1차 미분계수를 이용해 함수의 최소값을 찾아가는 방법 학습률만큼 계속 이동하면서 학습하기 때문에 적절한 학습률을 지정해줘야 한다. 이때 비용함수을 사용하여 이 값을 최소화하는 방식을 사용한다. 비용 함수(Cost function) 예측 값과 실제 결과 간의 차이를 비용(Cost)라 하며, 이 Cost를 제곱해서 더한 함수로 만든 것을 비용 함수라고 한다. 제곱했기 때문에 이차함수의 형태를 가지게 되므로 이를 최소화하는 매개변수를 찾아가게끔 경사 하강법을 적용한다. 가설함수의 형태를 결정짓는 것은 매개변수(parameter)라 부르는 θ 이고 이 값을 적절하게 조정하여 실제값 y에 가장 근접한 가설함수를 Training set을 이용하여 도출해야 한다. 경사 하강법의 ..

티스토리에 GA연동(구글 애널리틱스)

구글 애널리틱스 계정 만들기 위한 링크 : https://analytics.google.com/analytics/web/?et&authuser=0#/provision/SignUp 티스토리에 GA를 연동을 해서 사이트에 대한 통계적 자료를 볼 수 있고 파악이 가능하다. 1. 구글 애널리틱스 계정이 없을 시 새로 만들어주어야 한다. 구글 계정에 로그인을 한 후, 웹페이지 관련 계정이름 및 웹사이트 이름 설정하고 티스토리 메인 화면 주소를 넣어주어야 한다. 2. 이후 고급옵션에 들어가 유니버설 애널리틱스 속성을 만들어주어야 한다. 이때 티스토리 메인 화면 링크를 넣고 GA 4 속성과 유니버설 애널리틱스 속성 둘 다 만들기를 체크해준다. 3. 이후 속성 이름은 필자의 경우 joohs0505_tistory라고 해..

데이터분석 2023.01.09

R언어 공부 - 7

분포의 이름 R에는 모든 확률분포의 축약형 이름이 따로 존재한다. 이름을 가지고 그 분포와 관계된 함수들을 식별 해낼수 있다. 예를 들어, 정규분포의 이름은 norm이다. 함수 용도 dnorm 정규분포 확률 밀도(normal density) pnorm 정규분포함수(normal distribution function) qnorm 정규분포 분위수 함수(normal quantile function) rnorm 정규분포 난수(normal random variates) 일반적인 이산분포 이산분포 이름 R에서의 이름 매개변수(인자) 이항(binomial) binom n = 시행 횟수.p = 시행 한번당 성공 확률 기하(geometric) geom p = 시행 한번당 성공확률 초기하(hypergeometric) hy..

데이터분석/R 2022.12.30

R언어 공부 - 6

날짜와 시간을 다루는 클래스 Date - 날짜는 나타낼 수 있지만 시간은 나타내지 못한다. 날짜 관련 작업을 하는 일반적인 용도의 클래스, 변환, 형식 설정, 기본 날짜, 연산, 표준시간대 처리 등의 작업을 할 때 사용한다. POSIXct - 날짜 및 시간 클래스, 1초 간격의 정확도로 시간의 순간을 나타낼 수 있다. 1970년 1월 1일 이후 몇 초나 흘렀는지 기록하는 방식으로 저장한다. 날짜 시간 정보(데이터 프레임 내)를 저장할 때 쓴다. chron - 날짜와 시간 모두 나타낼 수 있지만 복잡한 표준시간대 처리나 일광절약시간 등은 제외한다. 개량경제학이나 시게열 분석할 때 유용하다. lubridate - tidyverse 패키지이다. 표준시간대 같은 중요한 부가 기능을 유지하면서 날짜와 시간을 다루..

데이터분석/R 2022.12.30

R언어 공부 - 5

1) 두 데이터 프레임 합치기 두 데이터 프레임의 열을 옆으로 이어 붙이려면 cbind를 사용한다 두 데이터 프레임의 행을 쌓으려면 rbind를 사용한다 all.cols as.numeric("3.14") [1] 3.14 > as.integer(3.14) [1] 3 # 논릿값에서 숫자값으로 변환 시, FALSE는 0, TRUE는 1로 바뀜 > as.numeric(FALSE) [1] 0 3) 구조화된 자료형을 다른 형식으로 변환하기 다음 함수들은 데이터 구조로 인자를 변환한다 as.data.frame(x) as.list(x) as.matrix(x) as.vector(x) 데이터 구조를 상호 변환하는 일은 조금 어려울 수 있다. 일부는 생각대로 변환하지만 나머지는 그렇지 않다 변환 방법 벡터 -> 리스트 as..

데이터분석/R 2022.12.29

R언어 공부 - 4

1) 재활용 규칙 서로 길이가 다른 벡터끼리 연산할 때 적용되는 규칙 양쪽 벡터의 첫 번째 원소들에서부터 쌍으로 처리한 후 어떤 시점이 되면 긴 벡터 쪽에는 처리되지 않은 원소가 남아 있고 짧은 벡터에는 원소가 모자르게 된다.이때 재활용 규칙이 적용되어 짧은 벡터의 처음으로 돌아가서 다시 원소들을 재활용한다. # 예시 > 1:6 [1] 1 2 3 4 5 6 > 1:3 [1] 1 2 3 > (1:6) + (1:3) [1] 2 4 6 5 7 9 # 행 뿐만 아니라 열 벡터에 적용된다 > cbind(1:6) [,1] [1,] 1 [2,] 2 [3,] 3 [4,] 4 [5,] 5 [6,] 6 > cbind(1:3) [,1] [1,] 1 [2,] 2 [3,] 3 > cbind(1:6, 1:3) [,1] [,2] ..

데이터분석/R 2022.12.27

R언어 공부 - 3

1) 벡터 벡터는 동질적이다(전부 동일한 자료형이어야 함) 벡터는 위치로 인덱스된다 벡터는 여러 개의 위치로 인덱스될 수도 있으며, 이때 하위 벡터를 반환한다 v[c(2,3)] 은 v의 2, 3번쨰 원소로 이루어진 하위 벡터 벡터 원소들은 이름을 가질 수 있다. 2) 리스트 리스트는 이질적이다(여러 자료형의 원소들이 포함될 수 있다) 리스트는 위치로 인덱스된다 리스트에서 하위 리스트를 추출할 수 있다 lst[c(2,3)] 은 lst의 2, 3번쨰 원소로 이루어진 하위 리스트 리스트의 원소들은 이름을 가질 수 있다. 3) 모드 : 물리적 자료형 메모리에 어떻게 저장되는지를 가리키는 것 숫자로 저장될 것인가, 문자열, 다른 객체로 저장될 것인가를 나타내는게 모드 객체 예 모드 숫자 3.1415 수치형 숫자 ..

데이터분석/R 2022.12.27

R언어 공부 - 2

1 ) 자릿수 더 적게(많게) 출력하기 print에서 digits 인자는 출력되는 자릿수 조정 가능, cat에서는 format 함수로 숫자의 형식을 수정 > print(pi, digits=4) [1] 3.142 > print(pi, digits = 10) [1] 3.141592654 # cat 함수에서는 형식을 바로 지정 X, format함수로 숫자 형식을 바꾸고 사용 > cat(pi, "\n") 3.141593 > cat(format(pi, digits=4), "\n") 3.142 # 모든 숫자가 동일한 길이를 가지도록 형식 지정 # 테이블 전체의 형식을 지정할 때 > q tbl tbl Quant Lower Upper 1 0.0 0.500000000 0.5000000 2 0.5 0.308537539 0..

데이터분석/R 2022.12.26