데이터분석 33

SQL 도구 들의 관계 및 차이

PostgreSQL 오픈소스 RBD(Relational Database) 다양한 플랫폼 지원, GUI 인스톨러가 제공 특유의 확장 기능으로 편리하게 사용할 수 있음 Apache Hive HDFS라 불리는 분산 파일 시스템 위의 데이터를 SQL스러운 인터페이스로 간단하게 처리해주는 시스템 Hive는 Hadoop 생태계의 일부분으로 SQL스러운 쿼리 언어로 작성한 쿼리를 MapReduce 잡으로 변환해서 간단하게 병렬 분산 처리 파일 기반의 시스템(특정 레코드 하나 변경하거나 제거 X, 쿼리 실행 시 파일 전체를 조작) 동적으로 데이터를 정의 풍부한 UDF(User-Defined Function)을 활용해서 어려운 문자열 처리가 가능 Amazon Redshift AWS에서 제공하는 분산 병렬 RDB Hive..

빅데이터 시대에 요구되는 분석력?

언어 소개 분산 처리 담당 미들웨어 : Apache Hadoop 클라우드 서비스 : Amazon Redshift, Google Bigquery 미들웨어 부속 도구 : Hadoop - Hue, Amazon Redshift - Aginity 분석 담당자의 과제 스스로 지표 결정해야 함 SQL을 배우지 않은 상태에서는 무엇을 집계하는 지 자체를 생각할 수 없음 데이터 추출 시 SQL 사용해야 함 SQL 사용시 겪는 시행착오에 시간이 더 오래 걸려서 리포트 품질을 담보할 수 없게 됨 => Tableau, Kibana, Power BI 등 시각화 도구가 잘 되어있어서, SQL을 잘 못 써도되더라도 시각화하는데 문제는 없다. 하지만? SQL에 서툰 마케팅 담당자를 고려해서 BI 도구를 도입하더라도 문제 발생 복잡한..

(데이터분석을 위한 SQL 레시피) 실무 위주의 PostgreSQL 공부

이번방학 때에는 sql지식을 oracle, mysql 뿐만 아니라 다른 sql언어도 배우고싶다는 생각이 들어 어떤 언어를 할까 찾던 와중 PostgreSQL이 현업에서도 많이 쓰이고 확장성이 높아서 해당 언어를 공부하게되었다. 해당 책은 현업에서 쓰이는 실무 위주의 내용이 담겨져 있고 책을 통해 배운 쿼리나 예제문들을 통해 도메인에 대한 지식 및 sql 실력을 한층 더 성장할 수 있는 발판이 되었으면 한다.

Power BI에서 행정동 코드 shape Map 만들기

1. 먼저 행정도 맵 벡터화를 하기 위해 QGIS라는 프로그램이 필요하다. 최신 버전인 3.30.3을 다운받으면 된다. QGIS라는 프로그램은 자유 오픈 소스 지리정보 시스템으로 그래픽 지도를 구성하고 공간 정보를 분석 및 편집할 수 있도록 해놓은 프로그램이다. 링크 : https://qgis.org/ko/site/ QGIS 프로젝트에 오신 것을 환영합니다! 여러분의 GIS 작업에 QGIS를 사용해 보세요. qgis.org 2. shape Map을 만들기 위해서는 topojson 파일이 필요하다. topojson파일을 얻기 위해서는 geojson 포맷의 파일을 이용하여 topojson파일을 생성하는 법이 있다. 대한민국 행정구역 공간정보 파일이 필요하다 원하는 행정구역을 추출한다(Ex. 서울특별시, 부산..

[Tableau] 하이라이트 테이블과 기타 차트

하이라이트 테이블 고객별 수익을 확인하기 위해 고객 이름과 수익을 ctrl 키를 눌러 동시에 선택하고 표현 방식에서 하이라이트 테이블을 선택한다. Profit, Quantity, Sales, 평균 Discount를 테이블에서 맵 위로 올려놓아서 고객별 네 변수의 관계를 알아본다. 이후 측정값 색상 필드 우클릭 -> 별도의 범례를 통해 측정값들의 지표를 더 잘 나타날수 있게 색깔을 바꿔준다. Discount의 경우 0에서부터 양수 방향으로 단일 색상을 권장된다. Sales의 경우 5에서부터 양수 방향임로 단일 색상, Quantity도 마찬가지다. 하지만 Profit의 경우 0을 기준으로 양수 및 음수 방향이 있기 떄문에 다중 색상이 권장된다. 트리맵 한 개 이상의 차원과 한 개 또는 두 개의 측정값이 필요..

[Tableau] 상관 관계와 분포를 나타내는 차트

스캐터 플랏(Scatter plot) 산점도, 산포도라고 불리며 점들이 여기저기 흩어진 모양의 그래프이다. x축과 y축에 해당하는 데이터의 상관관계를 표현할 때 사용하며 두 개의 축 기준으로 데이터가 얼마나 퍼져있는지를 알 수 있다. 눈에 잘 들어오는 스캐터 플랏 만들기 색상 불투명도 줄이기 테두리를 짙은 색상으로 주기 양 극단의 값을 제외함으로써 보다 화면이 줌인됨으로써 디테일 수준을 높일 수 있다. 추세선을 통해 두 개의 측정값간의 상관관계를 볼 수 있다. 단위가 설정된 구간의 크기를 자유롭게 조정할 때 Profit(bin) 필드 우클릭 -> 편집 -> 구간차원 크기 구간차원의 크기를 조정함으로써 그래프가 다르게 보일 수 있다. 박스 플랏(Box plot) 상자 수염 그림(Box-and-Whisker..

[Tableau] 파이차트 & 비율 바 차트 & 퀵 테이블 계산

파이차트 & 비율 바 차트 표현 방식 -> 파이 차트를 통해 파이 차트형태로 볼 수 있다. 레이블 붙이는 법 : 마크 카드 안에 있는 필드르 cmd / ctrl을 활용하여 복사 비율을 보고 싶을 때 : 레이블 필드 우클릭 -> 퀵 테이블 계산 -> 구성 비율 퀵 테이블의 경우 전체 파이 차트의 합 비율이 100%이다(각각 100%가 아님) 각각의 차트에서 비율을 보고 싶을 떄 : 퀵 테이블 계산 필드 우클릭 -> 테이블 계산 편집 -> 해당 체크 박스 해제 문제점 눈에 잘 안들어와서 비교가 어렵다는 단점이 있다(각도로 표시하기 때문이다) 오히려 막대 그래프의 경우가 눈에 더 잘들어온다는 점이다. 퀵 테이블 계산 누계, 차이, 비율 차이, 구성 비율, 순위, 백분위수, 이동 평균등이 있다. 누계 : 각각의..

[Tableau] 라인 차트(Line Chart)

연속형 vs 불연속형 태블로에서는 모든 필드가 불연속형, 연속형으로 이루어져 있다 연속형은 초록색으로 표현되고, 불연속형은 파란색으로 나타난다. 연속형이나 불연속형으로 바꾸고 싶을때에는 해당 칼럼 - 오른쪽 마우스를 통해 불연속형, 선택형으로 고를 수 있다 라인차트 vs 영역차트 라인차트는 기준값이 0부터 시작하고 각 항목별로 값을 보여준다. 영역차트는 반면 기준값이 0부터 시작하는게 아닌 누적 값을 쌓아올린 것이다. 영역차트의 경우 설정을 추가로 할 수 있는데 분석 - 마크누적 설정을 해제할 경우 라인차트와 같이 항목별로 값을 볼 수 있게 된다.

[Tableau] 바 차트와 라인 차트, 영역 차트

바 차트 특징 태블로에서 선반에 값을 올릴 떄 항상 집계된 값이 올라간다(Ex.)Sales값만 올려쓴데 합계(Sales)가 구해짐) 행에는 기준 값을 올리고 열을 통해 분기를 나눌 수 있다. 필요에 따라 행과 열을 바꾸어 주는게 좋다 sorting을 통하여 내림차순이나, 오름차순으로 정렬하는게 좋다 바 차트 팁들 각각의 막대에 색상을 넣기 필요한 테이블을 마크-색상에 올려놓으면 그래프별로 각각 색상이 적용된다 추가로 색상 범례에 들어가 원하는 색상을 정할 수 있다. 색상 범례에 RGB Slider를 통해 RGB코드를 직접 입력할 수 있다. 막대가 너무 많아 지저분할 때 바를 ctrl + 클릭 누른뒤 클립을 이용해 그룹화 시켜준다 -> 하나의 막대 그래프로 묶임 별칭 편집을 이용해 이름도 바꿀 수 있다 화..

[Tableau] 데이터 작업하기

데이터 샘플 통합문서 열기 도움말 -> 샘플 통합문서, 없을 경우 액셀레레이터 -> 슈퍼스토어를 클릭하면 다음 화면과 같이 나온다. 선반 열과 행이 나타나 있는 곳을 선반이라 부른다. 초록색은 연속형(continuous), 파란색은 불연속형(concrete)를 나타냄 용어 정리 시트 : 하나의 워크 스페이스 대시보드 : 몇 개의 시트를 조합하여 구성하는 하나의 화면 스토리 : 시트와 대시보드가 조합된 스토리 라인(ppt와 유사) 차원과 측정값 비교 차원(dimension) 측정값(measure) 데이터 타입 불연속형(나라, 지역, 회사명) 연속형, 숫자(나이, 매출, 키, 몸무게) 활용 목적 데이터 분류 데이터 집계 데이터를 불러오면 아래의 그림과 같이 필드가 차원과 측정값으로 나뉘는데, 상단이 차원, ..