분류 전체보기 251

하둡(Hadoop) - 네임노드, 세컨더리 네임노드, 데이터노드 및 장애대응

네임노드(Namenode) 파일시스템의 네임스페이스르 관리하고 파일시스템 트리와 그 트리에 포함된 모든 파일과 디렉토리에 대한 메타데이터를 유지한다. 정보들은 네임스페이스 이미지(FsImage)와 에디트 로그(EditLog) 파일에 저장된다. ✔ Editlog : HDFS의 메타데이터에 대한 모든 변화를 기록하는 로그 파일, Namenode 로컬에 저장된다. ✔ FsImage : 파일 시스템의 네임스페이스와 파일에 대한 블록 매핑 정보를 저장하는 파일, 마찬가지로 Namenode 로컬에 저장된다. 세컨더리 네임노드(Secondary Namenode) EditLog가 커지지 않도록 주기적으로 네임스페이스 이미지를 에디트 로그와 병합한다. 네임노드의 백업용 노드가 아닌 정보를 합치기 위한 노드이다. 데이터노..

하둡(Hadoop) - 하둡 분산 파일시스템(HDFS)

분산 파일시스템 데이터가 단일 물리 머신의 저장 용량을 초과하게 되면, 전체 데이터셋 분리된 여러 머신에 나눠서 저장할 필요가 있다. 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템을 분산 파일시스템이라고 한다. 분산 파일시스템은 네트워크 기반이므로 네트워크 프로그램의 복잡성을 모두 가지고 있다. 장점 1. 매우 큰 파일 수백 메가, 기가, 테라뿐만 아니라 최근에는 페타바이트 크기의 데이터를 저장하는 하둡 클러스터도 등장 2. 스트리밍 방식의 데이터 접근 가장 효율적인 데이터 접근 방식 -> 한 번 쓰고 여러 번 읽는 것 3. 범용 하드웨어 HDFS는 장애 발생 시 장애가 발생했다는 사실을 모르게 작업을 수행하도록 설계 단점 1. 빠른 데이터 응답 시간 HDFS는 높은 데이터 처리량을 제공하..

하둡(Hadoop) - 맵 리듀스

맵과 리듀스 맵 리듀스는 맵 단계와 리듀스 단계로 구분되고, 각 단계는 입력과 출력을 키-값의 쌍을 가진다. 맵 단계의 입력은 원본 데이터이며 데이터셋의 각 행의 타입을 텍스트로 인식하는 텍스트 입력 포맷을 선택해야한다. 맵리듀스 시스템은 JobTracker, TaskTracker로 구성되고 master-slave 구조이다. 전체적인 맵 리듀스의 흐름은 다음과 같다. Splitting(분할) - 우선 대용량의 입력 파일을 split한후, 맵 함수를 적용한다. - 대용량의 파일을 한꺼번에 처리할 수 없으므로 잘게 쪼개서 맵리듀스로 처리하는 방식이다. Mapping(매핑) - 분할된 데이터를 맵함수로 전달하고 맵함수는 해당 기준에 따라 문자 및 단어를 분리한다. Shuffling(셔플링) - Shufflin..

하둡(Hadoop) 개요

하둡(Hadoop)은 안정적이고 확장성이 높은 저장 및 분석 플랫폼을 제공한다. 범용 하드웨어에서 실행되고 오픈소스이다. SQL이나 RDBMS와는 다르고 코드는 대부분 JAVA로 작성된다는 것이 특징이다. 크기가 큰 데이터 셋을 디스크에 나눠서 저장하고 공유하게 되면 빠른 분석이 가능하고 분석 작업에도 탁월한 효과를 지니게 된다. 하지만 여러 개의 디스크를 병렬로 쓰거나 읽기 위해선 몇몇 문제를 고려해야 한다. 하드웨어 장애 데이터 손실을 막기 위한 방법은 데이터를 여러 곳에 복제하는 방법 - RAID 방식 HDFS와는 조금 다른 방법을 사용한다. 분할된 데이터를 분석 과정에서 다시 결합 많은 분산 시스템이 다중 출처의 데이터를 병합하는 기능을 제공하지만, 정합성이 안 지켜지는 경우가 많다. 맵리듀스의 ..

하둡(Hadoop)에 관하여

이번 학기에 분산시스템을 배우게 되었는데 교수님께서 Hadoop을 이용하여 수업을 하신다고 하셨다. 여기서 하둡이란 대용량의 데이터를 적은 비용으로 더 빠르게 분석 할수 있는 플랫폼이고 실무에서도 많이 쓰이는 툴 중 하나이다. 대용량 파일 저장하는 하둡 분산파일 시스템(HDFS), 저장된 분산 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 분석하는 맵리듀스(Mapreduce)로 구성되어 있다. 하지만 요즘은 맵리듀스 대신 스파크(Spark)를 많이 쓰는 추세이고 성능면에서 스파크가 더 좋기에 많이 쓰인다.

[Tableau] 하이라이트 테이블과 기타 차트

하이라이트 테이블 고객별 수익을 확인하기 위해 고객 이름과 수익을 ctrl 키를 눌러 동시에 선택하고 표현 방식에서 하이라이트 테이블을 선택한다. Profit, Quantity, Sales, 평균 Discount를 테이블에서 맵 위로 올려놓아서 고객별 네 변수의 관계를 알아본다. 이후 측정값 색상 필드 우클릭 -> 별도의 범례를 통해 측정값들의 지표를 더 잘 나타날수 있게 색깔을 바꿔준다. Discount의 경우 0에서부터 양수 방향으로 단일 색상을 권장된다. Sales의 경우 5에서부터 양수 방향임로 단일 색상, Quantity도 마찬가지다. 하지만 Profit의 경우 0을 기준으로 양수 및 음수 방향이 있기 떄문에 다중 색상이 권장된다. 트리맵 한 개 이상의 차원과 한 개 또는 두 개의 측정값이 필요..

[Tableau] 상관 관계와 분포를 나타내는 차트

스캐터 플랏(Scatter plot) 산점도, 산포도라고 불리며 점들이 여기저기 흩어진 모양의 그래프이다. x축과 y축에 해당하는 데이터의 상관관계를 표현할 때 사용하며 두 개의 축 기준으로 데이터가 얼마나 퍼져있는지를 알 수 있다. 눈에 잘 들어오는 스캐터 플랏 만들기 색상 불투명도 줄이기 테두리를 짙은 색상으로 주기 양 극단의 값을 제외함으로써 보다 화면이 줌인됨으로써 디테일 수준을 높일 수 있다. 추세선을 통해 두 개의 측정값간의 상관관계를 볼 수 있다. 단위가 설정된 구간의 크기를 자유롭게 조정할 때 Profit(bin) 필드 우클릭 -> 편집 -> 구간차원 크기 구간차원의 크기를 조정함으로써 그래프가 다르게 보일 수 있다. 박스 플랏(Box plot) 상자 수염 그림(Box-and-Whisker..

[Tableau] 파이차트 & 비율 바 차트 & 퀵 테이블 계산

파이차트 & 비율 바 차트 표현 방식 -> 파이 차트를 통해 파이 차트형태로 볼 수 있다. 레이블 붙이는 법 : 마크 카드 안에 있는 필드르 cmd / ctrl을 활용하여 복사 비율을 보고 싶을 때 : 레이블 필드 우클릭 -> 퀵 테이블 계산 -> 구성 비율 퀵 테이블의 경우 전체 파이 차트의 합 비율이 100%이다(각각 100%가 아님) 각각의 차트에서 비율을 보고 싶을 떄 : 퀵 테이블 계산 필드 우클릭 -> 테이블 계산 편집 -> 해당 체크 박스 해제 문제점 눈에 잘 안들어와서 비교가 어렵다는 단점이 있다(각도로 표시하기 때문이다) 오히려 막대 그래프의 경우가 눈에 더 잘들어온다는 점이다. 퀵 테이블 계산 누계, 차이, 비율 차이, 구성 비율, 순위, 백분위수, 이동 평균등이 있다. 누계 : 각각의..

[Tableau] 라인 차트(Line Chart)

연속형 vs 불연속형 태블로에서는 모든 필드가 불연속형, 연속형으로 이루어져 있다 연속형은 초록색으로 표현되고, 불연속형은 파란색으로 나타난다. 연속형이나 불연속형으로 바꾸고 싶을때에는 해당 칼럼 - 오른쪽 마우스를 통해 불연속형, 선택형으로 고를 수 있다 라인차트 vs 영역차트 라인차트는 기준값이 0부터 시작하고 각 항목별로 값을 보여준다. 영역차트는 반면 기준값이 0부터 시작하는게 아닌 누적 값을 쌓아올린 것이다. 영역차트의 경우 설정을 추가로 할 수 있는데 분석 - 마크누적 설정을 해제할 경우 라인차트와 같이 항목별로 값을 볼 수 있게 된다.

[Tableau] 바 차트와 라인 차트, 영역 차트

바 차트 특징 태블로에서 선반에 값을 올릴 떄 항상 집계된 값이 올라간다(Ex.)Sales값만 올려쓴데 합계(Sales)가 구해짐) 행에는 기준 값을 올리고 열을 통해 분기를 나눌 수 있다. 필요에 따라 행과 열을 바꾸어 주는게 좋다 sorting을 통하여 내림차순이나, 오름차순으로 정렬하는게 좋다 바 차트 팁들 각각의 막대에 색상을 넣기 필요한 테이블을 마크-색상에 올려놓으면 그래프별로 각각 색상이 적용된다 추가로 색상 범례에 들어가 원하는 색상을 정할 수 있다. 색상 범례에 RGB Slider를 통해 RGB코드를 직접 입력할 수 있다. 막대가 너무 많아 지저분할 때 바를 ctrl + 클릭 누른뒤 클립을 이용해 그룹화 시켜준다 -> 하나의 막대 그래프로 묶임 별칭 편집을 이용해 이름도 바꿀 수 있다 화..