하둡(Hadoop)은 안정적이고 확장성이 높은 저장 및 분석 플랫폼을 제공한다. 범용 하드웨어에서 실행되고 오픈소스이다. SQL이나 RDBMS와는 다르고 코드는 대부분 JAVA로 작성된다는 것이 특징이다. 크기가 큰 데이터 셋을 디스크에 나눠서 저장하고 공유하게 되면 빠른 분석이 가능하고 분석 작업에도 탁월한 효과를 지니게 된다. 하지만 여러 개의 디스크를 병렬로 쓰거나 읽기 위해선 몇몇 문제를 고려해야 한다. 하드웨어 장애 데이터 손실을 막기 위한 방법은 데이터를 여러 곳에 복제하는 방법 - RAID 방식 HDFS와는 조금 다른 방법을 사용한다. 분할된 데이터를 분석 과정에서 다시 결합 많은 분산 시스템이 다중 출처의 데이터를 병합하는 기능을 제공하지만, 정합성이 안 지켜지는 경우가 많다. 맵리듀스의 ..