맵과 리듀스 맵 리듀스는 맵 단계와 리듀스 단계로 구분되고, 각 단계는 입력과 출력을 키-값의 쌍을 가진다. 맵 단계의 입력은 원본 데이터이며 데이터셋의 각 행의 타입을 텍스트로 인식하는 텍스트 입력 포맷을 선택해야한다. 맵리듀스 시스템은 JobTracker, TaskTracker로 구성되고 master-slave 구조이다. 전체적인 맵 리듀스의 흐름은 다음과 같다. Splitting(분할) - 우선 대용량의 입력 파일을 split한후, 맵 함수를 적용한다. - 대용량의 파일을 한꺼번에 처리할 수 없으므로 잘게 쪼개서 맵리듀스로 처리하는 방식이다. Mapping(매핑) - 분할된 데이터를 맵함수로 전달하고 맵함수는 해당 기준에 따라 문자 및 단어를 분리한다. Shuffling(셔플링) - Shufflin..