이번 학기에 분산시스템을 배우게 되었는데 교수님께서 Hadoop을 이용하여 수업을 하신다고 하셨다. 여기서 하둡이란 대용량의 데이터를 적은 비용으로 더 빠르게 분석 할수 있는 플랫폼이고 실무에서도 많이 쓰이는 툴 중 하나이다. 대용량 파일 저장하는 하둡 분산파일 시스템(HDFS), 저장된 분산 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 분석하는 맵리듀스(Mapreduce)로 구성되어 있다. 하지만 요즘은 맵리듀스 대신 스파크(Spark)를 많이 쓰는 추세이고 성능면에서 스파크가 더 좋기에 많이 쓰인다.