맵리듀스는 데이터 처리를 위한 프로그래밍 모델

하둡의 특성상 소수의 큰 파일이 처리하기 쉽고 효율적

기상데이터셋 예제

유닉스 도구:

20세기 기상 데이터의 최고온도 소요시간 42분

처리 속도를 높이기 위해 병렬로 수행해야함.

연도별 파일을 서로 다른 프로세스에 할당하고 모든 하드웨어 프로세스를 할당하는 방식이 있지만 문제점들이 있음

하둡으로 데이터 분석하기

맵리듀스 작업은 크게 맵 단계와 리듀스 단계로 구분

각 단계는 입력과 출력으로 키-값의 쌍을 가지며, 그 타입은 프로그래머가 선택한다.

맵 함수