사람들은 무거운 것을 끌기 위해 소를 이용했다. 그러나 소 한마리가 통나무 하나를 움직일 수 없을때 그 소를 더 키우려 애쓰지 않았다. 우리에게 필요한것은 한대의 컴퓨터가 아니라 많은 컴퓨터로 이루어진 새로운 시스템이다

데이터 저장소와 분석

문제: 하드디스크의 용량은 지난 수년간 엄청나게 증가했지만 데이터를 읽는 속도는 그에 미치지 못했다.

해결: 여러개의 디스크에 데이터를 병렬로 씀

많은 하드웨어를 사용할수록 장애가 발생할 확률도 커짐

데이터를 여러곳에 복제 (ex) RAID

정합성을 지키는 것은 매우 어려운 도전 과제

맵리듀스는 디스크에서 데이터를 읽고 쓰는 문제를 키-값 쌍의 계싼으로 변환한 추상화된 프로그래밍 모델을 제공

계산을 맵, 리듀스로 분리하고 그 둘 사이를 혼합해주는 인터페이스가 있음

맵리듀스

Hbase

Yarn