네트워크로 연결된 여러 머신의 스토리지를 관리하는 분산 파일 시스템

HDFS 설계

설계 특성

가장 효율적인 데이터 처리 패턴은 한번 쓰고 여러번 읽는 것

첫번째 레코드를 읽는데 걸리는 지연 시간보다 전체 데이터를 모두 읽을때 걸리는 시간이 중요

장애가 발생할 확률이 높은 범용 하드웨어에서 문제없이 실행되도록 설계

잘 맞지 않는 응용 분야

네임노드는 파일시스템의 메타데이터를 메모리에서 관리하기 때문에 저장할 수 있는 파일 수는 네임노드의 메모리 용량에 좌우

한번 쓰고 끝나거나 파일의 끝에 덧붙이는 것은 가능하지만 파일에서 임의 위치에 있는 내용을 수정하는 것은 허용하지 않는다.

HDFS 개념

블록

분산 파일시스템에 블록 추상화의 개념을 도입하면서 얻게 된 이익