9장 데이터소스

스파크에는 여섯가지 '핵심' 데이터소스와 커뮤니티에서 만든 수백 가지 외부 데이터소스가 있음
여섯가지 핵심 데이터 소스
- CSV
- JSON
- PARQUET
- ORC
- JDBC/ODBC
- 일반 텍스트 파일
커뮤니티 데이터 소스
- 카산드라
- HBASE
- 몽고디비
- AWS Redshift
- XML
- 기타 수많은 데이터소스

데이터소스 API의 구조

읽기 API 구조

핵심구조

DataFrameReader.format().option("key","value").schema().load()

format 메서드는 선택적이며 기본값은 parquet
option 값을 사용해 데이터를 읽는 방법에 대한 파라미터를 키-값 쌍으로 설정
schema 메서드는 데이터 소스에서 스키마를 제공하거나 스키마 추론 기능을 사용

데이터 읽기의 기초

spark.read

DataFrameReader는 SparkSession 의 read 속성으로 접근

csvFile = spark.read.format("csv")\\
  .option("header", "true")\\
  .option("mode", "FAILFAST")\\
  .option("inferSchema", "true")\\
  .load("/data/flight-data/csv/2010-summary.csv")

DataFrameReader을 얻은 다음에는 다음과 같은 값을 지정해야함
- 포맷
- 스키마
- 읽기 모드
- 옵션

읽기 모드

스파크가 형식에 맞지 않는 데이터를 만났을때 동작방식을 지정하는 옵션