- 스파크에는 여섯가지 '핵심' 데이터소스와 커뮤니티에서 만든 수백 가지 외부 데이터소스가 있음
- 여섯가지 핵심 데이터 소스
- CSV
- JSON
- PARQUET
- ORC
- JDBC/ODBC
- 일반 텍스트 파일
- 커뮤니티 데이터 소스
- 카산드라
- HBASE
- 몽고디비
- AWS Redshift
- XML
- 기타 수많은 데이터소스
데이터소스 API의 구조
읽기 API 구조
핵심구조
DataFrameReader.format().option("key","value").schema().load()
- format 메서드는 선택적이며 기본값은 parquet
- option 값을 사용해 데이터를 읽는 방법에 대한 파라미터를 키-값 쌍으로 설정
- schema 메서드는 데이터 소스에서 스키마를 제공하거나 스키마 추론 기능을 사용
데이터 읽기의 기초
spark.read
- DataFrameReader는 SparkSession 의 read 속성으로 접근
csvFile = spark.read.format("csv")\\
.option("header", "true")\\
.option("mode", "FAILFAST")\\
.option("inferSchema", "true")\\
.load("/data/flight-data/csv/2010-summary.csv")
- DataFrameReader을 얻은 다음에는 다음과 같은 값을 지정해야함
읽기 모드
- 스파크가 형식에 맞지 않는 데이터를 만났을때 동작방식을 지정하는 옵션