API 검색법
DataFrame 메서드
DataFrame 은 Row 타입을 가진 Dataset이므로 결국 Dataset 메서드를 만나게 된다
ex) DataFrameStatFunctions(통계적 함수), DataFrameNaFunctions(null 데이터를 다룸)
Column 메서드
alias 나 contains 같이 칼럼과 관련된 여러가지 메서드
스파크 데이터 타입으로 변환하기
불리언 데이터 타입 다루기
from pyspark.sql.functions import instr
DOTCodeFilter = col("StockCode") == "DOT"
priceFilter = col("UnitPrice") > 600
descripFilter = instr(col("Description"),"POSTAGE") >=1
df.withColumn("isExpensive", DOTCodeFilter &(priceFilter | descripFilter))\\
.where("isExpensive")\\
.select("unitPrice", "isExpensive").show(5)
수치형 데이터 타입 다루기