7장 집계연산

집계를 수행하려면 키나 그룹을 지정하고 하나 이상의 컬럼을 변환하는 방법을 지정하는 집계 함수를 사용
여러 입력값이 주어지면 그룹별로 결과 생성
배열, 리스트 또는 맵 같은 복합 데이터 타입을 사용해 집계를 수행할 수도 있음
정확한 답을 얻기위해선 연산, 네트워크, 저장소등 상당한 비용이 들 수 밖에 없음
- 수용 가능한 정도의 정확도에 맞춰 근사치를 계산하는것이 비용을 고려했을때 더 효율적이기도함
- 특히 대화형 셸을 이용해 비정형 분석을 수행하는 경우

df = spark.read.format("csv")\\
  .option("header", "true")\\
  .option("inferSchema", "true")\\
  .load("data/retail-data/all/*.csv")\\
  .coalesce(5)
df.cache()
df.createOrReplaceTempView("dfTable")

# COMMAND ----------

from pyspark.sql.functions import count
df.select(count("StockCode")).show() # 541909

count 메서드를 DataFrame의 캐싱용도로 사용할 수 도 있다

집계 함수

모든 집계는 6장에서 사용한 DataFrame의 .stat 속성을 이용하는 특별한 경우를 제외한다면 함수를 사용
집계 함수는 org.apache.spark.sql.functions 패키지에서 찾아볼 수 있음

count

아래 예제의 카운트는 액션이 아니라 트랜스포메이션으로 동작
count 함수에 특정 컬럼을 지정해도 되고 count(*) 이나 count(1)로 사용 가능

from pyspark.sql.functions import count
df.select(count("StockCode")).show() # 541909

countDistinct

전체 레코드수가 아닌 고유 레코드 수를 구해야 할때

from pyspark.sql.functions import countDistinct
df.select(countDistinct("StockCode")).show() # 4070