Hadoop 데이터를 다루기 위해 사용하는 파이썬 라이브러리는 다0양한것들이 있음

hdfs, hdfs3, snakebite, pyarrow 등등...

하둡이 상용화되고 많은 파이썬 라이브러리가 있었지만

시간이 지남에 따라 snakebite ⇒ hdfs ⇒ hdfs3 ⇒ pyarrow 로 바뀌어왔다.

hdfs pypl 공식 사이트에서도

hdfs3 - hdfs3 0.3.0 documentation

pyarrow 가 안정적이고 보안이 뛰어나니 hdfs3를 사용하다 문제가 발생하면 pyarrow 를 사용하라고 리디렉팅 해주고 있다.

Pyarrow란

특징 2가지:

Untitled

근데 오류 발생이 계속되어

pyarrow.fs.HadoopFileSystem 객체 설정이 안된다.... (추후 다시 사용할때 확인해보겠음)

그래서 hdfs library를 사용

API reference - HdfsCLI 2.5.8 documentation

여기서 관련 api method 사용가능

hdfs.client.Client 객체를 상속하는 두 Client 객체가 있음: