Hadoop 데이터를 다루기 위해 사용하는 파이썬 라이브러리는 다0양한것들이 있음
hdfs, hdfs3, snakebite, pyarrow 등등...
하둡이 상용화되고 많은 파이썬 라이브러리가 있었지만
시간이 지남에 따라 snakebite ⇒ hdfs ⇒ hdfs3 ⇒ pyarrow 로 바뀌어왔다.
hdfs pypl 공식 사이트에서도
hdfs3 - hdfs3 0.3.0 documentation
pyarrow 가 안정적이고 보안이 뛰어나니 hdfs3를 사용하다 문제가 발생하면 pyarrow 를 사용하라고 리디렉팅 해주고 있다.
특징 2가지:
근데 오류 발생이 계속되어
pyarrow.fs.HadoopFileSystem 객체 설정이 안된다.... (추후 다시 사용할때 확인해보겠음)
그래서 hdfs library를 사용
API reference - HdfsCLI 2.5.8 documentation
여기서 관련 api method 사용가능
hdfs.client.Client 객체를 상속하는 두 Client 객체가 있음: