0주차 | Notion

동국대 통계학과 졸업

여의도 IFC 14층 오케스트로 A.I. research 팀에 근무하고 있음 (1년반정도)

머신러닝, 딥러닝에 대한 이해도가 어느정도 있는편

회사에서 스파크를 사용해 제품의 ETL 프로세스들을 만들면서 데이터 엔지니어링 분야에 대한 관심이 높아짐

하둡, 스파크, 카프카 등의 프레임워크를 사용해보고 그 외 빅데이터 엔지니어링의 기본적인 클러스터 운영, 분산 시스템 구축과 운영에 대해 좀더 체계적으로 공부하고 정리할필요가 있음

파이썬 (numpy, pandas, tensorflow 등등 데이터처리+ ml 라이브러리들)

엘라스틱서치 (Filebeat, Logstash, Elasticsearch, Kibana 설치 부터 운영? 쿼리 많이 써봄)

PostgreSQL (그냥 RDB 로써 CRUD활용)

하둡( 파일시스템정도만 활용)

스파크(Pyspark)

플라스크( 만든 데이터들을 직접 프런트에 json 형태로 던져줌)

리눅스

도커

하둡, 스파크 스트리밍, 카프카 등 현업에서 주목받는 빅데이터 프레임워크들

메트릭비트 + 카프카 + 스파크 스트리밍 + 하둡 ⇒현재 제품을 실시간 스트리밍 서비스로 업그레이드 해보며 실습해보고 싶다. .