2022년 10월 31일 월요일

파이썬 기반 데이터 처리 파이프라인 소개

이 글은 파이썬 기반 데이터 처리 파이프라인에 대한 간단한 소개이다.


파이썬에는 데이터를 처리 분석하기 위한 유용한 도구가 많다. 이는 보통 ETL도구로도 알려져 있다. 

AirBnB에서 개발한 Airflow를 사용하면 작업 실행 시점 및 흐름을 정의할 수 있다. Pandas를 이용하면 엑셀 등 다양한 데이터소스를 엑셀처럼 행렬로 계산 분석할 수 있다. 

이와 bonobo (https://www.bonobo-project.org/) 등을 이용하면 파이썬 기반 ETL을 수행할 수 있다. 예를 들어 다음 그림과 같이 이멜 수신에서 특정 텍스트 패턴을 마이닝해 추출된 정보를 몽고디비에 저장하는 등의 작업을 손쉽게 개발할 수 있다. 

참고
https://www.innuy.com/blog/build-data-pipeline-python/

댓글 없음:

댓글 쓰기