Wikimedia에서 제공하는 API를 통해 데이터를 .gz 확장자로 받아오고 schedule에 따른 증분 데이터를 적재하여 DAG와 operator가 Airflow에서 어떻게 작동하는지, 그리고 workflow를 어떻게 schedule하는지 이해해보자. 우선 API를 통해 아래와 같이 원하는 기간의 데이터를 받을 수 있다.
1 2 3 4 5 6 7 8 9 10 11
$ wget https://dumps.wikimedia.org/other/pageviews/2023/2023-07/pageviews-20230726-010000.gz --2023-07-27 21:16:24-- https://dumps.wikimedia.org/other/pageviews/2023/2023-07/pageviews-20230726-010000.gz dumps.wikimedia.org (dumps.wikimedia.org) 해석 중... 208.80.154.142 다음으로 연결 중: dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.142|:443... 연결했습니다. HTTP 요청을 보냈습니다. 응답 기다리는 중... 200 OK 길이: 44600005 (43M) [application/octet-stream] 저장 위치: `pageviews-20230726-010000.gz'
저번에 이어서 python code들의 formatting을 조금 더 간편하게 Git Hooks를 통해 도전한다.
Git Hooks
Git Hooks는 Git 작업의 특정 지점에서 실행되는 스크립트다. 사용자 정의 작업을 수행하거나 작업의 유효성을 검사하기 위해 사용되며 git repository 내부에 설정되어 해당 이벤트가 발생할 때마다 실행된다.
pre-commit
pre-commit은 Git Hooks을 활용하여 코드 commit 전에 자동으로 실행되는 도구다. 코드의 품질을 유지하고 일관성을 강제하기 위해 사용되며 일반적으로 코드 스타일 체크, 정적 분석, 테스트 실행 등의 작업을 수행한다. 또한 commit 하기 전에 코드에 대한 일련의 검사를 수행하여 품질을 향상시키고, 잠재적인 오류나 스타일 가이드 위반을 방지한다.
1
$ pip install pre-commit
pre-commit은 위와 같이 설치할 수 있으며, .pre-commit-config.yaml 파일을 사용하여 구성한다. 이 파일에는 사용할 Git Hooks 스크립트, 훅을 실행할 리포지토리 경로, 특정 파일에 대한 훅의 적용 여부 등의 설정이 포함된다.
pre-commit은 다양한 Git Hooks (코드 포맷팅, 정적 분석, 린팅, 테스트 실행 등)를 지원하며을 수행할 수 있다. .pre-commit-config.yaml 파일에서 필요한 훅을 구성하고 해당 훅이 실행될 때 어떤 작업을 수행할지 결정할 수 있다.