Templating tasks using the Airflow context

Wikimedia에서 제공하는 API를 통해 데이터를 .gz 확장자로 받아오고 schedule에 따른 증분 데이터를 적재하여 DAG와 operator가 Airflow에서 어떻게 작동하는지, 그리고 workflow를 어떻게 schedule하는지 이해해보자.
우선 API를 통해 아래와 같이 원하는 기간의 데이터를 받을 수 있다.

1
2
3
4
5
6
7
8
9
10
11
$ wget https://dumps.wikimedia.org/other/pageviews/2023/2023-07/pageviews-20230726-010000.gz
--2023-07-27 21:16:24-- https://dumps.wikimedia.org/other/pageviews/2023/2023-07/pageviews-20230726-010000.gz
dumps.wikimedia.org (dumps.wikimedia.org) 해석 중... 208.80.154.142
다음으로 연결 중: dumps.wikimedia.org (dumps.wikimedia.org)|208.80.154.142|:443... 연결했습니다.
HTTP 요청을 보냈습니다. 응답 기다리는 중... 200 OK
길이: 44600005 (43M) [application/octet-stream]
저장 위치: `pageviews-20230726-010000.gz'

pageviews-20230726-010000.gz 100%[=================================================>] 42.53M 4.56MB/s / 9.9s

2023-07-27 21:16:36 (4.28 MB/s) - `pageviews-20230726-010000.gz' 저장함 [44600005/44600005]
Read more »

Introduction

Apache Airflow

  • Definition
    • 오픈 소스로 개발된 데이터 파이프라인 관리 도구
    • Workflow 자동화와 데이터 처리를 위한 플랫폼
  • Features
    • 유연한 파이썬 프레임워크를 통한 쉬운 데이터 파이프라인 구축
    • 다양한 빌딩 블록을 통한 최신 기술 연결
    • 복잡한 데이터 처리 작업 scheduling 및 monitoring
    • Data engineering, ETL (Extract, Transform, Load), data migration, data analysis 등 다양한 작업에서 활용
      Read more »

시작에 앞선 꿀팁

빌드와 실행을 동시에?

1
$ go run main.go

이렇게 실행하면 go build main.go./main을 합쳐서 실행할 수 있다.

Read more »

Introduction

YOLOv5 모델을 ONNX로 변환하여 Triton Inference Server로 배포한 경험은 있지만, Amazon EC2 Inf1을 통해 모델을 배포하고 REST API를 직접 구성해본 경험은 없어 직접 inference server와 API server를 구성해보려고한다.
공식 문서참고 자료들도 존재하지만 실질적 개발을 하는데 있어 막히는 부분이 꽤 많아 기록으로 남긴다.


Local 내 구현

schematic-local

Read more »

Introduction

저번에 이어서 python code들의 formatting을 조금 더 간편하게 Git Hooks를 통해 도전한다.

Git Hooks

Git Hooks는 Git 작업의 특정 지점에서 실행되는 스크립트다.
사용자 정의 작업을 수행하거나 작업의 유효성을 검사하기 위해 사용되며 git repository 내부에 설정되어 해당 이벤트가 발생할 때마다 실행된다.

pre-commit

pre-commit은 Git Hooks을 활용하여 코드 commit 전에 자동으로 실행되는 도구다.
코드의 품질을 유지하고 일관성을 강제하기 위해 사용되며 일반적으로 코드 스타일 체크, 정적 분석, 테스트 실행 등의 작업을 수행한다.
또한 commit 하기 전에 코드에 대한 일련의 검사를 수행하여 품질을 향상시키고, 잠재적인 오류나 스타일 가이드 위반을 방지한다.

1
$ pip install pre-commit

pre-commit은 위와 같이 설치할 수 있으며, .pre-commit-config.yaml 파일을 사용하여 구성한다.
이 파일에는 사용할 Git Hooks 스크립트, 훅을 실행할 리포지토리 경로, 특정 파일에 대한 훅의 적용 여부 등의 설정이 포함된다.

pre-commit은 다양한 Git Hooks (코드 포맷팅, 정적 분석, 린팅, 테스트 실행 등)를 지원하며을 수행할 수 있다.
.pre-commit-config.yaml 파일에서 필요한 훅을 구성하고 해당 훅이 실행될 때 어떤 작업을 수행할지 결정할 수 있다.

Read more »