Introduction

Google Analytics 4 (GA4): Google의 최신 웹 및 앱 분석 플랫폼으로 GA4는 이전 버전인 Universal Analytics (UA)와 여러 가지 중요한 차이점이 있으며, 이는 기능, 보고서 구조, 데이터 모델링 및 추적 방법에 큰 변화를 불러왔습니다.

  • 이벤트 중심의 모델: 대부분의 상호작용이 이벤트로 처리되며 사용자 정의 이벤트 구현 간소화
  • 기계 학습 및 예측: 사용자 행동 분석과 예측에 기계 학습 알고리즘을 활용, 이탈률이 높거나 구매 가능성이 있는 사용자 예측
  • 세분화된 사용자 분석: 사용자의 전체 수명 주기에 기반한 분석 제공. ‘사용자’, ‘세션’, ‘액티베이션’, ‘이벤트’ 등의 보고서 확인 가능
  • 코드 없는 이벤트 추적: 인터페이스를 통해 코드 변경 없이 이벤트 생성 및 수정 가능
  • 향상된 크로스 플랫폼 추적: 웹과 앱 간 사용자 경험 추적 개선
  • 데이터 보존 및 삭제: 데이터 보존 기간 설정 및 자동 삭제 기능 제공
  • Audiences와 Segments: ‘세그먼트’ 대신 ‘Audiences’를 사용하여 사용자 그룹 정의
  • 향상된 사용자 프라이버시: GDPR, CCPA 등의 규정 대응을 위한 데이터 제거 및 조정 기능 강화
  • BigQuery 통합: 모든 속성에 대한 무료 BigQuery 연동, 원시 데이터 분석 용이
  • 새로운 보고서 및 인터페이스: 보고서와 인터페이스의 구조 변경

하지만 GA4는 여러 정보를 내포하고 있다보니 매 페이지의 로딩 시간이 매우 길다.
따라서 Apache Airflow를 통해 정기적으로 GA4의 API를 호출하고 Discord로 메시지를 보내는 DAG를 구성해보자!

Read more »

Introduction

신용카드 중 The More는 5,000원 이상의 결제 금액에 대해 1,000원 미만의 포인트가 적립된다.
이를 통신비와 같은 서비스에 분할결제로 적용하면 약 16.65%의 이득을 볼 수 있다. ($\because\frac{999}{5999}\times100$)
하지만 아래와 같은 제약이 존재한다.

동일한 가맹점의 경우 1일 1회에 한하여 포인트 적립이 되며, …

따라서 하루에 한 번만 The More 카드로 5,999원이 결제되도록 Apache Airflow의 DAG를 구성한다.
물론 논란은 많지만 개발도 연습하기 좋은 예제였다.

Read more »

Introduction

Subdomain을 생성하기 위해 새 domain을 GoDaddy에서 구매했다.
하지만 구매한 domain은 DDNS (Dynamic Domain Name System)가 아닌 DNS (Domain Name System)이므로 공유기에 할당된 external IP가 변경되면 새로 바꿔줘야한다.
물론 DDNS service를 연결할 수 있지만 무료로 이용하려면 제약되는 것들이 많아서 IP가 변경되는 순간 Discord Webhook로 메시지가 전달되도록 구성해보겠다.

Read more »

Google OAuth

여기에 접속해 아래의 과정을 수행한다.

  1. 프로젝트 생성
  2. OAuth 동의 화면 생성
  3. OAuth 클라이언트 ID 생성

OAuth

Read more »

Introduction

Web 기반 사용자 interface Kubernetes Dashboard를 구축해보자!
이를 통해 사용자는 container화 된 application을 Kubernetes cluster 내에 배포하고, 문제를 진단하며, 클러스터 자원을 관리할 수 있다.

  • Resource Monitoring: 라이브 node 정보, CPU 및 memory 사용량과 같은 cluster의 핵심 지표 모니터링
  • Application 배포: Web interface를 사용하여 application 배포 및 관리
  • 문제 진단: Log, event 및 cluster resource 정보를 확인하여 application의 문제 파악 및 진단
  • Object 관리: Deployments, Jobs, DaemonSets 등과 같은 Kubernetes object의 생성, 수정 및 삭제
Read more »

Introduction

Fail2Ban의 명령어 중 sudo fail2ban-client status sshd을 사용하면 아래와 같은 결과가 나온다.

jail

1
2
3
4
5
6
7
8
9
10
$ sudo fail2ban-client status sshd
Status for the jail: sshd # Service에 대한 보호 규칙
|- Filter # 악의적인 활동 정보
| |- Currently failed: 2 # 2개 기기의 잘못된 로그인 시도
| |- Total failed: 7 # 시작된 이후 총 7번의 잘못된 로그인 시도
| `- Journal matches: _SYSTEMD_UNIT=sshd.service + _COMM=sshd # Fail2Ban의 시스템 로그를 감시 방법
`- Actions # 악의적인 활동을 감지했을 때 취하는 조치에 대한 정보
|- Currently banned: 1 # 현재 차단된 IP 주소의 수
|- Total banned: 1 # 총 차단된 IP 주소의 수
`- Banned IP list: XXX.XXX.XXX.XXX # 차단된 IP

차단된 기기에서 SSH를 연결하려 시도하면 아래와 같이 실패하게 된다.

1
2
$ ssh ${USER}@${IP} -p ${PORT}
ssh: connect to host ${IP} port ${PORT}: Connection refused

이걸 매번 확인할 수는 없기 때문에 의문의 중국 해커가 공격하면 알람을 받을 수 있게 Apache Airflow와 Discord를 사용해보겠다!
사실 그거 안다해도 포맷 말고 할 수 있는게 없긴 한…

Read more »

Introduction

열심히 구축한 home server을 더 다양하게 활용하기 위해 (설치가 매우 간편한 K3s $\rightarrow$ 많은 시행착오 끝에 K8s로,,,) K8s를 통해 Apache Airflow를 설치하고 배포해보겠다.
https://${DDNS}/airflow에 서비스가 구동될 수 있도록 ingress도 설정해보겠다.

thumbnail

삽질 끝에 복이 온다!

Read more »

Introduction

현대의 마이크로서비스 환경에서 쿠버네티스 클러스터 내의 애플리케이션으로 트래픽을 관리하는 것은 필수 기술입니다.
쿠버네티스는 클러스터로의 외부 트래픽을 제어하고 라우팅하는 강력한 솔루션인 Ingress를 제공합니다.

GPT-4 좋네

Ingress: Cluster 내 서비스로의 외부 액세스를 관리하는 Kubernetes의 API 객체

Kubernetes의 ingress는 host 이름과 경로를 포함한 일련의 규칙을 기반으로 HTTP와 HTTPS routing을 제공하여 client 요청을 적절한 backend service로 연결하는 장점이 있다.
Ingress의 주요 구성 요소는 아래와 같다.

  1. Ingress Resource
    • Traffic routing 규칙 정의
    • Host, 경로 및 traffic 흐름을 제어하는 다양한 기타 매개변수 포함
  2. Ingress Controller
    • Ingress 리소스의 규칙을 읽고 실제 traffic routing 처리
    • NGINX Ingress Controller, Traefik, …
  3. Backend Service
    • Cluster 내에서 요청을 처리하는 실제 service
    • Ingress resource에서 정의한 대로 다양한 경로와 도메인을 통해 노출 가능

또한 사용하는 이유는 아래와 같다.

  1. 간소화된 routing: Routing 규칙을 한 곳에서 집중 관리하여 관리 및 유지 보수 명료화
  2. SSL/TLS 종료: SSL/TLS 인증서를 한 곳에서 처리
  3. 경로 기반 routing: URL 경로를 기반으로 요청을 다른 서비스로 연결함으로써 보다 체계적인 구조 구축
  4. 비용 효율: Routing 규칙을 통합함으로써 여러 load balancer의 필요 감소
Read more »

Introduction

Kubernetes는 container화된 application의 deployment, scaling 및 orchestration을 단순화하지만 관리 및 troubleshooting이 쉽지 않기 때문에 K9s를 사용한다!
K9s는 terminal 기반의 Kubernetes 관리 도구이며 CLI에서 전체 Kubernetes cluster의 resource를 시각적으로 탐색 및 관리할 수 있다.
주요 기능은 아래와 같다.

  1. Real-time Monitoring
    • 주요 resource를 실시간으로 모니터링
    • CPU, memory 사용량 등
  2. Resource Management
    • Pod, service, deployment 등의 resource에 대해 조회, 생성, 수정, 삭제 가능
    • YAML 파일을 직접 편집 혹은 명령 실행을 통해 관리 가능
  3. Log Exploration
    • 특정 pod 혹은 container의 log를 실시간으로 조회하고 필터링
  4. Troubleshooting
    • Kubernetes의 cluster에 발생한 문제를 신속하게 파악하고 해결할 수 있는 다양한 도구 존재
Read more »

Introduction

Kubeflow: Machine learning 및 Deep learning workload를 위한 오픈 소스 플랫폼으로, Kubernetes 위에서 실행되며 ML workload의 배포, 관리 및 확장을 용이하게 해줍니다. Kubeflow는 Kubernetes의 높은 가용성, 확장성 및 관리성과 machine learning 작업에 필요한 도구와 라이브러리를 통합하여 종합적인 ML 작업 플로우를 제공합니다.

Overview

Why Kubeflow?

  1. Scalable ML Workload Management
    • Kubernetes의 강력한 scaling 및 관리 기능을 활용하여 ML workload를 효율적으로 배포하고 관리
    • 자동화된 scaling과 resource 관리는 복잡한 ML 작업에서 유용
  2. Portable Environments
    • 인프라 구성을 추상화하고 portable한 ML 작업 환경을 제공하여 로컬 머신에서 클라우드까지 다양한 환경에서 일관된 방식으로 작업할 수 있는 환경 구축
  3. Integrated Components
    • Machine learning 작업을 위한 다양한 컴포넌트를 통합하여 제공
    • Jupyter Notebook, TensorBoard, TensorFlow Serving, …
  4. Designed Pipelines
    • Kubeflow Pipelines를 통해 End-to-End machine learning workflow를 시각적으로 디자인 및 실행 가능
    • 반복적인 작업을 자동화하고 재현 가능한 실험 수행
Read more »

문제

N과 L이 주어질 때, 합이 N이면서, 길이가 적어도 L인 가장 짧은 연속된 음이 아닌 정수 리스트를 구하는 프로그램을 작성하시오.

입력

첫째 줄에 N과 L이 주어진다. N은 1,000,000,000보다 작거나 같은 자연수이고, L은 2보다 크거나 같고, 100보다 작거나 같은 자연수이다.

출력

만약 리스트의 길이가 100보다 작거나 같으면, 연속된 수를 첫째 줄에 공백으로 구분하여 출력한다. 만약 길이가 100보다 크거나 그러한 수열이 없을 때는 -1을 출력한다.

Read more »

Introduction

이 영상을 보며 뽐뿌가 온 나머지,,, 홈 서버로 사용하기 위해 아래와 같은 스펙으로 주문했다!!!

Type Link Price
Case ASRock DeskMini X300 120W 215,000원
CPU AMD Ryzen 5 5600G + Thermal grease 166,500원
Fan Noctua NH-L9a-AM4 75,990원
RAM SAMSUNG Notebook DDR4 16GB PC4-25600 $\times$ 2 77,860원
SSD SK Hynix GOLD P31 NVMe SSD M.2 NVMe 1TB 87,500원

총 622,850원으로 구성할 수 있었다.

Read more »

Introduction

회사에서 약 17,000장 가량의 고화질 이미지 데이터를 처리해야하는 일이 생겼는데 총 처리 시간이 약 10시간 가량 소요됐다.
너무 오랜 시간이 소요되기 때문에 이를 빠르게 바꿔보고자 병렬 처리를 해보려고 했다.
먼저 생각난 키워드는 multithreading이여서 threading 라이브러리에 대해 찾아보게 되었다.
하지만 python은 한 thread가 python 객체에 대한 접근을 제어하는 mutexGIL (Global Interpreter Lock)이 존재하여 CPU 작업이 적고 I/O 작업이 많은 처리에서 효과를 볼 수 있다. (더 이상은 너무 어려워요,,,)
Cython에서는 이렇게 nogil=True로 정의해 GIL를 해제하고 병렬 처리를 할 수 있다.
그렇다면 현재 문제인 대량의 고화질 이미지 데이터를 최대한 빠르게 처리하려면 어떻게 해야할까?
이 경우에는 process 기반의 병렬 처리를 지원하는 multiprocessing 라이브러리를 사용하면 된다.

Read more »