성장일지
앞으로 할 프로젝트 목표 본문
프로젝트 1: 대규모 로그 데이터 처리 파이프라인 구축
프로젝트 개요
대규모 웹 서버 로그 데이터를 수집하고 Apache Spark를 통해 분석하여, 사용자 행동 패턴을 이해하고 사이트 최적화를 위한 인사이트를 제공하는 데이터 파이프라인을 구축하였습니다.
기술 스택
- Apache Spark
- Hadoop HDFS
- AWS S3
- Pandas
- Tableau
과정
- 데이터 수집: 웹 서버에서 발생하는 로그 데이터를 AWS S3에 저장.
- 데이터 처리: Apache Spark를 사용하여 로그 데이터를 분산 처리하고, 유의미한 통계(예: 에러 로그, 접속 빈도)를 추출.
- 후처리: Pandas를 사용해 처리된 데이터를 정리하고 필요한 정보를 추출.
- 데이터 시각화: Tableau를 통해 최종 분석 결과를 대시보드 형태로 시각화하여 팀원들과 공유.
결과
- 로그 데이터 처리 시간을 50% 단축하고, 주요 사용자의 행동 패턴을 이해할 수 있는 인사이트를 확보하였습니다.
- 시각화된 대시보드를 통해 비즈니스 의사결정에 필요한 정보를 신속하게 제공하였습니다.
프로젝트 2: Apache Airflow를 활용한 데이터 파이프라인 자동화
프로젝트 개요
외부 API에서 데이터를 수집하고, 정기적으로 데이터베이스에 적재하는 ETL(추출, 변환, 적재) 파이프라인을 구축하여 데이터 자동화를 실현하였습니다.
기술 스택
- Apache Airflow
- PostgreSQL
- Python
- REST API
과정
- 데이터 수집: 외부 API를 통해 필요한 데이터를 수집하는 Python 스크립트 작성.
- 워크플로우 구축: Apache Airflow를 사용해 데이터 수집 및 적재 작업을 자동화하고, 매일 특정 시간에 수행되도록 설정.
- 데이터 변환: 수집된 데이터를 정리하고 분석을 위한 형식으로 변환.
- 모니터링: Airflow의 대시보드를 통해 작업 진행 상황 및 오류를 모니터링.
결과
- 데이터 수집 및 적재가 자동화되어 수작업으로 인한 오류를 줄이고, 데이터 업데이트 시간을 40% 단축하였습니다.
- 주기적으로 업데이트되는 데이터로 인해 보다 정확한 분석 및 의사결정이 가능해졌습니다.
프로젝트 3: Kafka를 사용한 실시간 스트리밍 데이터 처리
프로젝트 개요
IoT 센서 데이터를 실시간으로 수집하고 Apache Kafka를 사용하여 데이터를 처리한 후, 실시간 분석 결과를 대시보드로 시각화하는 시스템을 구축하였습니다.
기술 스택
- Apache Kafka
- Python (Faust)
- MongoDB
- Grafana
과정
- 데이터 수집: 여러 IoT 센서에서 발생하는 데이터를 Apache Kafka를 통해 스트리밍.
- 데이터 처리: Python 라이브러리(Faust)를 사용해 Kafka 스트리밍 데이터를 수집하고, MongoDB에 실시간으로 저장.
- 실시간 분석: 수집된 데이터를 분석하여 특정 이벤트를 감지하고 알림 기능 구현.
- 시각화: Grafana를 사용해 실시간 데이터 대시보드 구축 및 모니터링.
결과
- 실시간 데이터 수집 및 분석으로 IoT 센서의 상태를 즉시 파악할 수 있는 능력을 확보하였습니다.
- Grafana 대시보드를 통해 데이터 흐름과 상태를 시각적으로 모니터링할 수 있게 되었습니다.