데이터 엔지니어링

    Airflow: 외부 시스템과 통신 | 시스템 간 데이터 이동

    Airflow: 외부 시스템과 통신 | 시스템 간 데이터 이동

    요약 Airflow 오퍼레이터로 외부 시스템에서 태스크 수행 오퍼레이터를 구현하여 A-to-B 작업(시스템 간 데이터 이동) 구현 외부 시스템에 연결하는 태스크 테스트 1. 클라우드 서비스에 연결하기 에어플로우에서는 클라우드 서비스에 요청을 보낼 수 있도록 오퍼레이터를 제공함. 내부적으로 클라우드의 sdk를 사용해서 호출 1.1 추가 의존성 패키지 설치하기 서비스 연결을 위해서는 패키지 설치가 필요함. aws pip install apache-airflow-providers-amazon gcp pip install apache-airflow-providers-google Azure pip install apache-airflow-providers-microsoft-azure 이외 다른 외부 서비스도 해당..

    pandas 통해서 csv 파일로 mysql에 테이블 생성하기

    csv_to_mysql.py: import time import pandas as pd import pymysql from sqlalchemy import create\_engine import configparser # pandas에서 read\_csv할 때 'utf-8'으로 인코딩 하는 경우 에러가 날 수도 있음. -> 'cp949' 인코딩 사용 df = pd.read\_csv("./qa\_sample.csv", encoding='cp949') # 설정 파일 경로 config\_path = "./settings.ini" # 설정 파일 읽기 config = configparser.ConfigParser(interpolation = None) config.read(config\_path) # params..

    [빅데이터를 지탱하는 기술] 1장 빅데이터 기초 지식과 Druid

    🌟 화면을 넓게 하시면 오른쪽에서 목차를 확인하실 수 있습니다. :) 책의 요약 + 더 찾아본 내용이 포함되어 있습니다. 요약 1.1 Hadoop, NoSQL db, data warehouse 1.2 데이터 파이프라인의 시스템 구성 1.3 파이썬에 의한 ‘대화형 데이터 처리’ 1.4 데이터 모니터링: spread sheet, BI 도구 사용 1-1 [배경] 빅데이터의 정착 빅데이터를 다루는 목적은 가치 있는 정보를 얻어오는 것! 책에서는 데이터 처리를 어떻게 효율적으로 실행하는지, 그리고 데이터 파이프라인의 자동화에 대해서 다룰 예정이라고 함. 즉, 데이터를 어떻게 분석하냐(데이터 분석)이전에 어떻게 분석가에게 가공해서 전달할 지(데이터 엔지니어링)를 설명하는 책인듯하다. 빅데이터를 처리하는 대표적인 시..