«
in ADP  /  

ADP 요약 - 2과목 1장 데이터 처리 프로세스

제 1절. ETL(Extraction, Transformation and Load)

1. ETL 개요

  • 데이터의 이동과 변환 절차, 3가지 기능으로 구성
    • Extraction(추출) - 데이터 원천들로부터 데이터 획득
    • Transformation(변형) - 데이터 클렌징, 형식 변환, 표준화, 통합, 애플리케이션에 내장된 비즈니스 룰 적용
    • Loading(적재) - 변형 단계가 완료된 데이터를 적재

2. ODS 구성

  • ODS(Operational Data Store)는 추가 작업을 위해 데이터 원천들로부터 데이터를 추출·통합한 데이터베이스
  • 비즈니스 지원을 위해 타 정보시스템으로 이관, 보고서 생성을 위해 데이터 웨어하우스로 이관

  • ODS 구성 단계
    1. 인터페이스 단계
    • 데이터 원천으로부터 데이터를 획득
      1. 데이터 스테이징 단계
    • 데이터 원천으로부터 데이터를 획득해 스테이징 테이블에 적재
    • 스키마는 데이터 원천의 구조에 의존적, 체크섬 등 Control 정보 추가
    • 배치 / 실시간 혼용
      1. 데이터 프로파일링 단계
    • 범위, 도메인, 유일성 확보 등의 규칙을 기준으로 데이터 품질 점검
      1. 데이터 클렌징 단계
    • 앞단계에서 식별된 오류데이터들을 수정
      1. 데이터 인테그레이션 단계
    • 수정된 데이터를 ODS내 단일 통합 데이블에 적재
      1. 익스포트 단계
    • 익스포트 규칙, 보안 규칙을 반영한 익스포트 ETL 기능 사용
    • 전용 DBMS클라이언트, 데이터 마트, 데이터 웨어하우스에 적재
    • OLAP 비정형 질의에 활용

3. 데이터 웨어하우스

  • ODS를 통해 정제되고 통합된 데이터는 데이터 분석과 보고서 생성을 위해 데이터 웨어하우스에 적재
  • 데이터 웨어하우스의 특징
    • 주제 중심(Subject Oriented) - 업무 상황의 특정 이벤트나 업무 항목 기준 구조화
    • 영속성(Non Volatile) - 최초 저장 후에는 읽기 전용
    • 통합성(Integrated) - 운영시스템에 의해 생성된 데이터의 통합본
    • 시계열성(Time Variant) - 시간 순에 의한 이력 데이터 보유
  • 모델링 방법
    1. 스타 스키마
      • 단일 사실 테이블 중심, 차원 테이블은 비정규화된 제 2정규형
      • 조인 테이블 갯수가 적으나, 데이터 중복
    2. 스노우 플레이크 스키마
      • 차원 테이블을 제3정규형으로 정규화한 형태
      • 조인 테이블 갯수 증가

제 2절 CDC(Change Data Capture)

1. CDC 개요

  • 데이터에 대한 변경을 식별해 데이터 전송/공유 등의 후속 처리를 자동화하는 설계 기법

  • 구현 기법들
    • Time Stamp on Rows - 마지막 변경 타임스탬프보다 더 최근의 타임스태프를 가지면 변경한 것으로 식별
    • Version Numbers on Rows - 버전 컬럼을 두고, 기 식별 레코드 버전보다 버전 높으면 변경
    • Status on Rows - 타임스탬프, 버전넘버 보완, 변경여부를 T/F로 표현. 업무 규칙 적용가능
    • Time/Version/Status on Rows - 세가지 특성 모두활용. 정교한 쿼리생성
    • Triggers on Tables - 데이터베이스 트리거 활용. 복잡함
    • Event Programming - 어플리케이션에서 변경식별 구현, 개발부담↑, 다양한 조건 가능
    • Log Scanner on Database
      • 트랜잭션 로그 스캐닝, 해석을 통한 CDC 구현
      • 장점 - 영향도 최소화, 스키마 변경 불필요
  • 푸시 방식 - 원천(Source)에서 변경 식별 후 대상(Target)에 변경 데이터 적재
  • 풀 방식 - 대상 시스템이 원천 시스템을 살펴보고 필요 시 데이터 끌어옴

제 3절 EAI(Enterprise Application Integration)

1. EAI개요

  • EAI(Enterprice Application Integration)는 기업 정보 시스템들의 데이터를 연계·통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크
  • 기업 내/기업 간 이질적 정보 시스템들의 데이터를 연계
  • Point to Point 방식
    • 그때그때 업무별로 중개자 없이 시스템끼리 각자 연결
    • n개의 정보 시스템 연계 시 n(n-1)/2개의 연결, 복잡함
  • Hub and Spoke
    • 가운데 지점에 허브 역할을 두는 브로커를 둠
    • n개의 정보 시스템 연계 시 n개의 연결
  • EAI 구성 요소
    • 어댑터(Adapter) - 각 정보 시스템과 허브 간 연결성 확보
    • 버스(Bus) - 어댑터를 매개로 연결된 시스템간의 연동 경로
    • 브로커(Broker) - 데이터 연동 규칙 통제
    • 트랜스포머(Transformer) - 데이터 형식 변환

2. EAI 구현 유형

  1. Mediation(intra-communication)
    • 중개자(Broker)로 동작
    • 이벤트 발생 식별하여 사전 약속된 정보 시스템에 데이터 전달
    • Publish/Subscribe Model
  2. Federation(inter-communication)
    • 외부로부터 데이터 요청들을 일괄적으로 수용해 필요한 데이터 전달
    • Request/Reply Model

3. EAI 기대 효과

  • 유지보수비용 절감
  • 지속적 발전기반 확보
  • 기업외부 협력사·파트너·고객과의 상호 협력 프로세스 연계
  • 웹 서비스 등 인터넷 비즈니스를 위한 기본 토대

제 4절 데이터 연계 및 통합 기법 요약

1. 데이터 연계 및 통합 유형(동기화 기준)

  • 일괄 작업 - 대용량 데이터의 처리 가능
  • 실시간 통합 - 관심대상 영역 상태에 대한 빠른 파악 및 대응
  • 일괄 / 비동기식 근접 실시간(Near Real Time) / 동기식 실시간(Real Time)을 혼용/사용 가능
  • 비정형/준정형 데이터 중요성의 부각 > 맵리듀스 등 빅데이터 시스템 활용

제 5절 대용량 비정형 데이터 처리

1. 대용량 로그 데이터 수집

  • 기존 - 문제 상황 보존 > 최근 - 사용자 행태 분석, 마케팅/영업전략에 사용
  • 특징
    • 초고속 수집 성능과 확장성
    • 데이터 전송 보장 메커니즘
    • 다양한 수집과 저장 플러그인 - 트위터 수집 플러그인 등
    • 인터페이스 상속을 통한 애플리케이션 기능 확장

2. 대규모 분산 병렬 처리

  • 용량이 크면 하둡 사용해야 함
  • 하둡 특징
    • 선형적인 성능과 용량 확장 - 서버 추가하면 성능이 증가
    • 고장 감내성 - 데이터 3중 복제. 작업 오류시 다른 서버에서 자동으로 재실행
    • 핵심 비즈니스 로직에 집중 - 고장감내성, 자동 복구를 시스템에서 알아서 수행
    • 풍부한 에코시스템 형성 - 다양한 응용 기술 존재

3. 데이터 연동

  • 데이터베이스의 데이터를 직접 맵리듀스하면 기간계 부하 걸림
  • 데이터를 하둡으로 복사 후 하둡에서 분산 처리
  • 대표적인 오픈 소스 기반 솔루션은 ‘SQOOP’

4. 대용량 질의 기술

  • SQL on Hadoop