ADP 요약 - 2과목 1장 데이터 처리 프로세스
제 1절. ETL(Extraction, Transformation and Load)
1. ETL 개요
- 데이터의 이동과 변환 절차, 3가지 기능으로 구성
- Extraction(추출) - 데이터 원천들로부터 데이터 획득
- Transformation(변형) - 데이터 클렌징, 형식 변환, 표준화, 통합, 애플리케이션에 내장된 비즈니스 룰 적용
- Loading(적재) - 변형 단계가 완료된 데이터를 적재
2. ODS 구성
- ODS(Operational Data Store)는 추가 작업을 위해 데이터 원천들로부터 데이터를 추출·통합한 데이터베이스
-
비즈니스 지원을 위해 타 정보시스템으로 이관, 보고서 생성을 위해 데이터 웨어하우스로 이관
- ODS 구성 단계
- 인터페이스 단계
- 데이터 원천으로부터 데이터를 획득
- 데이터 스테이징 단계
- 데이터 원천으로부터 데이터를 획득해 스테이징 테이블에 적재
- 스키마는 데이터 원천의 구조에 의존적, 체크섬 등 Control 정보 추가
- 배치 / 실시간 혼용
- 데이터 프로파일링 단계
- 범위, 도메인, 유일성 확보 등의 규칙을 기준으로 데이터 품질 점검
- 데이터 클렌징 단계
- 앞단계에서 식별된 오류데이터들을 수정
- 데이터 인테그레이션 단계
- 수정된 데이터를 ODS내 단일 통합 데이블에 적재
- 익스포트 단계
- 익스포트 규칙, 보안 규칙을 반영한 익스포트 ETL 기능 사용
- 전용 DBMS클라이언트, 데이터 마트, 데이터 웨어하우스에 적재
- OLAP 비정형 질의에 활용
3. 데이터 웨어하우스
- ODS를 통해 정제되고 통합된 데이터는 데이터 분석과 보고서 생성을 위해 데이터 웨어하우스에 적재
- 데이터 웨어하우스의 특징
- 주제 중심(Subject Oriented) - 업무 상황의 특정 이벤트나 업무 항목 기준 구조화
- 영속성(Non Volatile) - 최초 저장 후에는 읽기 전용
- 통합성(Integrated) - 운영시스템에 의해 생성된 데이터의 통합본
- 시계열성(Time Variant) - 시간 순에 의한 이력 데이터 보유
- 모델링 방법
- 스타 스키마
- 단일 사실 테이블 중심, 차원 테이블은 비정규화된 제 2정규형
- 조인 테이블 갯수가 적으나, 데이터 중복
- 스노우 플레이크 스키마
- 차원 테이블을 제3정규형으로 정규화한 형태
- 조인 테이블 갯수 증가
- 스타 스키마
제 2절 CDC(Change Data Capture)
1. CDC 개요
-
데이터에 대한 변경을 식별해 데이터 전송/공유 등의 후속 처리를 자동화하는 설계 기법
- 구현 기법들
- Time Stamp on Rows - 마지막 변경 타임스탬프보다 더 최근의 타임스태프를 가지면 변경한 것으로 식별
- Version Numbers on Rows - 버전 컬럼을 두고, 기 식별 레코드 버전보다 버전 높으면 변경
- Status on Rows - 타임스탬프, 버전넘버 보완, 변경여부를 T/F로 표현. 업무 규칙 적용가능
- Time/Version/Status on Rows - 세가지 특성 모두활용. 정교한 쿼리생성
- Triggers on Tables - 데이터베이스 트리거 활용. 복잡함
- Event Programming - 어플리케이션에서 변경식별 구현, 개발부담↑, 다양한 조건 가능
- Log Scanner on Database
- 트랜잭션 로그 스캐닝, 해석을 통한 CDC 구현
- 장점 - 영향도 최소화, 스키마 변경 불필요
- 푸시 방식 - 원천(Source)에서 변경 식별 후 대상(Target)에 변경 데이터 적재
- 풀 방식 - 대상 시스템이 원천 시스템을 살펴보고 필요 시 데이터 끌어옴
제 3절 EAI(Enterprise Application Integration)
1. EAI개요
- EAI(Enterprice Application Integration)는 기업 정보 시스템들의 데이터를 연계·통합하는 소프트웨어 및 정보 시스템 아키텍처 프레임워크
- 기업 내/기업 간 이질적 정보 시스템들의 데이터를 연계
- Point to Point 방식
- 그때그때 업무별로 중개자 없이 시스템끼리 각자 연결
- n개의 정보 시스템 연계 시 n(n-1)/2개의 연결, 복잡함
- Hub and Spoke
- 가운데 지점에 허브 역할을 두는 브로커를 둠
- n개의 정보 시스템 연계 시 n개의 연결
- EAI 구성 요소
- 어댑터(Adapter) - 각 정보 시스템과 허브 간 연결성 확보
- 버스(Bus) - 어댑터를 매개로 연결된 시스템간의 연동 경로
- 브로커(Broker) - 데이터 연동 규칙 통제
- 트랜스포머(Transformer) - 데이터 형식 변환
2. EAI 구현 유형
- Mediation(intra-communication)
- 중개자(Broker)로 동작
- 이벤트 발생 식별하여 사전 약속된 정보 시스템에 데이터 전달
- Publish/Subscribe Model
- Federation(inter-communication)
- 외부로부터 데이터 요청들을 일괄적으로 수용해 필요한 데이터 전달
- Request/Reply Model
3. EAI 기대 효과
- 유지보수비용 절감
- 지속적 발전기반 확보
- 기업외부 협력사·파트너·고객과의 상호 협력 프로세스 연계
- 웹 서비스 등 인터넷 비즈니스를 위한 기본 토대
제 4절 데이터 연계 및 통합 기법 요약
1. 데이터 연계 및 통합 유형(동기화 기준)
- 일괄 작업 - 대용량 데이터의 처리 가능
- 실시간 통합 - 관심대상 영역 상태에 대한 빠른 파악 및 대응
- 일괄 / 비동기식 근접 실시간(Near Real Time) / 동기식 실시간(Real Time)을 혼용/사용 가능
- 비정형/준정형 데이터 중요성의 부각 > 맵리듀스 등 빅데이터 시스템 활용
제 5절 대용량 비정형 데이터 처리
1. 대용량 로그 데이터 수집
- 기존 - 문제 상황 보존 > 최근 - 사용자 행태 분석, 마케팅/영업전략에 사용
- 특징
- 초고속 수집 성능과 확장성
- 데이터 전송 보장 메커니즘
- 다양한 수집과 저장 플러그인 - 트위터 수집 플러그인 등
- 인터페이스 상속을 통한 애플리케이션 기능 확장
2. 대규모 분산 병렬 처리
- 용량이 크면 하둡 사용해야 함
- 하둡 특징
- 선형적인 성능과 용량 확장 - 서버 추가하면 성능이 증가
- 고장 감내성 - 데이터 3중 복제. 작업 오류시 다른 서버에서 자동으로 재실행
- 핵심 비즈니스 로직에 집중 - 고장감내성, 자동 복구를 시스템에서 알아서 수행
- 풍부한 에코시스템 형성 - 다양한 응용 기술 존재
3. 데이터 연동
- 데이터베이스의 데이터를 직접 맵리듀스하면 기간계 부하 걸림
- 데이터를 하둡으로 복사 후 하둡에서 분산 처리
- 대표적인 오픈 소스 기반 솔루션은 ‘SQOOP’
4. 대용량 질의 기술
- SQL on Hadoop