«
in ADP  /  

ADP 요약 - 1과목 2장 데이터의 가치와 이해

제 1절 빅데이터의 이해

1. 정의

  • 맥킨지, 2011
    • 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터다.
    • 규모에 중점을 둔 정의
  • IDC, 2011
    • 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용을 가치를 추출하고 데이터의 초고속 수집·발굴·분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다.
    • 분석 비용 및 기술에 초점을 맞춤
  • 노무라연구소
    • 데이터와 데이터 처리, 저장 및 분석 기술에 의미 있는 정보 도출에 필요한 인재나 조직까지도 포함
  • 가트너그룹의 더그래니(Doug Laney) - 3V, 빅데이터로 인한 새로운 도전과 기회
    • 데이터의 양(Volume), 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면의 속도(Velocity)의 급격한 증가
  • 메이어-쇤베르거와쿠키어
    • 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일이다. 나아가 이를 활용해 시장, 기업, 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다.
    • 빅데이터로 인해 나타난 사회, 정치, 경제, 문화적 변화를 포착하기 위한 추상적 정의
  • 종합
    • 3V로 요약되는 데이터 자체의 특성 변화 (좁은 범위)
    • 데이터 자체뿐만 아니라 처리, 분석 기술적 변화 포함 (중간 범위)
    • 인재, 조직 변화까지 포함 (넓은 범위)
    • 기존의 작은 데이터 처리 분석으로는 얻을 수 없는 통찰과 가치를 창출하는 새로운 방식

2. 출현 배경

  • 새로 등장한 것이 아니라 ‘변화’를 가리킴. 데이터와 그것을 다루는 기술 차원에서의 ‘패러다임 전환(paradigm shift)’
    • 산업계 - 정보가 지속적으로 축적되어 거대한 가치 창출이 가능한 규모가 됨
    • 학계 - 인간 게놈 프로젝트 등 거대한 데이터 다루는 학문 분야가 늘어남
    • 기술 발전 - 디지털화의 급진전, 저장기술의 발전과 가격하락, 클라우드 컴퓨팅으로 인한 분석비용 절감
  • 광고 모델 - 사용자 로그 정보를 활용한 매칭
  • 모바일/SNS의 등장

3. 빅데이터 기능

  • 차세대 산업혁명에서의 석탄과 철 역할 - 생산성 향상
  • 21세기의 원유 - 경제 성장에 필요한 ‘정보’ 제공
  • 렌즈 - 디지털화를 통환 관찰(google Ngram viewer)
  • 플랫폼 - 서드파티 비즈니스에 활용 - api 공개

4. 빅데이터가 만들어 내는 본질적인 변화

  • 사전처리 > 사후처리 시대로
    필요한 것만 모으고 나머지는 버리자 > 일단 모두 모으고 나중에 처리하자
  • 표본조사에서 전수조사로
    낮은 데이터 수집비용, 사기탐지, 불법거래 적발
  • 질보다 양으로
    틀려도 대세에 영향을 미치지 않음
  • 인과관계에서 상관관계로

제 2절 빅데이터의 가치와 영향

1. 빅데이터의 가치

가치 측정이 쉽지 않음

  • 재사용, 재조합, 한번 사용하고 버리지 않음 - CCTV로 절도범도 잡고 구매 정보도 획득
  • 기존에 없던 가치를 창출 - 예) 킨들 전자책 읽기 데이터 - 어느 부분을 좋아하는지, 어디서 읽기를 그만두는지, 가치는 있는데 측정안됨
  • 분석 기술의 발달 - 가치없는 데이터가 저렴한 비용으로 분석 가능해짐
  • 기존 사업자에게 경쟁 우위 제공(진입장벽)

2. 빅데이터의 영향

  • 기업 - 혁신과 경쟁력, 생산성 향상
    소비자 행동 분석, 시장 변동 예측, 원가절감, 제품 차별화, 투명성 제고
  • 정부 - 환경탐색, 상황분석, 미래대응
    기상, 인구이동, 통계를 활용한 사회변화 추청, 재해정보 추출 > 미래의제 도출 > 대응 방안 도출
  • 개인은 활용의 대상이지만 정치인, 대중가수 등이 빅데이터 활용하는 사례가 나타남

제 3절 비즈니스 모델

  • 빅데이터 활용 사례
    • 기업 - 구글의 페이지랭크, 월마트의 상품배치
    • 의료 - 생산성 향상, 진단 및 처방에 활용, 인공지능 왓슨(Watson)
    • 정부 - 실시간 교통정보, 모니터링 결과를 국가안보에 활용(NSA)
    • 개인 - 정치인(오바마), 가수(청취기록 분석 - 공연위치, 순서 결정)
  • 빅데이터 활용 기본 테크닉
    • 연관규칙 학습 - 장바구니 분석, 해킹 탐지
    • 유형 분석 - 분류, 갖춰진 훈련용 분류틀로 특성별 집단 분리
    • 유전 알고리즘 - 자연선택, 돌연변이 메커니즘으로 진화. TV프로그램 배치, 응급실 의사 배치
    • 기계 학습 - 훈련 데이터로부터 알려진 특성을 통해 ‘예측’에 초점. 영화추천, 스팸메일 분류
    • 회귀 분석 - 독립변수의 변화에 따라 종속변수가 어떻게 변하는지 관계 파악
    • 감정 분석 - 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석(소셜 미디어)
    • 소셜 네트워크(사회관계망) 분석 - 몇촌 관계? 영향력 있는 사람 파악

제 4절 위기 요인과 통제 방안

  • 위기 요인
    • 사생활 침해 - 빅브라더, 일상생활 전반을 감시
    • 책임원칙 훼손 - 죄를 저지르지 않았는데 잡혀감. 예측 알고리즘의 희생양 생김
    • 데이터 오용 - 데이터의 기반한 예측이 항상 맞지는 않음. 잘못된 지표 사용
  • 통제 방안
    • 동의에서 책임으로 - ‘개인정보 제공자의 동의’보다는 ‘개인정보 사용자의 책임’으로 해결
    • 결과 기반 책임 원칙 고수 - ‘성향’에 따른 처벌보다는 ‘행동 결과’에 따른 처벌
    • 알고리즘 접근 허용 - 알고리즘 접근권 보장

제 5절 미래의 빅데이터

  • 데이터 : 모든 것의 데이터화
    • 인터넷, 모바일 로그 수집 > 웨어러블, IoT > 센서 네트워크 > 모든 것이 데이터화됨
    • 나이키 - 센서를 내장해 건강관리
  • 기술 : 빅데이터 분석 알고리즘의 진화
    • 데이터 양에 따라 정확도가 증가, 알고리즘의 효율성도 같이 진화. 넷플릭스 영화추천, 구글의 인공지능
    • 알고리즘의 오류 발생시 해결방안에 대한 고민 필요
  • 인력 : 데이터 사이언티스트, 알고리즈미스트
    • 데이터 사이언티스트
      • 빅데이터의 다각적 분석을 통해 인사이트 도출, 전략방향 제시
      • Hard Skill : 빅데이터에 대한 이론적 지식, 분석 기술의 숙련
      • Soft Skill
        • 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
        • 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
        • 다분야간 협력 : 커뮤니케이션
    • 알고리즈미스트
      • 데이터 사이언티스트가 한 일로 부당하게 피해가 발생하는 것을 막음
      • 컴퓨터, 수학, 통계학, 비즈니스 이해 필요. 코딩 해석을 통한 피해 구제