본문 바로가기

ADsP

[ADsP 데이터분석 준전문가] - 핵심 내용 요약 정리 (2) - PART 2. 데이터의 가치와 미래

[데이터의 가치와 미래 - 1. 빅데이터의 이해]

빅데이터의 정의

  • 빅데이터 : Big Data
  • 단순히 용량만 큰 것이 아니라 복잡성도 증가해 기존 데이터 처리 애플리케이션이나 관리 툴로는 다루기 어려운 데이터세트의 집합
  • 일반적 정의 
    • 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터이다. 활용하는 데이터 규모에 중점을 둔다. 
    • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처이다. 분석 비용 및 기술에 초점을 맞춘다. 
    • 데이터와 데이터 처리, 저장 및 분석 기술 + 의미있는 정보 도출에 필요한 인재나 조직도 포함한다. 정의 자체가 포괄하는 범위 확대

3V

  • 데이터의 양(Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)
  • 빅데이터를 보는 관점의 범위에 따른 정의
데이터 변화 기술 변화 인재, 조직 변화
- 규모 (Volume)
- 형태 (Variety)
- 속도 (Velocity)
- 새로운 데이터 처리, 저장, 분석 기술 및 아키텍처
- 클라우드 컴퓨팅 활용
- Data Scientist 같은 새로운 인재 필요
- 데이터 중심 조직

 

 

출현 배경

  • 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 변화를 말한다. (패러다임 전환)
  • 산업계 : 고객데이터 축적 (양질 전환 법칙)
  • 학계 : 거대 데이터 활용 과학 확산
  • 관련 기술 발전 (디지털화, 저장기술, 인터넷보급, 모바일혁명, 클라우드컴퓨팅)

 

빅데이터 기능

  • 산업혁명의 석탄, 철
  • 21세기의 원유
  • 렌즈 (구글의 'Ngram Viewer)
  • 플랫폼 -> 차세대 산업 혁신에 꼭 필요한 요소 

 

빅데이터가 만들어 내는 본질적인 변화 

  • 사전처리 ➡️ 사후처리
  • 표본조사 ➡️ 전수조사
  • 질 ➡️ 양
  • 인과관계 ➡️ 상관관계

 


[데이터의 가치와 미래 - 2. 빅데이터의 가치와 영향]

빅데이터의 가치 

  • 특정 데이터의 가치를 측정하는 것은 쉽지 않다.
  • 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발
  • 새로운 가치 창출 : 가치 측정이 어려워짐
  • 분석 기술 발전 

 

빅데이터의 영향

  • 빅데이터가 가치를 만들어 내는 방식
    • 투명성 제고로 연구개발 및 관리 효율성 제고
    • 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
    • 고객 세분화 및 맞춤 서비스 제공
    • 알고리즘을 활용한 의사결정 보조 혹은 대체 
    • 비즈니스 모델과 제품, 서비스의 혁신 등
  • 빅데이터가 시장에 미치는 영향
    • 기업 : 혁신과 경쟁력, 생산성 향상
    • 정부 : 환경 탐색, 상황분석, 미래 대응
    • 개인 : 목적에 따라 활용 -> 효용 전이로 생활 전반이 스마트화

 


[데이터의 가치와 미래 - 3.  비즈니스 모델]

빅데이터 활용 사례 

  • 기업 혁신 사례 : 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등 의료분야
  • 정부 활용 사례 : 실시간 교통정보수집, 기후정보, 각종 지질활동에 활용
  • 개인 활용 사례 : 정치인과 가수의 SNS 활용 

 

빅데이터 활용 기본 테크닉 

  • 연관 규칙 학습 (Association rule learning)
    • A를 구매한 사람이 B를 더 많이 사는가?
  • 유형 분석 (Classification tree analysis)
    • 이 사용자가 어떤 특성을 가진 집단에 속하는가?
  • 유전 알고리즘 (Genetic algorithms)
    • 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
  • 기계 학습 (Machine learning)
    • 기존 시청기록을 바탕으로 시청자는 보유한 영화중 어떤 영화를 가장 보고 싶어 하는가?
  • 회귀 분석 (Regression analysis)
    • 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
  • 감정 분석 (Sentiment analysis)
    • 새로운 환불 정책에 대한 고객의 평가는 어떤가?
  • 소셜 네트워크 분석 (Social network analysis)
    • 특정인과 다른 사람이 몇 촌 정도의 관계인가?

 

728x90

[데이터의 가치와 미래 - 4. 위기요인과 통제방안]

위기 요인 

  • 사생활 침해 : 개인의 사생활 침해 위협뿐만 아니라 범위가 사회경제적 위협으로 변형될 수 있음. 정보가 오용될 때 위협의 크기는막대함
  • 책임원칙 훼손 : 빅데이터 기술이 발전하면서 정확도가 증가한만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 높아짐
  •  데이터 오용 : 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실 발생

 

통제방안 

  • 동의에서 책임으로 
    • 개인정보 제공자의 동의를 통해 해결하기 보다는 개인정보 사용자의 책임으로 해결
  • 결과 기반 책임 원칙 고수 
    • 특정인의 '성향'에 따라 처벌하는 것이 아닌 '행동 결과'를 보고 처벌함
  • 알고리즘 접근 허용
    • 알고리즈미스트 

 


[데이터의 가치와 미래 - 5. 미래의 빅데이터]

빅데이터 활용에 필요한 기본 3요소

구분  설명
데이터 모든 것의 데이터화 
기술 진화하는 알고리즘, 인공지능
인력 데이터 사이언티스트, 알고리즈미스트 역할 증대

 

 

데이터 사이언티스트 

  • 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문 인력을 의미함
  • 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서 전문가의 역할을 기대

 

 

728x90