I. 효율적인 의사결정에 적용하는 유용한 정보의 추출, Data Mining의 개요
가. 데이터 마이닝(Data Mining)의 정의
- 대용량 데이터에 숨겨진 관계, 패턴을 탐색하고 이를 모형화하여 업무에 적용할 수 있는 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정
나. 데이터 마이닝의 필요성
- 기업 데이터 양은 급증하고 있으나 가치있는 의미 정보의 부족
- 고도의 전문적인 의사결정 시스템의 필요성 증가
다. 데이터 마이닝의 특징
1) 정보의 Activity와 Rule을 추론하여 경영의 경쟁력 강화를 위하여 목표 예상을 가능하게 함.
2) 지식 집약적(Knowledge Intensive): 응용분야 지식, DB/DW지식, 데이터 마이닝 기법에 대한 지식
3) 3I Modeling Process 적용 : Iterative(반복적 분석) , Interactive(대화식 처리), Incremental(증가치 방식)
4) 귀납적 결과에 초점
라. 데이터 마이닝의 기능
- 발견 : 자율적, 자동적으로 새로운 패턴 발견
- 검증 : 사용자 시스템의 가설 검증
- 예측 : 특정 개체의 미래 동작을 예측 (Predictive Model)
- 묘사 : 사용자가 이용 가능한 형태로 표현 (Descriptive Model)
II. Data Mining 적용 기술과 기법
가. 데이터 마이닝(Data Mining)의 적용 기술
기술(기법) |
설명 |
개요도 |
연관성(Association) |
여러 개의 트랜잭션들 중에서 동시에 발생하는 트랜잭션의 연관관계를 분석 -교차판매, 묶음판매 등의 분야 사용 |
|
연속성(Sequence) |
개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성 예측 - 프랑스 여행을 갔던 사람이 가까운 시일 내에 스페인 여행을 함 |
|
분류(Classification) → 감독학습 |
이미 알려진 특정 그룹의 특징을 부여하고 정의된 분류에 맞게 구분 - 신용카드 신규 가입자 신용위험(상/중/하) 구분 |
|
(데이터) 군집화 (Clustering) → 무감독학습 |
상호간에 유사한 특성을 갖는 데이터들을 집단화 (K-Means 알고리즘) - A군집 : 소득 300만원 이상, 자녁 2명이상 - B군집 : 연평균 구매액 2~300만원 자녀 모두 출가 |
|
Characterization (특성화) |
-데이터 집합의 일반적인 특성을 분석 -데이터의 요약 과정을 통하여 특성 규칙을 발견하는 기법 |
특정 그룹의 특징 부여 / 정의된 분류에 맞게 구분 → 휴대폰 교체 주기 |
의사결정트리 (Decision Tree) |
-과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 분류, 해당 분류의 값을 예측하는데 사용 |
|
신경망 (Neural Network) |
대용량 데이터로부터 결과변수에 대한 예측이나 분류를 목적으로 감춰진 패턴을 찾고 일반화하는데 사용 |
|
사례기반 추론 |
새로운 상황을 이해하기 위해서 과거의 해답을 채택하는 등 선례로부터 추정하는 기법 |
사례기반 추론 4단계 1) 검색(Retreieve) 2) 재사용(Reuse) 3) 수정(Revise) 4) 유지(Retain) |
나. 학습 방법에 따른 데이터 마이닝 기법의 분류
분류 |
설명 |
대표기술 |
감독 학습 (Supervised Learning) |
- 데이터에 대한 레이블(Label) ‘명시적인 정답’ 이 주어진 상태에서 컴퓨터를 학습시키는 방법 - 트레이닝 데이터셋으로 학습을 하고, 레이블이 지정되지 않은 테스트 데이터 셋을 이용하여 학습된 알고리즘이 얼마나 정확히 예측(Prediction)하는지를 측정 |
classification(분류), regression(회귀), CNN, RNN |
무감독 학습 (Unsupervised Learning) |
- 데이터에 대한 레이블(Label) ‘명시적인 정답’ 이 주어지지 않은 상태에서 컴퓨터를 학습시키는 방법 - 데이터 형태로 학습을 진행하는 방법 - 데이터의 숨겨진(Hidden) 특징(Feature)이나 구조를 발견하는 데에 사용 |
Clustering(클러스터링), K-means |
강화 학습 (Reinforcement Learning) |
- 에이전트가 주어진 환경(state)에 대해 어떤 행동(action)을 취하고, 이로부터 어떤 보상(reward)를 얻으면서 학습을 진행 - 에이전트는 보상(reward)을 최대화(maximize)하도록 학습진행 - 동적인 상태(dynamic environment)에서 데이터를 수집하는 과정까지 포함되어 있는 알고리즘 |
Q-Learning (모델 없이 학습, 최적의 정책 학습), Deep-Q-Network(DQN) |
III. 데이터 마이닝의 구축 절차와 연관성 분석지표
가. 데이터 마이닝의 구축 절차
항목 |
설명 |
Data 선택 (Selecting/Sampling) |
필요한 데이터의 위치, 형태, 완전성 등을 파악-확보-통합 하는 과정 데이터가 많은 경우 모집단을 추출하여 데이터 1차 정리 |
Data 정제 (Data Cleansing) |
확보된 데이터를 가공하여 완성도를 향상시키는 과정 일관된 데이터를 위해 오류를 제거하는 단계 |
Data 보완 (Preprocessing) |
데이터의 양을 조절하고 깊이 있는 데이터를 만드는 작업 데이터의 무결성 및 품질 관리 |
Data 변환 (Transformation) |
불필요한 레코드 및 컬럼 삭제, 파생된 데이터를 만들거나 세분화 하는 작업 (데이터를 수치화, 혹은 변수간의 관계를 파악) |
Data Mining 적용 및 평가 (Modeling/Reporting) |
-Data Mining 기법을 적용하여 도출된 결과를 해석 -의미 있는 결과를 찾아 의사결정에 적용 |
나. 데이터 마이닝의 연관성 분석지표
구분 |
의미 |
수식 |
비고 |
지지도(Support) |
동시에 거래된 비율 |
Pr(A∩B ) |
두 항목이 동시에 거래된 수 / 전체거래 수 |
신뢰도(Confidence) |
항목 A의 거래 중 항목 B가 포함된 거래의 비율(조건부 확률) |
Pr(A∩B) |
두 항목이 동시에 거래된 수 / 항목 A의 거래 수 |
향상도(Lift) |
항목 B가 항목 A와 동시에 구매되는 경우(즉, 신뢰도)와 B 자체만 구매되는 경우의 비율(적용)
|
Pr(A∩B) |
항목 B가 항목 A와 동시에 구매되는 경우 / B 자체만 구매되는 경우의 비율 = 1 : 두 품목이 서로 독립적인 관계 > 1 : 양의 상관관계 < 1 : 음의 상관관계 |
IV. 데이터 마이닝과 관련기술 OLAP 과의 비교
가. Data Mining 과 OLAP의 개념도
나. Data Mining 과 OLAP의 비교표
구분 |
Data Mining(컴퓨터 기반) |
OLAP(전문가 지식 기반) |
개념 |
-컴퓨팅 가설을 세우고 검증하는 기법 -발견형(Discovery-Driven)기법 -패턴 주론 |
-분석과정에서 사용자의 사전지식 검증 -검증형(Verification-Driven)기법 - 특정 사실에 대한 가/부 판단 |
주체 |
컴퓨터 |
사용자 |
요구사항 |
자동 추출 |
사용자의 방대한 지식 |
단점 |
분석기법 이해 필요 |
사용자가 모든 질문 생각 |
차이점 |
그 뒤에 숨겨진 일반적인 경향 정보 |
특정 물음에 대한 정보 제공 |
공통점 |
-데이터 사이의 새로운 관계를 찾아내는 과정 -Data Warehouse의 활용을 높이는 방안 |
V. 데이터 마이닝 도구 선정 시 고려사항 및 활용 현황
가. 데이터 마이닝 도구 선정 시 고려사항
구분 |
설명 |
편의성 |
- 사용하기 쉽고 통계자료 등 가공/편집 용이 여부 |
개방성 |
- 다양한 데이터에 접근이 가능하도록 EAI, BI 등 연동 서비스 제공 여부 |
이식성 |
- 다양한 플랫폼에 적용 가능 여부 |
기능성 |
- 데이터 추론을 위한 다양한 알고리즘 제공 여부 |
나. 데이터 마이닝의 비즈니스 활용 현황
항목 |
설명 |
금융 |
신용평가에 활용(결제내역, 대출정보 등을 활용) 사기탐지 및 고객 분할, 범죄 예방 가능 |
유통 및 마케팅 |
고객정보 활용하여 고객 맞춤형 마케팅 서비스 제공 |
통신 |
기존 고객의 이탈가능성 및 유지를 위한 노력 가능 |
품질 관리 |
불량품 제고, 제품 Loss 율 파악에 도움 |
생물 정보학 |
신약 개발 및 조기 질병 진단에 활용 |
웹 마이닝 |
-인터넷과 데이터 마이닝을 결합 -로그분석을 통한 사용자 행동 예측 가능 |
'정보관리기술사&컴퓨터응용시스템기술사 > IT경영전략' 카테고리의 다른 글
[인슈어테크]란? 보험과 ICT 기술의 만남(융합) (0) | 2020.12.08 |
---|---|
[규제 샌드박스]란? 4차 산업혁명 활성화위한 사업 규제 임시 허가 제도 (0) | 2020.12.08 |
DRP(Disaster Recovery Planning), 비즈니스 연속성 보장을 위한 체계적인 재해복구 계획서 (2) | 2020.12.05 |
DRS(Disaster Recovery System), 비즈니스 연속성 유지를 위한 재해복구 시스템 (0) | 2020.12.03 |
신경망(Neural Network) 분석 - 인간두뇌 세포를 모방한 의사결정 및 상황판단 기술 (0) | 2020.12.01 |
댓글