본문 바로가기
정보관리기술사&컴퓨터응용시스템기술사/IT경영전략

Data Mining(데이터 마이닝), 효율적인 의사결정에 적용하는 유용한 정보의 추출 기법

by 별프로 2020. 12. 5.
반응형

 I. 효율적인 의사결정에 적용하는 유용한 정보의 추출, Data Mining의 개요

가. 데이터 마이닝(Data Mining)의 정의

- 대용량 데이터에 숨겨진 관계, 패턴을 탐색하고 이를 모형화하여 업무에 적용할 수 있는 의미 있는 정보로 변환함으로써 기업의 의사결정에 적용하는 일련의 과정

 

. 데이터 마이닝의 필요성

  - 기업 데이터 양은 급증하고 있으나 가치있는 의미 정보의 부족

  - 고도의 전문적인 의사결정 시스템의 필요성 증가

 

. 데이터 마이닝의 특징

1) 정보의 ActivityRule을 추론하여 경영의 경쟁력 강화를 위하여 목표 예상을 가능하게 함.

2) 지식 집약적(Knowledge Intensive): 응용분야 지식, DB/DW지식, 데이터 마이닝 기법에 대한 지식

3) 3I Modeling Process 적용 : Iterative(반복적 분석) , Interactive(대화식 처리), Incremental(증가치 방식)

4) 귀납적 결과에 초점

 

. 데이터 마이닝의 기능

  - 발견 : 자율적, 자동적으로 새로운 패턴 발견

  - 검증 : 사용자 시스템의 가설 검증

  - 예측 : 특정 개체의 미래 동작을 예측 (Predictive Model)

  - 묘사 : 사용자가 이용 가능한 형태로 표현 (Descriptive Model)

 

II.  Data Mining 적용 기술과 기법

가. 데이터 마이닝(Data Mining)의 적용 기술

기술(기법)

설명

개요도

연관성(Association)

여러 개의 트랜잭션들 중에서 동시에 발생하는 트랜잭션의 연관관계를 분석

-교차판매, 묶음판매 등의 분야 사용

연속성(Sequence)

개인별 트랜잭션 이력 데이터를 시계열적으로 분석하여 트랜잭션의 향후 발생 가능성 예측

- 프랑스 여행을 갔던 사람이 가까운 시일 내에 스페인 여행을 함

분류(Classification)

→ 감독학습

이미 알려진 특정 그룹의 특징을 부여하고 정의된 분류에 맞게 구분

- 신용카드 신규 가입자 신용위험(//) 구분

(데이터) 군집화 (Clustering)

→ 무감독학습

상호간에 유사한 특성을 갖는 데이터들을 집단화 (K-Means 알고리즘)

- A군집 : 소득 300만원 이상,

자녁 2명이상

- B군집 : 연평균 구매액 2~300만원

          자녀 모두 출가

Characterization

(특성화)

-데이터 집합의 일반적인 특성을 분석

-데이터의 요약 과정을 통하여 특성 규칙을 발견하는 기법

특정 그룹의 특징 부여

/ 정의된 분류에 맞게 구분

휴대폰 교체 주기

의사결정트리

(Decision Tree)

-과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 분류, 해당 분류의 값을 예측하는데 사용

신경망

(Neural Network)

대용량 데이터로부터 결과변수에 대한 예측이나 분류를 목적으로 감춰진 패턴을 찾고 일반화하는데 사용

 

사례기반 추론

새로운 상황을 이해하기 위해서 과거의 해답을 채택하는 등 선례로부터 추정하는 기법

사례기반 추론 4단계

1)    검색(Retreieve)

2)    재사용(Reuse)

3)    수정(Revise)

4)    유지(Retain)

 

나. 학습 방법에 따른 데이터 마이닝 기법의 분류

분류

설명

대표기술

감독 학습

(Supervised

Learning)

- 데이터에 대한 레이블(Label) ‘명시적인 정답이 주어진 상태에서 컴퓨터를 학습시키는 방법

- 트레이닝 데이터셋으로 학습을 하고, 레이블이 지정되지 않은 테스트 데이터 셋을 이용하여 학습된 알고리즘이 얼마나 정확히 예측(Prediction)하는지를 측정

classification(분류), regression(회귀), CNN, RNN

무감독 학습

(Unsupervised

Learning)

- 데이터에 대한 레이블(Label) ‘명시적인 정답이 주어지지 않은 상태에서 컴퓨터를 학습시키는 방법

- 데이터 형태로 학습을 진행하는 방법

- 데이터의 숨겨진(Hidden) 특징(Feature)이나 구조를 발견하는 데에 사용

Clustering(클러스터링), K-means

강화 학습

(Reinforcement

Learning)

- 에이전트가 주어진 환경(state)에 대해 어떤 행동(action)을 취하고, 이로부터 어떤 보상(reward)를 얻으면서 학습을 진행

- 에이전트는 보상(reward)을 최대화(maximize)하도록 학습진행

- 동적인 상태(dynamic environment)에서 데이터를 수집하는 과정까지 포함되어 있는 알고리즘

Q-Learning (모델 없이 학습, 최적의 정책 학습), Deep-Q-Network(DQN)

 

III. 데이터 마이닝의 구축 절차와 연관성 분석지표

가. 데이터 마이닝의 구축 절차

항목

설명

Data 선택

(Selecting/Sampling)

필요한 데이터의 위치, 형태, 완전성 등을 파악-확보-통합 하는 과정

데이터가 많은 경우 모집단을 추출하여 데이터 1차 정리

Data 정제

(Data Cleansing)

확보된 데이터를 가공하여 완성도를 향상시키는 과정

일관된 데이터를 위해 오류를 제거하는 단계

Data 보완

(Preprocessing)

데이터의 양을 조절하고 깊이 있는 데이터를 만드는 작업

데이터의 무결성 및 품질 관리

Data 변환

(Transformation)

불필요한 레코드 및 컬럼 삭제, 파생된 데이터를 만들거나 세분화 하는 작업

(데이터를 수치화, 혹은 변수간의 관계를 파악)

Data Mining

적용 및 평가

(Modeling/Reporting)

-Data Mining 기법을 적용하여 도출된 결과를 해석

-의미 있는 결과를 찾아 의사결정에 적용

나. 데이터 마이닝의 연관성 분석지표

구분

의미

수식

비고

지지도(Support)

동시에 거래된 비율

Pr(A∩B )

두 항목이 동시에 거래된 수 / 전체거래 수

신뢰도(Confidence)

항목 A의 거래 중 항목 B가 포함된 거래의 비율(조건부 확률)

Pr(A∩B)
/
Pr(A)

두 항목이 동시에 거래된 수 / 항목 A의 거래 수

향상도(Lift)

항목 B가 항목 A와 동시에 구매되는 경우(, 신뢰도)B 자체만 구매되는 경우의 비율(적용)

 

Pr(A∩B)
/
Pr(A) X Pr(B)

항목 B가 항목 A와 동시에 구매되는 경우 / B 자체만 구매되는 경우의 비율

= 1 : 두 품목이 서로 독립적인 관계

> 1 : 양의 상관관계

< 1 : 음의 상관관계

 

IV. 데이터 마이닝과 관련기술 OLAP 과의 비교

가. Data Mining OLAP의 개념도

나. Data Mining OLAP의 비교표

구분

Data Mining(컴퓨터 기반)

OLAP(전문가 지식 기반)

개념

-컴퓨팅 가설을 세우고 검증하는 기법

-발견형(Discovery-Driven)기법

-패턴 주론

-분석과정에서 사용자의 사전지식 검증

-검증형(Verification-Driven)기법

- 특정 사실에 대한 가/부 판단

주체

컴퓨터

사용자

요구사항

자동 추출

사용자의 방대한 지식

단점

분석기법 이해 필요

사용자가 모든 질문 생각

차이점

그 뒤에 숨겨진 일반적인 경향 정보

특정 물음에 대한 정보 제공

공통점

-데이터 사이의 새로운 관계를 찾아내는 과정

-Data Warehouse의 활용을 높이는 방안

 

 

V. 데이터 마이닝 도구 선정 시 고려사항 및 활용 현황

가. 데이터 마이닝 도구 선정 시 고려사항

구분

설명

편의성

- 사용하기 쉽고 통계자료 등 가공/편집 용이 여부

개방성

- 다양한 데이터에 접근이 가능하도록 EAI, BI 등 연동 서비스 제공 여부

이식성

- 다양한 플랫폼에 적용 가능 여부

기능성

- 데이터 추론을 위한 다양한 알고리즘 제공 여부

 

나. 데이터 마이닝의 비즈니스 활용 현황

항목

설명

금융

신용평가에 활용(결제내역, 대출정보 등을 활용)

사기탐지 및 고객 분할, 범죄 예방 가능

유통 및 마케팅

고객정보 활용하여 고객 맞춤형 마케팅 서비스 제공

통신

기존 고객의 이탈가능성 및 유지를 위한 노력 가능

품질 관리

불량품 제고, 제품 Loss 율 파악에 도움

생물 정보학

신약 개발 및 조기 질병 진단에 활용

웹 마이닝

-인터넷과 데이터 마이닝을 결합

-로그분석을 통한 사용자 행동 예측 가능

 

 

반응형

댓글