본문 바로가기
빅데이터/ADsP

[ADsP] (2과목) 1.2.분석 방법론

by 백곰IT 2020. 5. 2.

* 교재 : ADsP 데이터 분석 준전문가 2019 전면개정판-윤종식 (https://book.naver.com/bookdb/book_detail.nhn?bid=14451061)

* 위 도서를 근거로 작성한 글임을 밝힙니다 :)

1) 분석 방법론 개요

 1. 개요

   - 데이터 분석을 위한 체계화된 절차와 방법을 수립

   - 프로젝트의 성공 가능성을 제시

   - 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&OutPuts)를 활용

 2. 데이터 기반의 의사결정의 필요성

   - 경험과 감에 따른 의사결정 -> 데이터 기반의 의사결정

   - 합리적 의사결정의 장애 요소 : 고정관념, 편향된 생각, 프레이밍 효과(같은 상황에서 개인에 따라 선택이 달라짐) 등

 3. 방법론의 생성과정

4. 방법론의 적용 업무의 특성에 따른 모델

 1) 폭포수 모델 : 단계별로 순차적으로 진행 / 필요에 따라 피드백 과정 수행

 2) 프로토타입 모델 : 일부분을 개발하여 사용자에게 제공, 사용 결과를 토대로 개선 작업 시행

 3) 나선형 모델 : 반복을 통한 점증적으로 개발 / 복잡도 상승 가능성

5. 방법론의 구성

 1) 단계 : 단계별 산출물 생성 / 단계별 완료 보고서

 2) 태스크 : 단계를 구성하는 단위 활동 / 보고서

 3) 스탭 :  WBS의 워크 패키지에 해당 / 보고서 구성요소

2) KDD 분석 방법론

 1. 개요

   - Knowledge Discovery in Databases 의 줄임말

   - 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터를 통계적 패턴이나 지식을 찾기 위해 활용

   - 데이터마이닝, 기계학습, 인공지능, 패턴인식 등에 응용

 2. 분석 절차

   1) 데이터셋 선택(Selection)

      - 비즈니스 도메인에 대한 이해와 목표 설정 

      - 분석에 필요한 데이터 선택 : 목표 데이터(Targer Data)

   2) 데이터 전처리(Preprocessing)

      - 데이터 셋의 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별하여 제거 및 재처리하여 정제

      - 필요시 데이터셋 선택단계 재실행

   3) 데이터 변환(Transformation)

      - 효율적인 처리를 위해 데이터의 차원을 축소

      - 학습 데이터(training data)와 검증 데이터(test data) 분리

   4) 데이터 마이닝(Data Mining)

      - 목적에 맞는 데이터마이닝 기법  선택, 적절한 알고리즘 적용

      - 필요시 전처리, 변환 단계 재실행

   5) 데이터 마이닝 결과 평가(Interpretation/Evaluation)

      - 데이터마이닝 결과에 대한 해석 및 평가, 목적과의 일치성 확인

      - 결과를 업무에 활용하기 위한 방안 마련

      - 필요시 모든 단계 반복 수행

3) CRISP-DM 분석 방법론

 1. 개요

   - Cross Industry Standard Process for Data Mining)

   - 1996년 유럽연합의 ESPRIT에서 시작

   - 4레벨 계층적 프로세스 모델로 구성

 2. CRISP-DM의 4레벨 구조

   - 단계는 일반화 태스크를 포함 

   - 일반화 태스크는 데이터마이닝의 단일 프로세스를 수행하는 단위이며 세분화 태스크로 구성

   - 프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함

 3. CRISP-DM의 프로세스

   - 양방향의 6단계로 구성 / 단계 간의 피드백 

   1) 업무이해(Business Understamding)

     - 목적과 요구사항 이해

     - 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정 등

   2) 데이터 이해(Data Understamding)

     - 데이터를 수집하고 속성을 이해 / 데이터의 인사이트 발견

     - 초기 데이터 수집, 데이터 기술 분석, 데이터 품질 확인 등

   3) 데이터 준비(Data Preparation)

     - 분석기법에 적합한 데이터 준비

     - 데이터셋 선택, 데이터 정제, 분석용 데이터 편성 등

   4) 모델링(Modeling)

     - 모델링 기법과 알고리즘 선택 / 파라미터 최적화 / 과적합(Overfitting) 문제 확인

     - 모델링 기법 선택, 모델 평가 등

   5) 평가(Evaluation)

     - 프로젝트 목적에 부합한지 평가

     - 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

   6) 전개(Deployment)

     - 실 업무에 적용 단계 / 유지보수 계획 수립

     - 전개 계획 수립, 프로젝트 종료 보고서 작상 등

4) 빅데이터 분석 방법론

 1. 계층적 프로세스

   1) 단계(Phase)

     - 프로세스 그룹을 통하여 완성된 단계별 산출물 생성

     - 각 단계별 기준선(Baseline) 설정 / 버전관리로 통제

   2) 태스크(Task) 

     - 단계를 구성하는 단위 활동, 품질 검토의 항목

   3) 스텝(Step) 

     - WBS의 워크 패키지에 해당

     - 입력, 처리 및 도구, 출력자료로 구성

 2. 방법론 5단계

   1) 분석기획(Planning) : 비즈니스 이해, 프로젝트 수행 계획 수립

   2) 데이터 준비(Preparing) : 필요한 데이터를 정의하고 준비

   3) 데이터 분석(Analyzing) : 분석용 데이터셋 편성, 분석기법과 알고리즘으로 분석 / 필요시 준비단계 수행

   4) 시스템 구현(Developing) : 운영중인 시스템에 적용, 프로토타입 시스템에 구현

   5) 평가 및 전개(Lesson Learned) : 프로젝트 성과 정리, 모델의 발전 계획 수립 / 프로젝트 종료

728x90
반응형

댓글