* 교재 : ADsP 데이터 분석 준전문가 2019 전면개정판-윤종식 (https://book.naver.com/bookdb/book_detail.nhn?bid=14451061)
* 위 도서를 근거로 작성한 글임을 밝힙니다 :)
1) 분석 방법론 개요
1. 개요
- 데이터 분석을 위한 체계화된 절차와 방법을 수립
- 프로젝트의 성공 가능성을 제시
- 상세한 절차(Procedures), 방법(Methods), 도구와 기법(Tools&Techniques), 템플릿과 산출물(Templates&OutPuts)를 활용
2. 데이터 기반의 의사결정의 필요성
- 경험과 감에 따른 의사결정 -> 데이터 기반의 의사결정
- 합리적 의사결정의 장애 요소 : 고정관념, 편향된 생각, 프레이밍 효과(같은 상황에서 개인에 따라 선택이 달라짐) 등
3. 방법론의 생성과정
4. 방법론의 적용 업무의 특성에 따른 모델
1) 폭포수 모델 : 단계별로 순차적으로 진행 / 필요에 따라 피드백 과정 수행
2) 프로토타입 모델 : 일부분을 개발하여 사용자에게 제공, 사용 결과를 토대로 개선 작업 시행
3) 나선형 모델 : 반복을 통한 점증적으로 개발 / 복잡도 상승 가능성
5. 방법론의 구성
1) 단계 : 단계별 산출물 생성 / 단계별 완료 보고서
2) 태스크 : 단계를 구성하는 단위 활동 / 보고서
3) 스탭 : WBS의 워크 패키지에 해당 / 보고서 구성요소
2) KDD 분석 방법론
1. 개요
- Knowledge Discovery in Databases 의 줄임말
- 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터를 통계적 패턴이나 지식을 찾기 위해 활용
- 데이터마이닝, 기계학습, 인공지능, 패턴인식 등에 응용
2. 분석 절차
1) 데이터셋 선택(Selection)
- 비즈니스 도메인에 대한 이해와 목표 설정
- 분석에 필요한 데이터 선택 : 목표 데이터(Targer Data)
2) 데이터 전처리(Preprocessing)
- 데이터 셋의 잡음(Noise), 이상치(Outlier), 결측치(Missing Value)를 식별하여 제거 및 재처리하여 정제
- 필요시 데이터셋 선택단계 재실행
3) 데이터 변환(Transformation)
- 효율적인 처리를 위해 데이터의 차원을 축소
- 학습 데이터(training data)와 검증 데이터(test data) 분리
4) 데이터 마이닝(Data Mining)
- 목적에 맞는 데이터마이닝 기법 선택, 적절한 알고리즘 적용
- 필요시 전처리, 변환 단계 재실행
5) 데이터 마이닝 결과 평가(Interpretation/Evaluation)
- 데이터마이닝 결과에 대한 해석 및 평가, 목적과의 일치성 확인
- 결과를 업무에 활용하기 위한 방안 마련
- 필요시 모든 단계 반복 수행
3) CRISP-DM 분석 방법론
1. 개요
- Cross Industry Standard Process for Data Mining)
- 1996년 유럽연합의 ESPRIT에서 시작
- 4레벨 계층적 프로세스 모델로 구성
2. CRISP-DM의 4레벨 구조
- 단계는 일반화 태스크를 포함
- 일반화 태스크는 데이터마이닝의 단일 프로세스를 수행하는 단위이며 세분화 태스크로 구성
- 프로세스 실행은 데이터마이닝을 위한 구체적인 실행을 포함
3. CRISP-DM의 프로세스
- 양방향의 6단계로 구성 / 단계 간의 피드백
1) 업무이해(Business Understamding)
- 목적과 요구사항 이해
- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정 등
2) 데이터 이해(Data Understamding)
- 데이터를 수집하고 속성을 이해 / 데이터의 인사이트 발견
- 초기 데이터 수집, 데이터 기술 분석, 데이터 품질 확인 등
3) 데이터 준비(Data Preparation)
- 분석기법에 적합한 데이터 준비
- 데이터셋 선택, 데이터 정제, 분석용 데이터 편성 등
4) 모델링(Modeling)
- 모델링 기법과 알고리즘 선택 / 파라미터 최적화 / 과적합(Overfitting) 문제 확인
- 모델링 기법 선택, 모델 평가 등
5) 평가(Evaluation)
- 프로젝트 목적에 부합한지 평가
- 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
6) 전개(Deployment)
- 실 업무에 적용 단계 / 유지보수 계획 수립
- 전개 계획 수립, 프로젝트 종료 보고서 작상 등
4) 빅데이터 분석 방법론
1. 계층적 프로세스
1) 단계(Phase)
- 프로세스 그룹을 통하여 완성된 단계별 산출물 생성
- 각 단계별 기준선(Baseline) 설정 / 버전관리로 통제
2) 태스크(Task)
- 단계를 구성하는 단위 활동, 품질 검토의 항목
3) 스텝(Step)
- WBS의 워크 패키지에 해당
- 입력, 처리 및 도구, 출력자료로 구성
2. 방법론 5단계
1) 분석기획(Planning) : 비즈니스 이해, 프로젝트 수행 계획 수립
2) 데이터 준비(Preparing) : 필요한 데이터를 정의하고 준비
3) 데이터 분석(Analyzing) : 분석용 데이터셋 편성, 분석기법과 알고리즘으로 분석 / 필요시 준비단계 수행
4) 시스템 구현(Developing) : 운영중인 시스템에 적용, 프로토타입 시스템에 구현
5) 평가 및 전개(Lesson Learned) : 프로젝트 성과 정리, 모델의 발전 계획 수립 / 프로젝트 종료
'빅데이터 > ADsP' 카테고리의 다른 글
[ADsP] (2과목) 1.4.분석 프로젝트 관리 방안 (0) | 2020.05.12 |
---|---|
[ADsP] (2과목) 1.3.분석 과제 발굴 (0) | 2020.05.11 |
[ADsP] (2과목) 1.1.분석기획 방향성 도출 (0) | 2020.04.30 |
[ADsP] (1과목) 3.가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2020.04.19 |
[ADsP] (1과목) 2.데이터의 가치와 미래 (0) | 2020.04.15 |
댓글