당신은 주제를 찾고 있습니까 “빅 데이터 분석 방법론 – 5강 빅데이터 분석 방법론“? 다음 카테고리의 웹사이트 you.tfvp.org 에서 귀하의 모든 질문에 답변해 드립니다: https://you.tfvp.org/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 데이터人싸 이(가) 작성한 기사에는 조회수 8,035회 및 좋아요 57개 개의 좋아요가 있습니다.
빅 데이터 분석 방법론 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 5강 빅데이터 분석 방법론 – 빅 데이터 분석 방법론 주제에 대한 세부정보를 참조하세요
5강 빅데이터 분석 방법론
I made a thumbnail for free in website \”forcre\”.
website : www.forcre.kr
빅 데이터 분석 방법론 주제에 대한 자세한 내용은 여기를 참조하세요.
10강 빅데이터 개론 – 빅데이터 분석 방법론 – 네이버 블로그
빅데이터 분석 방법론의 개요 □ 빅데이터 분석 – 빅데이터 분석은 대략의 데이터로부터 숨겨진 패턴과 알려지지 않은 정보를 찾아내기 위한 과정 …
Source: m.blog.naver.com
Date Published: 8/28/2022
View: 7351
5강 빅데이터 분석 방법론 – DATA ON-AIR
데이터 기초. 5강 빅데이터 분석 방법론. 관리자1. Author: 관리자1. 조회수: 2,475. 8. 6강 분석기획 및 데이터 수집 단계 · 4강 Data Scientist와 Citizen Data …
Source: dataonair.or.kr
Date Published: 7/6/2022
View: 7445
빅데이터 분석 방법론 , ADsP #17 – 자비스가 필요해
본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 …
Source: needjarvis.tistory.com
Date Published: 9/24/2021
View: 6033
전통적 데이터분석 방법론: KDD, CRISP-DM – 투이컨설팅
KDD(Knowledge Discovery in Database) 분석 방법론은 1996년 Fayyad가 소개한 방법론으로 데이터를 통해 통계적 패턴이나 지식을 찾을 수 있도록 정리한 …
Source: www.2e.co.kr
Date Published: 10/17/2022
View: 7820
2.1.2.분석 방법론 – 개발자가 데이터 분석 준전문가 되기
데이터 분석이 효과적으로 기업 내에 정착하기 위해서 이를 체계화한 절차와 방법이 정리된 … 경험과 감보다 데이터 기반의 의사 결정 … 빅데이터 분석 방법론.
Source: wikidocs.net
Date Published: 2/23/2021
View: 9034
데이터 분석 방법론 – 쉽고 세세한 디지털 꿀팁 [쉽세]
1) 빅데이터 분석의 계층적 프로세스. (1) 단계(Phase). 프로세스 그룹(Process Group)을 통해 완성된 단계별 산출물이 생성됩니다.
Source: nujnow.tistory.com
Date Published: 5/7/2022
View: 2017
주제와 관련된 이미지 빅 데이터 분석 방법론
주제와 관련된 더 많은 사진을 참조하십시오 5강 빅데이터 분석 방법론. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 빅 데이터 분석 방법론
- Author: 데이터人싸
- Views: 조회수 8,035회
- Likes: 좋아요 57개
- Date Published: 2020. 7. 1.
- Video Url link: https://www.youtube.com/watch?v=mMgBghJ5qwk
10강 빅데이터 개론 – 빅데이터 분석 방법론
1. 빅데이터 분석 방법론의 개요 ■ 빅데이터 분석 – 빅데이터 분석은 대략의 데이터로부터 숨겨진 패턴과 알려지지 않은 정보를 찾아내기 위한 과정 – 비즈니스 영역에서 주로 수행되는 빅데이터 분석의 목적은 데이터 과학자들에 의해 분석된 정보를 통대로 기업의 의사결정을 수행하는 것임 – 빅데이터 분석을 위해 크게 데이터 마이닝과 예측 분석 등이 고려되며, NoSQL, 데이터 베이스, 하둡과 맵리듀스 등의 관련 기술이 있음 ■ 비즈니스에서의 부석 수행 과정 – 비즈니스에서의 분석은 문제인식, 관련 연구 조사, 모형화, 자료 수집, 자료 분석, 결과 제시 과정을 거침 – 빅데이터 분석은 현재의 현상과 결과적인 관점을 제시하는데 초점을 두는 비즈니스 분석과 대용량의 데이터로부터 숨겨진 패턴을 발견하고 상황을 예측하는 고급분석으로 분류 2. 플랫폼을 활용한 빅데이터 분석방법론 ■ 빅데이터 분석의 플랫폼 활용 – 빅데이터 분석 플랫폼을 활용하여 수집 및 저장 된 데이터를 분석하여 서비스를 개발하고 통찰력(Insight)을 끌어내는 작업을 수행함 ■ 데이터 분석에 활용되는 기법 – 빅데이터 분석 전에 분석결과를 통해 해결하고자 하는 문제를 명확히 정의하고 분석절차, 기법 등을 포함한 세부 시나리오를 마련해야 함 – 부석에 필요한 인프라 구축 조건 등 분석환경을 조사하여 자체 구축 및 외부 인프라 활용 여부를 결정해야 함
빅데이터 분석 방법론 , ADsP #17
본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다.
빅테이터 분석 방법론
빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성
Phase (단계) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제
: 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제 Task (태스크) : 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
: 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 Step (스텝) : WBS(Work Breakdown Structure)의 워크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)
WBS의 예시 현업에서 많이 사용하는 테이블 구조의 WBS 빅데이터 분석 방법론 참조 모델
분석 기획(Planning)
비즈니스 이해 및 범위 설정
– 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 문제점 파악
– 업무 매뉴얼 및 업무 전문가 도움 필요, 구조화된 명세서 작성
1) 비즈니스 이해
– 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료 조사, 향후 프로젝트 진행을 위한 방향 설정
– 입력 : 업무 매뉴얼, 전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료
– 처리 및 도구 : 자료 수집 및 비즈니스 이해
– 출력 : 비즈니스 이해 및 도메인 문제점
2) 프로세스 범위 설정
– 비즈니스에 대한 이해와 프로젝트 목적에 부함하는 범위(Scope)을 명확하게 설정, 이해 관계자(Stakeholders)의 이해를 일치 시키기 위해 구조화 된 프로젝트 범위 정의서(Statement Of Work, SOW)를 작성
– 입력 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
– 처리 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
– 출력 : 프로젝트 범위 정의서(SOW)
프로젝트 정의 및 계획 수립
– 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정, 프로젝트의 정의를 명확하게 함
– WBS를 만들고 데이터 확보계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통계획 등을 포함하는 프로젝트 수행 계획을 작성
1) 데이터 분석 프로젝트 정의
– 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 프로젝트의 목표를 명확화하기 위해 모델 운영 이미지 및 평가 기준 설정
– 입력 : 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
– 처리 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계
– 출력 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
2) 프로젝트 수행 계획 수립
– 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리 방안 작성
– WBS는 프로젝트 산출물 위주로 작성되어 프로젝트 범위 명확화
– 입력 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
– 처리 및 도구 : 프로젝트 수행 계획 작성, WBS 작성 도구, 일정 계획 수립 도구
– 출력 : 프로젝트 수행 계획서, WBS
프로젝트 위험계획 수립
– 발생 가능한 모든 위험(Risk)를 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높임
1) 데이터 분석 위험 식별
– 프로젝트 산출물과 정리자료(Lesson Learned)를 참조하고 전문가의 판단 활용
– 식별된 위험은 위험의 영향도와 빈도, 발생가능성 등을 평가하여 위험의 우선 순위 설정
– 입력 : 프로젝트 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료
– 처리 및 도구 : 위험 식별 절차, 위험영향도 및 발생가능성 분석, 위험 우선순위 판단
– 출력 : 식별된 위험 목록
2) 위험 대응 계획 수립
– 식별된 위험은 상세한 정량적/정성적 분석을 통하여 위험 대응방안 수립
– 대응은 회피(Avoid), 전이(Transfer), 완화(Mitigate). 수용(Accept)로 구분하여 작성
– 입력 : 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서
– 처리 및 도구 : 위험 정량적/정성적 분석
– 출력 : 위험관리 계획서
데이터 준비(Preparing)
필요 데이터 정의
– 정형/비정형/반정형 등의 모든 내/외부 데이터 포함하고 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의 서 작성
– 구체적인 데이터 획득방안을 상세하게 수립하여 프로젝트 지연 방지
1) 데이터 정의
– 내/외부 원천 데이터 소스(Raw Data Source)로 부터 분석에 필요한 데이터 정의
– 입력 : 프로젝트 수행 계획서, 시스템 설계서, ERD(Entity Relationship Diagram), 메타 데이터 정의서, 문서 자료
– 처리 및 도구 : 내/외부 데이터 정의, 정형/비정형/반정형 데이터 정의
– 출력 : 데이터 정의서
2) 데이터 획득방안 수립
– 부서간 업무협조와 개인정보보호 및 정보보안과 관련한 문제점을 사전 점검, 외부 데이터 획득은 인터페이스 및 법적인 문제점 고려
– 입력 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입
– 처리 및 도구 : 데이터 획득 방안 수립
– 출력 : 데이터 획득 계획서
데이터 스토어 설계
– 획득 방안이 수립되면 전사 차원의 데이터 스토어(Data Store) 설계
1) 정형 데이터 스토어 설계
– 일반적으로 RDMS(관계형 데이터베이스)를 사용하고, 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계
– 입력 : 데이터 정의서, 데이터 획득 계획서
– 처리 및 도구 : 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑(Data Mapping)
– 출력 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서
2) 비정형 데이터 스토어 설계
– 하둡(Hadoop), NoSQL 등을 이용한 논리적, 물리적 데이터 스토어 설계
– 입력 : 데이터 정의서, 데이터 획득 계획서
– 처리 및 도구 : 비정형/반정형 데이터 논리 및 물리 설계
– 출력 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서
데이터 수집 및 정합성 점검
– 데이터 스토어에 크롤링(Crawling), 실시간 처리(Real Time), 배치 처리(Batch) 등으로 데이터 수집
– 데이터베이스간 연동, API를 이용한 개발, ETL(Extract Transform Load) 도구의 활용 등 수집 프로세스 진행
1) 데이터 수집 및 저장
– ETL, API, Script 프로그램 등을 이용하여 데이터 수집하고 데이터 스토어에 저장
– 입력 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
– 처리 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
– 출력 : 수집된 분석용 데이터
2) 데이터 정합성 검증
– 데이터 스토어에 데이터 정합성을 확보하고 품질개선이 필요한 부분의 보완 작업 수행
– 입력 : 수집된 분석용 데이터
– 처리 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트
– 출력 : 데이터 정합성 점검 보고서
데이터 분석(Analyzing)
분석용 데이터 준비
– 프로젝트 목표와 도메인을 이해하고 비즈니스 룰(Business Rule)을 확인
– 데이터 스토어에서 분석용 데이터 셋을 ETL 도구 등을 이용하여 추출하고 구조화된 데이터 형태로 편성
1) 비즈니스 룰 확인
– 프로젝트의 목표를 정확하게 인식, 이해를 바탕으로 세부적인 비즈니스 룰 파악 및 데이터 범위 확인
– 입력 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
– 처리 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인
– 출력 : 비즈니스 룰, 분석에 필요한 데이터 범위
2) 분석용 데이터셋 준비
– 분석을 위해 추출된 데이터는 DB나 구조화된 형태로 구성하고 필요시 분석을 위한 작업 공간과 전사 차원의 데이터 스토어로 분리할 수 있음
– 입력 : 데이터 정의서, 데이터 스토어
– 처리 및 도구 : 데이터 선정, 데이터 변환, ETL 도구
– 출력 : 분석용 데이터셋
텍스트 분석
– 웹페이지/로그/텍스트 자료 등을 이용하여 어휘/구문 분석(Word Analysis), 감성 분석(Sentimental Analysis), 토픽 분석(Topic Analysis), 오피니언 분석(Opinion Analysis), 소셜 네트워크 분석(Social Network Analysis) 등을 실시하여 적절한 모델 구축
1) 텍스트 데이터 확인 및 추출
– 비정형 데이터를 데이터 스토어에서 확인하고 필요한 데이터 추출
– 입력 : 비정형 데이터 스토어
– 처리 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출
– 출력 : 분석용 텍스트 데이터
2) 텍스트 데이터 분석
– 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석하고 모델 구축, 용어 사전(유의어, 불용어 등)을 확보하고 도메인에 맞도록 작성, 구축된 모델은 텍스트 시각화 도구를 이용하여 모델의 의미 전달 명확화
– 입력 : 분석용 텍스트 데이터, 용어사전(유의어, 불용어 등)
– 처리 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석
– 출력 : 텍스트 분석 보고서
탐색적 분석
– 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성 파악 및 모델링에 필요한 데이터 편성
– EDA(Exploratory Data Analaysis)는 다양한 데이터 시각화를 활용하여 가독성을 높이고 형상 및 분포 등 파악
1) 탐색적 데이터 분석
– 기초 통계량(평균, 분산, 표준편차, 최대값, 최소값 등)을 산출하고 분포와 변수간의 관계 등 데이터 자체의 특성 및 통계적 특성을 이해하고 모델링을 위한 기초 자료 활용
– 입력 : 분석용 데이터셋
– 처리 및 도구 : EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인
– 출력 : 데이터 탐색 보고서
2) 데이터 시각화
– 탐색적 분석을 위한 도구로 활용, 모델의 시스템화를 위한 시각화를 목적으로 할 경우 시각화 기획, 시각화 설계, 시각화 구현 등의 별도 프로세스를 따라 진행
– 입력 : 분석용 데이터셋
– 처리 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
– 출력 : 데이터 시각화 보고서
모델링
– 가설 설정을 통해 통계 모델을 만들거나 기계학습(지도학습, 비지도학습 등)을 이용하여 모델을 만드는 과정
– 훈련용(Training)과 테스트용(Testing)으로 분할하여 과적합(Over-Fitting) 방지하고 모델의 일반화에 이용
1) 데이터 분할
– Training과 Testing 용으로 분할, 교차검증(Cross Validation) 수행가거나 앙상블(Essemble) 기법을 적용할 경우 데이터 분할 또는 검증 횟수, 생성모델 갯수 등을 설정하여 분할 기법 응용
– 입력 : 분석용 데이터셋
– 처리 및 도구 : 데이터 분할 패키지
– 출력 : 훈련용 데이터, 테스트용 데이터
2) 데이터 모델링
– 분류(Classification), 예측(Prediction), 군집(Clustering) 등의 모델을 만들어 가동중인 운영 시스템에 적용
– 입력 : 분석용 데이터셋
– 처리 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트
– 출력 : 모델링 결과 보고서
3) 모델 적용 및 운영 방안
– 운영에 적용하기 위해선 상세한 알고리즘 설명서 작성 필요, 필요시 의사코드(Pseudocode) 수준의 상세한 작성 필요
– 입력 : 모델링 결과 보고서
– 처리 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성
– 출력 : 알고리즘 설명서, 모니터링 방안
모델 평가 및 검증
– 프로젝트 정의서의 평가 기준에 따라 모델의 완성도 평가, 검증은 분석용 데이터셋이 아닌 별도의 데이터셋으로 검증
– 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업을 수행
1) 모델 평가
– 모델 평가를 위해 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 필요시 모델 검증을 위한 별도의 데이터를 활용
– 입력 : 모델링 결과 보고서, 평가용 데이터
– 처리 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업
– 출력 : 모델 평가 보고서
2) 모델 검증
– 운영 데이터를 확보한 검증용 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서 작성
– 입력 : 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터
– 처리 및 도구 : 모델 검증
– 출력 : 모델 검증 보고서
시스템 구현(Developing)
설계 및 구현
– 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍쳐 설계, 사용자 인터페이스 설계를 진행
– 설계서를 바탕으로 BI(Business Intelligence) 패키지를 활용하거나 새롭게 프로그램을 코딩하여 구축
1) 시스템 분석 및 설계
– 가동중인 시스템을 분석하고 알고리즘 설명서에 근거하여 응용시스템 구축 설계 프로세스를 진행
– 입력 : 알고리즘 설명서, 운영중인 시스템 설계서
– 처리 및 도구 : 정보시스템 개발방법론
– 출력 : 시스템 분석 및 설계서
2) 시스템 구현
– 시스템 분석 및 설계서를 따라 BI 패키지를 활용하거나 새롭게 시스템 구축
– 입력 : 시스템 분석 및 설계서, 알고리즘 설명서
– 처리 및 도구 : 시스템 통합개발도구(IDE), 프로그램 언어, 패키지
– 출력 : 구현 시스템
시스템 테스트 및 운영
– 시스템에 구현된 모델은 테스트를 통해 가동중인 시스템에 적용하고 효율적인 운영을 위한 프로세스 진행
1) 시스템 테스트
– 구축된 시스템의 검증(Verification & Validation)을 위해 단위테스트, 통합테스트, 시스템 테스트등 실시
– 입력 : 구현 시스템, 시스템 테스트 계획서
– 처리 및 도구 : 품질관리 활동
– 출력 : 시스템 테스트 결과보고서
2) 시스템 운영 계획
– 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획 수립
– 입력 : 시스템 분석 및 설계서, 구현 시스템
– 처리 및 도구 : 운영계획 수립, 운영자 및 사용자 교육
– 출력 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서
평가 및 전개(Deploying)
모델 발전 계획 수립
– 모델의 생명 주기(Life Cycle)를 설정, 주기적인 평가 실시하여 유지보수하거나 재구축 방안 마련
– 모델의 특성을 고려하여 모델 업데이터를 자동화하는 방안 수립 적용할 수 있음
1) 모델 발전 계획
– 발전계획을 상세하게 수립하여 모델의 계속성 확보
– 입력 : 구현 시스템, 프로젝트 산출물
– 처리 및 도구 : 모델 발전 계획 수립
– 출력 : 모델 발전 계획서
프로젝트 평가 및 보고
– 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적 평가하고 프로젝트 진행과정에서 지식, 프로세스, 출력자료를 지식자산화하고 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 프로젝트 종료
1) 프로젝트 성과 평가
– 프로젝트의 정량적 성과와 정성적 성과로 나눠 성과 평가서 작성
– 입력 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
– 처리 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
– 출력 : 프로젝트 성과 평가서
2) 프로젝트 종료
– 진행과정의 모든 산출물 및 프로세스를 지식자산화하고 최종 보고서를 작성하여 의사소통 절차에 따라 보고하고 프로젝트 종료
– 입력 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서
– 처리 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료
– 출력 : 프로젝트 최종 보고서
연관자료
전통적 데이터분석 방법론: KDD, CRISP-DM
정보의 홍수라는 말로 표현하기에 무색할 만큼 대용량의 데이터가 축적되고 있다. 이전에 활용되었던 정형데이터의 양이 어마어마하게 증가했음은 물론, 비정형데이터를 활용할 수 있는 방법 또한 다양해졌다. 대용량 데이터베이스와 빅데이터를 통해 새로운 인사이트를 도출하고자 하는 시도가 증가하면서 어떻게 효율적으로 분석해야 하는지에 대한 방법론이 중요해지고 있다. KDD와 CRISP-DM 방법론을 소개한다.
분석을 시작하기 위해 필요한 분석 기획
분석이란 데이터의 중요한 패턴을 발견하고 해석한 결과를 전달하는 과정이다. 축적되어있는 데이터로부터 성공적인 분석이 이루어지려면 적절한 분석 기획이 먼저 수립되어야 한다. 즉, 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 인사이트 등의 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 것이다.
분석 대상과 방법
분석은 분석의 대상(WHAT)과 분석의 방법(HOW)에 따라 4가지 유형으로 나눌 수 있다. 한 가지 주제의 분석이라 할지라도 4가지 유형을 넘나들며 분석을 수행하고 결과를 도출하는 과정을 반복할 수 있다.
[그림1] 분석의 4가지 유형분석 기획은 다음 세가지를 고려해서 수행한다.
가용데이터에 대한 고려(Available Data)
분석을 위한 데이터 확보가 우선이며, 데이터의 유형에 따라 적용 가능한 솔루션과 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 한다.
적절한 활용방안과 활용사례(Proper Business Use Case)
분석을 적용하여 성과를 낼 수 있는 대상 업무가 있어야 한다. 동 업종 또는 동 업무의 분석 적용 사례를 참조할 수 있다. 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다
장애요소들에 대한 사전계획 수립 (Low Barrier of Execution)
1회성 분석에 그치지 않고 조직 역량으로 내재화되기 위해서는 지속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 한다.
KDD 분석 방법론과 CRISP-DM 방법론
기업들은 매번 분석을 시도할 때마다 처음부터 다시 분석 기획을 하는 것은 어렵기도 하거니와 효율적이지 못하다. 그러므로 적절한 분석 절차가 조직 내에 정착하기 위해서는 체계화한 절차와 방법이 정리된 분석 방법론이 필요하다. 방법론은 절차와 방법, 도구, 기법, 템플릿과 산출물로 구성되어 있으며 활용하기 쉽도록 구성되어야 한다.
KDD 분석 방법론
KDD(Knowledge Discovery in Database) 분석 방법론은 1996년 Fayyad가 소개한 방법론으로 데이터를 통해 통계적 패턴이나 지식을 찾을 수 있도록 정리한 데이터마이닝 프로세스이다. 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화에서 응용 될 수 있는 구조를 갖고 있다. KDD 분석 방법론은 데이터셋 선택, 데이터 전처리, 데이터 변환, 데이터마이닝, 결과 평가로 이루어져 있다.
[그림2] KDD 분석 절차가. Selection (데이터 선택)
데이터베이스나 Raw data에서 분석에 필요한 데이터를 선택하는 단계로, 분석을 하려는 산업 도메인에 대한 이해와 해당 과제의 목표 설정이 필수적이다.
나. Preprocessing (데이터 전처리)
선택된 데이터셋에 포함 되어 있을 수 있는 노이즈와 이상값, 결측값들을 식별하고 필요하다면 삭제 및 변환 등의 전처리를 통해 데이터셋을 정제하는 단계이다.
이 단계에서 추가로 데이터가 필요할 경우, 데이터셋 선택 절차를 반복한다.
다. Transformation (데이터 변환)
정제된 데이터를 분석 목적에 따라 데이터의 Feature를 생성, 선택하고 데이터의 차원을 축소하며 데이터마이닝을 진행할 수 있도록 변환하는 단계이다.
이 단계에서 데이터마이닝에 필요한 학습데이터셋과 실험데이터셋으로 분리한다.
라. Data Mining (데이터마이닝)
학습데이터셋을 이용하여 분석 목적에 맞게 데이터마이닝 알고리즘을 선택하여 데이터마이닝을 실행하는 단계이다.
필요에 따라 데이터전처리 및 데이터 변환 절차를 반복할 수 있다.
마. Interpretation/Evaluation (데이터마이닝 결과 평가)
데이터마이닝을 수행한 결과에 대해 해석과 평가를 진행한다. 결과가 충족되지 않았을 경우 데이터 선택 절차와 데이터마이닝 절차를 반복 수행한다.
CRISP-DM 분석 방법론
CRISP-DM(Cross Industry Standard Process for Data Mining) 방법론은 전 세계에서 가장 많이 사용되는 데이터마이닝 표준 방법론으로 단계, 일반 과제, 세부과제, 프로세스 실행 등의 4가지 레벨로 구성된 계층적 프로세스 모델이기도 하다.
CRISP-DM의 절차는 6단계로 구성되어 있는데 각 단계들은 순차적으로 진행되는 것이 아니라, 필요에 따라 단계 간의 반복 수행을 통해 분석의 품질을 향상시킨다.
[그림3] CRISP-DM 분석 절차가. Business Understanding (업무 이해)
업무 이해 단계에선 분석을 수행하고자하는 과제의 목적과 요구사항을 이해하고, 도메인 지식을 활용하여 초기 프로젝트 계획을 수립하는 단계이다. 이 단계에선 업무 목적 파악, 상황파악, 데이터마이닝의 목표 설정, 프로젝트 계획 수립 등의 세부 업무가 포함된다.
나. Data Understanding (데이터 이해)
해당 단계에선 분석을 위한 데이터를 수집하고 이해하는 단계이다. 이 단계에선 초기 데이터 수집, 데이터 기술 분석, EDA, 데이터 품질 확인 등이 있다.
다. Data Preparation (데이터 준비)
수집한 모든 데이터에서 분석에 용이한 데이터만을 추출하여 편성하는 단계이다. 이 단계에선 데이터셋의 선택과 데이터 정제, 분석용 데이터셋 편성, 데이터 통합, 데이터 포맷팅의 업무가 있다.
라. Modeling (모델링)
다양한 알고리즘을 선택하여 모델링 과정을 수행하고 파라미터를 최적해 나가는 단계이다. 학습데이터셋 통해 모델링을 수행하며, 실험데이터셋으로 평가한다. 이 단계에서의 수행 업무로는 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성과 평가가 있다.
마. Evaluation (평가)
수행한 모델링 결과가 과제 목적에 적절한지 평가하는 단계로 평가된 모델링 평가가 분석 결과로 적용되는지 판단한다. 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가 등의 수행 업무가 포함된다.
바. Deployment (전개)
완성된 모델을 실제 현업에 적용하기 위해 필요한 이행계획을 수립하는 단계이다. 이행계획에는 모델 적용에 필요한 모니터링은 물론 유지보수 계획 또한 포함된다. 전개 계획 수립 및 모니터링/유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰 등의 수행 업무가 포함된다.
데이터 경제가 진화될수록 데이터 분석의 가치는 커진다. 전통적으로 적용해왔던 분석 방법론은 지금에도 여전히 유효하다. KDD 방법론은 5가지, CRISP-DM 방법론은 6가지 프로세스로 이루어져 있다. 모두 이론적인 프로세스보다 구체적이면서 실무 적용 측면을 강조하고 있다. 각 단계 간에는 피드백을 통한 반복으로 분석 품질을 높이고 있다. 분석 기법과 알고리즘이 새롭게 소개되고 있는 현재에도 위 두가지 방법론은 기본으로서 이해하고 있어야 한다.
저작권자 © 투이컨설팅 무단전재 및 재배포 금지
2.1.2.분석 방법론
데이터 분석이 효과적으로 기업 내에 정착하기 위해서 이를 체계화한 절차와 방법이 정리된 분석 방법론을 수립해야 함
구성요소 절차 방법 도구와 기법 템플릿과 산출물
데이터 기반의 의사 결정
경험과 감보다 데이터 기반의 의사 결정
합리적인 의사결정을 막는 장애요소
프레이밍 효과(Framing Effect) 문제의 표현 방식에 따라 동일한 사건에 대한 개의의 판단이 달라지는 것
편향된 생각(Bias)
고정 관념(StereoType)
분석 방법론 적용 모델
폭포수 모델 단계를 순차적으로 진행하는 방법
프로토타입 모델 일부분을 먼저 개발하여 제공하고 그 결과를 통해 개선작업
나선형 모델 반복을 통해 점증적으로 개발하는 방법
분석 방법론의 구성
단계 단계별 산출물을 생성 단계별 완료 보고서
태스크 단계를 구성하는 단위 활동 보고서
스탭 WBS의 워크 패키지에 해당 보고서 구성요소
KDD 분석 방법론
1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다.
절차
데이터셋 선택 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수
데이터 전처리 분석 대상용 데이터 셋에 포함되어 있는 잡음, 이상치, 결측치를 식별하고 필요시 제거
데이터 변환 데이터의 차원을 축소하여 효율적으로 마이닝을 할 수 있도록 변경
데이터 마이닝 목적에 맞는 데이터마이닝 기법을 선택
결과 평가
CRISP-DM 분석 방법론
주요 5개의 업체들이 주도한 계층적 프로세스 모델이다.
4레벨 구조 최상위 레벨은 여러 개의 단계로 구성 각 단계는 일반화 태스크를 포함 페이즈 일반화 태스크 세분화 태스크 프로세스 실행
CRISP-DM의 프로세스 6단계로 구성 단계간 피드백을 통해 완성도를 높임
절차
업무 이해
데이터 이해
데이터 준비
모델링
평가
전개
빅데이터 분석 방법론
단계, 태스크, 스텝의 3계층으로 이루어지고, 5단계의 절차를 가짐
절차
데이터 분석 방법론
728×90
반응형
데이터 분석을 효과적으로 활용하기 위해서 체계화된 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적입니다.
방법론은 절차(Procedures), 방법(Methods), 도구&기법(Tools & Techniques), 탬플릿&산출물(Templates & Outputs)로 구성되어 있습니다.
목차
1. KDD 분석 방법론
1) 개요
KDD(Knowledge Discovery in Database)는 1996 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계쩍인 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스입니다.
데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용 될 수 있는 구조를 갖고 있습니다.
2) KDD 분석 프로세스
(1) 데이터셋 선택(Selection)
데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계입니다.
데이터마이닝에 필요한 목표 데이터(Target data)를 구성하여 분석에 활용합니다.
(2) 데이터 전처리(Preprocessing)
추출된 분석 대상 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계입니다.
데이터 전처리 단계에서 추가로 요구되는 데이터셋이 필요한 경우 데이터 선택 프로세스를 추가 진행합니다.
(3) 데이터 변환(Transformation)
데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터 마이닝을 할 수 있도록 데이터에 변경하는 단계입니다.
데이터마이닝 프로세스를 진행하기 위해 학습용 데이터(Training data)와 검증용 데이터(Test data)로 데이터를 분리하는 단계입니다.
(4) 데이터 마이닝(Data mining)
학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계입니다.
필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 도출합니다.
(5) 데이터 마이닝 평가(Interpretation / Evaluation)
데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치를 확인합니다.
데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계입니다.
필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행합니다.
2. CRISP-DM 분석 방법론
1) 개요
CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5의 업체(Maimler – Chryster, SPSS, NCR, Teradata, OHRA)가 주도했습니다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성됩니다.
2) CRISP-DM의 4레벨 구조
최상위 레벨은 여러 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic TAsks)를 포함합니다. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 태스크(Specialized Tasks)로 구성됩니다.
마지막 레벨인 프로세스 실행(Process Instances)은 데이터마이닝을 위한 구체적인 실행을 포함합니다.
3) CRISP-DM의 프로세스
CRISP-DM의 프로세스는 6단계로 구성되어 있으며, 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있습니다.
(1) 업무 이해(Business Understanding)
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 초기 프로젝트 계획을 수립하는 단계로 업무 목적을 파악하고, 데이터 마이닝의 목적과 프로젝트 계획을 수립합니다.
(2) 데이터 이해(Data Understanding)
분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계입니다. 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계로 초기 데이터를 수집하고 데이터 기술 분석, 데이터 탐색이 이 단계에 포함됩니다.
(3) 모델링(Modeling)
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화하는 단계입니다. 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있습니다. 모델링 결과를 테스트용 데이터셋으로 평가하여 모델의 과적합(Over-fitting)문제를 확인, 모델링 기법 선택, 모델 테스트 계획 설계, 모델가 이 단계에 포함됩니다.
(4) 평가(Evaluation)
모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단하는 단계입니다. 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가가 이 단계에 포함됩니다.
(5) 전개(Deployment)
모델링과 평가 단계를 통하여 완성된 모델을 실무에 적용하기 위한 계획을 수립하는 단계입니다. 모니터링과 모델의 유지보수 계획 마련. 입력되는 데이터의 품질 편차, 전개 계획 수립, 모니터링/유지보수 계획 수립, 프로젝트 종료 보고, 프로젝트 리뷰가 이 단계에 포함됩니다.
3. KDD와 CRISP-DM
KDD: 데이터셋 선택(Data Selection) – 데이터 전처리(Preprocessing) – 데이터 변환(Transformation) – 데이터 마이닝(Data Mining) – 결과 평가(Interpretation / Evaluation) – 활용
CRISP-DM: 업무 이해(Business Understanding) – 데이터 이해(Data Understanding) – 데이터 준비(Data Preparation) – 모델링(Modeling) – 평가(Evaluation) – 전개(Deployment)
4. 빅데이터 분석 방법론
1) 빅데이터 분석의 계층적 프로세스
(1) 단계(Phase)
프로세스 그룹(Process Group)을 통해 완성된 단계별 산출물이 생성됩니다. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며, 버전관리(Configuration Management) 등을 통하여 통제가 이루어져야 합니다.
(2) 태스크(Task)
각 단계는 여러개의 태스크(Task)로 구성됩니다. 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있습니다.
(3) 스탭(Step)
처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)입니다.
2) 빅데이터 분석 방법론 5단계
분석기획(Planning) – 데이터 준비(Preparing) – 데이터 분석(Analyzing) – 시스템 구현(Developing) – 평가 및 전개(DEploying)
(1) 분석 기획(Planning)
문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계입니다.
(2) 데이터 준비(Preparing)
요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계입니다.
(3) 데이터 분석(Analyzing)
원천 데이터를 분석용 데이터셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계입니다.
분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계를 반복 진행합니다.
(4) 시스템 구현(Developing)
분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 프로토타입 시스템을 구현합니다.
(5) 평가 및 전개(Deploying)
데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리하거나 모델을 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계입니다.
키워드에 대한 정보 빅 데이터 분석 방법론
다음은 Bing에서 빅 데이터 분석 방법론 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 5강 빅데이터 분석 방법론
- 동영상
- 공유
- 카메라폰
- 동영상폰
- 무료
- 올리기
5강 #빅데이터 #분석 #방법론
YouTube에서 빅 데이터 분석 방법론 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 5강 빅데이터 분석 방법론 | 빅 데이터 분석 방법론, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.