빅 데이터 분석 프로젝트 주제 | [프로젝트발표영상] 배달 매출 예측 분석 최근 답변 259개

당신은 주제를 찾고 있습니까 “빅 데이터 분석 프로젝트 주제 – [프로젝트발표영상] 배달 매출 예측 분석“? 다음 카테고리의 웹사이트 you.tfvp.org 에서 귀하의 모든 질문에 답변해 드립니다: https://you.tfvp.org/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 SKplanet Tacademy 이(가) 작성한 기사에는 조회수 1,451회 및 좋아요 23개 개의 좋아요가 있습니다.

빅 데이터 분석 프로젝트 주제 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 [프로젝트발표영상] 배달 매출 예측 분석 – 빅 데이터 분석 프로젝트 주제 주제에 대한 세부정보를 참조하세요

배달 매출 데이터를 바탕으로 일주일 간의 매출을 예측하는 서비스를 기획
2020년 1월~5월의 시계열 데이터를 바탕으로 6월 한주의 매출을 예측하는 시스템이며,
배달 매출 예측도 상승을 위해 2가지의 계층 구조를 만들어서 예측 모델링을 수행
팀명 : 웰치스
멤버 : 이범주, 정수경
2021.11.18일 진행된 혁신성장청년인재양성사업 성과발표회 발표 영상입니다.

빅 데이터 분석 프로젝트 주제 주제에 대한 자세한 내용은 여기를 참조하세요.

[Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ …

원래 저는 마케팅에서 데이터 분석을 사용하는 방법에 대해 포스팅하고 싶었잖아요? 그럼 이번을 기회로,. 마케팅 가설이나 주장에 대해서 힘을 실어줄 수 …

+ 더 읽기

Source: soa-park.tistory.com

Date Published: 5/23/2022

View: 2632

빅데이터 분석 및 시각화 project

빅데이터 분석 및 시각화 project. 참여자 : 김수연, 이혁수, 김경주. @8/28/2020 → 9/13/2020. 주제 : 공공데이터 활용한 뉴노멀 시대 맞춤 야외 데이트 지역 추천.

+ 여기에 더 보기

Source: hyukstory.oopy.io

Date Published: 5/18/2021

View: 6954

프로젝트 주제 선정

금융 관련 빅데이터 분석 Project 아이디어. (1) 빅데이터분석을 활용한 환율예측 알림서비스. 목적: 1달이상의 장기적인 환율추이를 예측하여 고객이 …

+ 여기에 자세히 보기

Source: seungyeop.me

Date Published: 5/9/2021

View: 4369

미니프로젝트(2) 범죄 빅데이터 분석 – velog

부산시 5대 범죄 및 시카고 범죄현황 빅데이터 분석. 구분, 내용. 기획배경, 부산시의 범죄발생율과 각 구별 cctv 설치 현황에 대하여 어떤 연결점이 있지 …

+ 여기에 자세히 보기

Source: velog.io

Date Published: 2/22/2021

View: 9085

데알못이 데이터 분석 프로젝트를 하기 위해 리서치한 내용 총집합

데이터 이해. 정형/비정형, 데베, 빅데이터, 데이터사이언티스트 역량, 개인정보 비식별 기술 이렇게만 보면 될 듯. 2. 분석 기획, 분석 방법론, …

+ 여기에 보기

Source: thewayaboutme.tistory.com

Date Published: 3/21/2022

View: 5729

[빅데이터 개인 프로젝트] 밀레니얼 세대 소연구 by 텍스톰 …

주제 선정, 로직, 데이터 수집, 데이터 정제, 데이터 분석, 인사이트 도출, 발표 준비까지 약 2달 동안 준비했습니다. 크게 네 가지 단계로 관찰 > 빅 …

+ 여기에 더 보기

Source: slowslow.tistory.com

Date Published: 10/30/2021

View: 1173

[빅데이터] 텀 프로젝트(8) – 텀 프로젝트 최종 – Hyeon’s DevLog

해당 프로젝트의 주제는 2011년부터 2018년까지 국내에서 발생한 … 하여 해상에서 발생한 선박 관련 사고에 대하여 분석하는 것입니다.

+ 여기에 자세히 보기

Source: hyeonjiwon.github.io

Date Published: 2/19/2021

View: 8852

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 …

이 프로젝트는 학교 기말과제로 제출하였고, 제목에도 있듯이 ‘빅데이터의 이해’라는 과목이었다. 해당 기말과제는 자유로운 주제로 데이터를 분석 …

+ 여기를 클릭

Source: jerrys-ai-lab.tistory.com

Date Published: 6/8/2022

View: 4724

주제와 관련된 이미지 빅 데이터 분석 프로젝트 주제

주제와 관련된 더 많은 사진을 참조하십시오 [프로젝트발표영상] 배달 매출 예측 분석. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

[프로젝트발표영상] 배달 매출 예측 분석
[프로젝트발표영상] 배달 매출 예측 분석

주제에 대한 기사 평가 빅 데이터 분석 프로젝트 주제

  • Author: SKplanet Tacademy
  • Views: 조회수 1,451회
  • Likes: 좋아요 23개
  • Date Published: 2022. 2. 6.
  • Video Url link: https://www.youtube.com/watch?v=ukeIsaagLBI

[Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ 계획서 작성)

안녕하세요, Soa입니다!

٩( ᐛ )و

이제 개강도 했고.. (공부하기싫어병)

홍보 ucc 제작 때문에 분석 포스팅이 조금 없었습니다..

아직 홍보 ucc 제작은 끝나지 않았지만..!

운영국에서 메일이 왔습니당…….^^!

(우는거 아님)

무려 10주간, 개인 분석 프로젝트를 A부터 Z까지 진행해야 한다는 사실…!

그래서 고민했습니다..

사실 분석 프로젝트를 진행했던 경험이 없기 때문에,

어떻게 10주간의 분석 프로젝트를 해야하나 막막했어요…

그러면서 든 생각이

원래 저는 마케팅에서 데이터 분석을 사용하는 방법에 대해 포스팅하고 싶었잖아요?

그럼 이번을 기회로,

마케팅 가설이나 주장에 대해서 힘을 실어줄 수 있게끔 하는

데이터 분석을 진행해봐야겠다고 생각했습니다!

반응형

나홀로 분석 프로젝트 (1) 분석 주제 선정

개인 분석 프로젝트에 대한 큰 방향을 잡았습니다!

그래서 제가 정한 프로젝트 명은…

“나도 이제 디지털 마케터!”

물론 디지털 마케터가 실제로 하는 일에 대해서는

실무를 해보지 않았기 때문에 정답이 아닐 수 있습니다!

실제로 데이터 분석이 어떻게 사용되는지에 대해서 찾아보다가

다음 글을 발견했습니다.

https://platum.kr/archives/133978

데이터 분석을 통해서 마케팅 가설, 주장에 대해서

설득력을 높일 수 있다는 것이죠!

단순히 데이터 분석 뿐만 아니라

데이터 분석을 토대로, 그 데이터 안에서 인사이트를 도출해내는 것!

이번 개인 분석 프로젝트에서

물론 데이터 분석에 대해서 열심히 공부하겠지만,

마케팅에서 데이터 분석이 이렇게 쓰일 수 있구나 하는

그 과정에 대해서 자세히 포스팅하고자 합니다!

[프로젝트 목적]

위에서 언급했던 것처럼

데이터 분석을 마케팅에 어떻게 쓸 수 있는지에 대해서

공부하고 그 과정을 자세히 이야기하고자 하는데요.

목적을 간단하게 정리하자면 다음과 같습니다.

마케팅 가설을 설정한 후, 데이터 분석으로 가설을 검증해보는 과정을 실습해본다.

누구나 볼 수 있는 채널에서 소비자 데이터를 수집하여 데이터의 추이를 보며 가설을 주장에 설득력을 높여주고, 가설을 보완하는 방법을 배울 수 있다.

마케팅 가설을 설정하고, 그 가설을 데이터 분석을 통해 검증하려고 합니다!

간단하게 예를 들자면, 포스트 코로나 시대에서 온라인 쇼핑몰이 성장할 것이니 쇼핑몰을 만들어야 한다!

(조금 허접한 가설이지만..)

이런 식으로 마케팅 가설이나 주장을 설정하고

이에 대해 뒷받침할만한 근거로 분석한 데이터를 제시하는거죠!

예를 들어, 년도별 온라인 쇼핑몰 성장 추이 데이터 등이 있을 것 같습니다.

그래서 이러한 이유로 디지털 마케터가 되었다고 생각하고,

가상의 시나리오(내가 만약 ~라면)와 가설 등을 설정해서

그에 맞게끔 데이터 분석을 진행하고

분석 결과를 시각화하고, 나름 제안서? 분석 리포트를 작성해보고자 합니다!

[프로젝트 개요]

그래서 프로젝트는 간단하게 다음과 같이 진행될 예정입니다.

1. 설득력 있는 마케터 : 데이터 분석, 가설 검증이 필요한 이유

2. 분석 시나리오 설정 : ‘내가 만약 삼성SDS 마케팅 담당자라면?’

3. 제안을 위한 근거 만들기, 데이터 분석

4. 데이터 분석 결과 시각화

5. 결과 분석 및 인사이트 도출

여기서 2번의 분석 시나리오 설정에 대해서

조금 이야기해보겠습니다..!

가능한 시나리오가 여러 가지 있고, 정말 많이 고민해보았습니다..

사실 어느 기업에 소속된 마케터라면,

해당 기업에서 수집한 판매 데이터, 구매 전환 데이터 등과 같은

소비자 데이터가 있기 때문에 그와 관련된 가설을 세울 수 있겠지만

제가 수집할 수 있는 데이터에는 한계가 있기 때문에

많은 가설들을 포기했습니다.. ㅠ_ㅠ

그래서 공개되어 있는 데이터들 중에서 얻을 수 있는

소비자 데이터를 생각해보니,

네이버 데이터랩, 구글 트렌드 등과 같은

많은 사용자들이 이용하는 채널에서 제공하는 소비자 데이터가 있더라구요!

그런데 어떤 기업에 소속되어 있는 마케터라는 설정은 포기한거 아닌가요?

할 수도 있겠지만!

제가 설정한 시나리오는

‘내가 만약 삼성SDS 마케팅 담당자라면?’

이겁니다!

내가 만약 삼성SDS 마케팅 담당자라면!

Brightics 서포터즈를 모집해서, Brightics를 홍보하자는 전략에 대해서

어떠한 근거를 통해서 이야기하고,

그 근거를 어떤 데이터를 어떻게 분석해서 제안했을까?

라는 생각을 했습니다!

물론 진짜 담당자님께서는.. 저보다 높은 퀄리티의 제안서(?)를 작성하셨겠지만..

일단 한번 제안서(라고 부르는건지 모르겠지만) 작성 과정을

실습해보고자 합니다!

자세하게 어떤 데이터를 사용해서 어떻게 할건지에 대해서는

나중에 포스팅할 때 자세하게 이야기할 예정입니다..!

궁금하셔도 참아주세요!

٩( ᐛ )و

그럼 다음 포스팅에서는

좀 더 자세한 내용으로 만나요~!

안녕!

٩( ᐛ )و

* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다. *

반응형

데알못이 데이터 분석 프로젝트를 하기 위해 리서치한 내용 총집합

1. 데이터 이해

정형/비정형, 데베, 빅데이터, 데이터사이언티스트 역량, 개인정보 비식별 기술 이렇게만 보면 될 듯

2. 분석 기획, 분석 방법론, 분석과제 발굴 방법론, 마스터 플랜형 분석(장기전을 의미함)

1) 분석 방법론

CRISP-DM 분석 방법론을 비롯한 몇몇 방법론 적혀있음. CRISP-DM 분석 방법론은 이미 정리해둔 내용이 있고, 학교 수업 및 교과서에도 나오는 방법론이니 간단하게 내용을 정리하고 간다.

[CRISP-DM]

https://medium.com/@thecodingcookie/cross-industry-process-for-data-mining-286c407132d0

(1) 비즈니스 이해

해결할 문제 파악/이해 –>문제 정의, 해결책 정의

적절한 해결책 공식이 나올 때까지 이 과정을 반복 한다.

해결책 설계 작업에서 분류/회귀분석, 확률 추정 등의 모델을 이용해 우리가 해결할 수 있는 더 작은 문제로 분할 하는 구조화 작업을 수행하기도 한다.

여기서 사용 시나리오 에 대해 신중히 생각한다 (결정 분석적 사고)

– 우리가 하려는 일이 정확히 무엇?

– 정확히 어떻게 할 것인가?

– 사용 시나리오 중 어느 부분이 데이터 마이닝 모델을 이루는가?

…를 따지며 사용 시나리오에 대해 생각해보는 동안 실제 목적에 부합하도록 시나리오를 수정할 필요를 느끼며, 여기서 문제 접근을 도와주는 개념적 도구를 사용하기도 하는데, 예를 들어 기댓값 관점에서 비즈니스 문제를 구조화하면 체계적으로 처리할 문제를 데이터 마이닝 작업으로 분할할 수 있다.

(2) 데이터 이해

문제에 정확히 부합하는 데이터가 있는 경우는 거의 없으므로 여러 데이터의 장단점을 파악하고 비교하는 것이 중요하다.

(3) 데이터 준비

분석 기술에서 요구하는 특정 조건을 만족해야 한다. 간혹 가져온 데이터는 분석 기술에서 원하는 형식과 일치하지 않기 때문에 변환해야 하는 경우가 있다. 데이터 형태 조작, 변환.

일반적으로 데이터를 테이블 형태로 변환하고 빠진 값은 유추해서 채우며, 적절한 형으로 변환한다. 수치 데이터를 비교하려면 졍규화, 변환 시 표준 규칙 이용.

일반적으로 마이닝 프로세스 앞 단계에서 후반부에 사용될 변수를 정의 하느라 많은 시간을 보내는데, 이 단계에서 인간의 창의성, 상식, 비즈니스에 대한 이해가 매우 중요하다. 데이터 마이닝 해결책의 품질은 분석가가 얼마나 문제를 구조화하고 변수를 정의하는지에 따라 차이가 난다.

(4) 모델링

마이닝을 데이터에 적용하는 초기 단계다. 모델링 결과로 데이터에서 드러난 규칙에 의해 모델의 종류나 패턴 이 만들어진다.

(5) 평가

마이닝 결과를 엄격히 평가하고 다음 단계로 넘어가도 되는지 모델의 신뢰성을 확인 하는 단계. 어떤 데이터셋이든 자세히 살펴보면 패턴을 알아낼 순 있지만, 신중히 평가해보면 패턴의 오류 를 찾아낼 수 있다. 이 단계에선 모델과 데이터에서 추출한 패턴이 진정한 규칙성을 갖고 있는지, 단지 특정 예제 데이터에서만 볼 수 있는 특이한 성질은 아닌지를 확인해야 한다.

+ 원래 비즈니스 목적에 부합하는지 확인

2) 분석과제 발굴 방법론: 상향식, 하향식

말은 간단하지만 구체적인 내용은 읽어볼 가치가 있어보임. 마스터 플랜은 지금 하려는게 아닐 것 같으니 패스.

3. 분석 기법 종류

시각화, 공간 분석, 탐색적 자료 분석, 통계분석, 데이터 마이닝 이건 다 읽어보기

위 1번~3번에 해당하는 내용은 wikidocs에 정리된 아래 사이트에서 읽어볼 항목을 정리한 것이다. 따라서 본 내용은 아래 링크에 있다. 예쁘고 이해하기 쉽게 된 포스트가 아니고 큰 그림을 보기 좋은 간명한 자료다.

https://wikidocs.net/book/3558

분석 기법 및 분석 방법론에 대한 내용은 장미라 님의 블로그의 아래 글을 추가로 공부하는 것도 좋다.

<대표적인 데이터 분석 테크닉 30가지 (1/2)>

대표적인 데이터 분석 테크닉 30가지 (1/2)

<데이터 분석의 유형 6가지 – 목적에 따라 달라지는 분석 방법>

데이터 분석의 유형 6가지 – 목적에 따라 달라지는 분석 방법

특히 필자가 관심 있어 하는 네트워크 분석 기법에 대한 포스트는 아래 링크 내용이 좋다. NC 소프트 게임 데이터 분석 블로그의 포스트다.

<네트워크 분석기법을 활용한 게임 데이터 분석 #1, #2>

https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-1.html

https://danbi-ncsoft.github.io/works/2018/11/12/network_analysis-2.html

그 외 본인이 관심 가거나 필요한 분석 기법이 있으면 포스트가 됐건 서적이 됐건 자료를 더 찾아서 공부하면 좋을 것 같다.

4. 관련 오픈소스(대중적으로 널리 알려진 + 많이 쓰는 초유명 라이브러리 제외)

이걸 정리하자면 뭐 끝도 없을 것이다. 여기서 내용을 기재한 기준은 이 데이터 분석 캡스톤 디자인을 시작하게 된 시점 이후에 발견한 것이자 필자에게 생소한 라이브러리다.

– data-driven document: d3.js

https://d3js.org/

5. 변성윤 쏘카 데이터사이언티스트님 깃허브 자료

워낙 유명하신 분.

https://github.com/Team-Neighborhood/I-want-to-study-Data-Science

위 링크에서 각종 data, 관련 블로그 자료가 도움이 된다.

또 유명하신 다른 분은 하조은 님. 캐글에서 활발히 활동하시는 분이라고 한다. 아래는 깃허브 링크. 데이터 분석 프로젝트로 참고할 수 있는 자료가 많다. 책을 쓰신 적이 있거나 강의라도 찍으신 적이 있는 건가…?

https://github.com/corazzon

⭐️6. 데이터 분석 포트폴리오!

사실 데이터 분석 포트폴리오를 봐야 데이터 관련 토이/사이드 프로젝트는 어떻게 진행하는지 이해하기가 좋다.

[사이트]

Flowing data 사이트

https://flowingdata.com/

안수빈 님이 운영하시는 페이스북 페이지 A.I. LookBook에서 발견한 사이트. 본인의 롤모델 사이트라고 하셨다. 짧은 글로 인사이트를 제시하는 형태의 글들이라 구체적인 코드를 알 수 있는 건 아니다.

[예시- 읽어본 것]

도움이 많이 됐던 프로젝트 순으로 나열

– 온라인 뉴스 댓글은 정말 사람들의 목소리일까? – PART2 (파트 1은 18년도에 있었던 것 같다): 아이디어 전개 과정이 기가 막히다.

https://www.pycon.kr/program/talk-detail?id=39

– 국힙 래퍼 네트워크 분석: 온통 네트워크 분석 기법. 내가 지금 하고 싶은 것과 가장 유사함

– Quantify myself – self 사생활침해

바로 위 국힙 플젝을 했던 사람이 한 파이콘 발표다. 역시 여기도 네트워크 분석이 들어가지만, 그보단 좀더 다양한 방법이 포함되어 있다.

https://archive.pycon.kr/2018/program/25

– 법률 네트워크 분석: 30년간의 변화: 독보적인 도메인에 수준 있는 분석.

https://archive.pycon.kr/2018/program/21

동일 발표자가 2019 파이콘에서 발푤한 자료는 아래 링크.

https://www.pycon.kr/program/talk-detail?id=75

– 파이썬을 활용한 나의 브런치 구독자 분석: 여기도 네트워크 분석 들어감. 딱 가벼운 주제의 토이 플젝으로 볼수 있음.

https://drive.google.com/file/d/0BzXf4sedgwRbV0w4dUFVVExKVGp0elBMbU9CZEhoWXJWWmpZ/view

[예시- 안읽어본 것]

– 파이썬으로 학생 들여다보기

https://archive.pycon.kr/2018/program/32

– 파이썬으로 암을 찾아보자: 데이터로 만드는 의학 이야기

https://archive.pycon.kr/2018/program/84

– Topic Modeling & Word Embedding 그리고 화장품

https://archive.pycon.kr/2018/program/5

– 일반적인 케이스까지 포함한 파이썬을 이용한 의료 물리학 모델링 및 분석의 이해

https://archive.pycon.kr/2018/program/52

– 드론 및 인공위성 영상을 이용한 태양광발전소 입지분석

https://archive.pycon.kr/2018/program/6

– 행복한 연애를 위해 필요한 3가지 조건: 회귀 분석 밭이다.

행복한 연애를 위해 필요한 3가지 조건

– <데이터야 놀자> 2019 발표 세션 자료

– 공공 데이터 포털의 공공 데이터 활용 사례: 너무 자료가 많다.

https://www.data.go.kr/useCase/exam/index.do

[블록체인 주제 대비]

– Parsing Ethereum Database: 지윤님~! 아래 데브 그라운드 사이트로 가면 발표 영상도 찾을 수 있을 듯

https://drive.google.com/file/d/1nozsiF5SWq4m7Js5R_I3wDLQTWV8WcjJ/view

– Elasticsearch와 Python을 이용하여 맨땅에서 데이터 분석하기: 정말 가벼운 주제의 블록체인 데이터 분석 주제

https://drive.google.com/file/d/1QShZENskb1c5PwxcqklnxdtbtrFXze8A/view

[기타]

– financipe: 설대 산공 분의 리스펙 토이 플젝. 데이터 분석 유명 기법 다 들어간 금융 데이터 플젝. 옛날부터 리스펙하는 플젝

http://www.financipe.com/index

[세션 링크 모음]

*파이콘 2019 발표 세션

https://www.pycon.kr/program/talks

* 데브 그라운드 데이터 과학/AI 2019 <- DSTS 처럼 지금 당장 나한테 도움되는 주제는 없었음. http://52.78.123.153/home_elementor/# * Data Science is a Team Sports 발표 세션 자료: 데이터 사이언스 팀 문화에 대한 세션이었기 때문에 유용한 자료 없음 아래는 <비즈니스와 데이터 과학> 읽으면서 메모한 비가공 데이터. 후에 본문으로 포함시킬 것

[기타 데이터 과학 작업 기법]

1) 동시 발생과 연관성의 발견(페이스북 좋아요 분석, 거래 데이터, 장바구니 분석 등)

어떤 목적 없이 그저 데이터를 탐색하고자 할 떈 연관성 마이닝이 더 적절한 방법=자율 데이터 마이닝

반면 구체적인 타겟 변수를 알아내려면 감독 문제를 정의하여 감독 데이터 마이닝 즉 감독 세분화 기법을 이용.

페이스북 좋아요는 모든 데이터끼리 서로 무슨 방법인지 하튼 해봐서 연관성을 분석한다. 연관도 점수 기준이 있어서 그 기준을 넘은 것들만 쫙 보여준다. 연관성을 마이닝하는 목적 중 하나가 우리가 잘 모르는 데이터를 탐색하기 위한 것이다.

예를 들어, 회사 고객의 거래 데이터를 탐색하고 강력한 동시 발생 사건들을 조사하면 고객들이 가진 취향 간의 관계를 전체적으로 살펴볼 수 있다. 이걸 염두에 두고 ‘좋아요’ 동시 발생 분석 시, 많은 사람들이 각각 어떤 것을 좋아한다는 사실(이런 관계가 엄청나게 많이 있을 것이다)은 고객들의 다양한 취향과 연관되어 폭넓게 보여줄 것이다.

연관 데이터 마이닝은 당연히 자율 기법이다.

2) 프로파일링: 전형적인 행동의 발견

개인, 단체, 전체 인구의 전형적 행동 특성을 찾아낸다.

ex)

– 이 고객 세그먼트의 전형적 신용카드 사용량은?

– 신용 사기 탐지: 정상적 행위의 특성을 프로파일링하고, 정상적 행동에서 상당히 벗어나는 사례 찾음. 특히 이전에 본 사기 사건과 비슷한 방식의 사례 찾음

이 때 카드 사용량을 프로파일링해서 사기를 찾아내려면 주중/주말의 평균 사용량, 해외 사용량, 판매자와 구입 상품 종류, 의심되는 판매자로부터의 청구 등 복잡한 설명이 요구된다. 행동은 전체 인구, 소규모 그룹, 개인 차원에서 설명할 수 있다.

[주제 예시]

– 카드 사기 탐지

– 스팸 문자 찾아내기

– 미국 의료보험 사기 사건: 사기 탐지 문제랑 다르다. 비즈니스 문제와 데이터 간 관계를 생각해보면 전혀 다른 문제다. 사기꾼이 청구 시스템의 정당한 제공자이거나 사용자고, 올바른 금액이 정확히 얼마가 되어야 하는지 계산해줄 객관적인 별도의 기관이 존재하지 않는다. 청구 데이터에 사기인지 판단할 수 있는 타겟 변수가 없을 뿐만 아니라, 신용카드에서 사용하는 감독 학습 방법을 사용할 수도 없다. 이런 문제는 프로파일링, 군집화, 비정상 행위 탐지, 동시 발생 그룹화와 같은 자율 학습 방법을 사용해야 한다.

[빅데이터 개인 프로젝트] 밀레니얼 세대 소연구 by 텍스톰 UCINET

개인적으로 학교 수업시간에 진행한 빅데이터 및 스몰데이터 프로젝트입니다.

텍스 톰 Textom 및 UCINET을 주로 사용하였고 모든 주제와 로직은 자체적으로 구성했습니다.

해당 포스팅은 개인적으로 진행한 프로젝트에 대한 소개이자 아카이빙의 목적이며, 관련 내용에 대한 무단 배포 재가공 등을 모두 금합니다.

프로젝트의 메인 theme이 “밀레니얼 세대”와 “패션”이었습니다. 저는 건축 공부를 병행하면서, 공간에 대한 사람들의 인식에 관심이 많았기 때문에 밀레니얼 세대가 공간을 일종의 패션으로 소비하고 있다는 것을 유튜브와 인스타그램 등 SNS를 통해 관찰했고, 다음의 주제를 선정했습니다.

주제 선정, 로직, 데이터 수집, 데이터 정제, 데이터 분석, 인사이트 도출, 발표 준비까지 약 2달 동안 준비했습니다.

크게 네 가지 단계로 관찰 > 빅데이터 분석 > 스몰데이터 분석 > 결과 도출의 흐름으로 발표를 구성했습니다.

관찰

먼저 “패션”과 관련된 “밀레니얼 세대”의 특징을 발견하기 위한 관찰 단계입니다.

밀레니얼 세대를 효과적으로 관찰하기 위해서는 그들의 주요 활동공간에 침투해야 한다고 생각해, 온라인 공간 속 모습을 관찰했습니다.

다양한 SNS 중 오늘의 집, 유튜브, 인스타그램을 통해 밀레니얼 세대들은 ‘랜선 집들이’와 같은 키워드로 자신의 공간을 공개하는 것에 익숙하다는 것을 관찰했습니다.

또한, 뉴스 등 2차 자료 조사를 통해 밀레니얼 세대는 개인 정보에 대해 타 세대보다 민감하며, 자신의 삶이 침해받지 않기를 원한다는 것을 관찰했습니다. 이 내용은 택배를 집 주소가 아닌 무인 택배함으로 주문하거나, 택배기사 직접 대면을 피하기 위해 ‘문 앞에 두고 가주세요’를 남긴다거나, 온라인 거래 시 ‘안심번호 활용’등의 사례가 있었습니다.

이러한 두 가지 모습을 통해서 밀레니얼 세대는 내 삶의 공간과 공개라는 측면에서 이중성을 보인다는 점을 알게 되었습니다.

이중성이 발생하는 이유가 무엇인지 탐구하는 것을 주제로 설정하였습니다.

기성세대는 내 삶의 공간을 Private 하고 지켜야 하는 공간으로 인식하는 편으로 알려져 있습니다. 때문에 외국에선 유행하는 홈파티 같은 문화도 잘 없죠.

하지만 밀레니얼 세대는 어떨까요?

앞서 발견되었던 유튜브, 인스타그램 속 모습들을 통해 기성세대에 비해 Private 한 공간으로 여기는 성향이 덜하다는 것을 알 수 있습니다.

빅데이터 분석

그 원인을 찾기 위해 먼저 빅데이터 분석을 진행했습니다.

분석 설계단계에서 연구 주제를 “내 삶의 공간에 대한 이중성을 보이는 밀레니얼 세대”로 설정하였습니다.

수집도구로 TEXTOM을 사용했으며, 다음과 구글 유튜브 등 관련 모습을 찾을 수 있을 것으로 예상되는 채널들을 중심으로 수집을 진행했습니다.

* 분석 당시 TEXTOM이 네이버의 수집의 오류가 발생해 네이버 관련 채널은 수집하지 못하였고, 인스타그램 또한 수집하지 못한 점이 한계였습니다.

2019-11-19부터 1년의 기간을 설정해, 중심 키워드로 “랜선 집들이”를 선택했고 총 4,172건의 데이터를 수집했습니다.

분석 결과

키워드 빈도 분석 결과 중심 키워드인 랜선 집들이를 비롯한 인테리어, 공개, 집, 영상, 소개 등 집 공개 방식이나 관련 키워드들이 높은 빈도와 중요성을 갖는 것을 알 수 있었습니다.

상위 30위 단어 워드 클라우드를 통해 다음과 같이 랜선 집들이- 인테리어- 집들이- 집- 공개 등의 키워드가 중심을 이룸을 알 수 있었습니다.

네트워크 분석

위의 분석 결과를 바탕으로 UCINET을 활용해 Network 분석을 진행했습니다.

개략적으로, 우측 하단의 높은 빈도와 연결성을 가지는 단어들이 나타나는 것을 확인할 수 있었습니다.

군집분석

이를 그룹핑하는 CONCOR 분석을 진행했습니다. 유의미한 해석을 위해 4개의 군집으로 분석했습니다.

4개의 군집을 다음과 같이 분석했습니다.

먼저, 붉은 집단은 랜선 집들이, 인테리어, 집들이, 오늘의 집 등 랜선 집들이 랜선 집들이와 관련된 소재, 방법 등의 단어가 나타나 랜선 집들이를 보여주는 전반적인 단어의 집합으로 볼 수 있었고,

푸른 집단은, 랜선 집들이 전쟁 -홈스타 워즈-홈스타 워즈라는 예능 프로그램과 관련된 키워들이키워들이 나타나 있었습니다. 때문에 예능으로 소비되는 온라인 집 공개 집 공개로 명명했습니다.

노란색 집단은 편 스토랑 프로그램에서 연예인 한다감 씨 합류 당시 집 공개를 했던 사례로 인한 키워드가 나타나 있었습니다. 때문에 연예인의 집 공개 사례로 명명했습니다.

마지막으로 초록색 집단은,, 공개, 유튜브 영상 등의 단어가 주를 이루는 것을 통해, 온라인 집 공개의 방법 – 영상으로 명명했습니다.

4가지 집단을 다시 간략하게 정리하면, 내용 유사도와유사도와 네트워크 간 연결관계를 통해 파랑 노랑 / 빨강 초록 두 개의 집단으로 나눌 수 있었으며 각각 방송과 연예인들의 랜선 집들이 사례 증가와 영상으로 진행되는 랜선 집들이 문화로 나눌 수 있었습니다.

스몰 데이터 분석

빅데이터 분석에서 스몰데이터 분석을 진행했습니다.

유튜브, 오늘의 집 등 관련 채널에 랜선 집들이 관련 온라인 포스팅 경험이 있는 밀레니얼 세대 2인을 인터뷰 대상으로 설정했으며

카카오톡 zoom 등 비대면 매체로 명당 20분 내외의 질의응답을 진행했습니다.

질문 구성

하나. 온라인 집 공개를 하는 이유와 사용 매체는 무엇인가?

-> 온라인 집 공개를 하는 동기와 방법에 대해 확인하고자

둘. 온라인 집 공개 시 개인정보 공개에 대해 우려한 적은 없는가?

-> 밀레니얼 세대의 두 번째 특징인 개인정보 노출에 민감한 특성에 대해 확인하고자

셋. 자신에게 집, 내 삶의 공간이란 무엇인가?

-> 집에 대해 느끼는 태도를 조사하고자

분석 결과

온라인 집 공개를 하는 이유와 매체에 대해 물은 질문에 대해서

응답자 A, B 모두 SNS에 내삶의 공간을 공개하는 것에 대한 저항이 적음을 알 수 있었고 내 냄새가 많이 나는 공간으로 꾸미고 싶다 라는 응답을 통해 내가 사는 공간 속에 나 자신이 반영되기를 원함을 알 수 있었습니다.

온라인 집 공개 시 개인정보 공개에 대해 우려한 적은 없냐는 질문에 대해서

A, B, 재밌는 게 더 많다는 응답을 통해 개인정보 공개에 대한 우려는 있으나 통제가 가능하다고 믿으며 얻는 것이 더 많고 중요하다고 여김을 알 수 있었습니다.

자신에게 집, 내 삶의 공간이란 어떤 의미를 갖는지에 대해서

내 삶의 공간이란 내 삶의 배경을 의미하기도 하고 패션의 일부와 자기표현의 수단으로 인식된다는 것과 유튜브 인스타그램인스타그램 등 SNS에 공유하는 것은 일종의 기록에 불과하지 않는다는 것을 알 수 있었습니다.

* 이 부분에서 추가적으로 밀레니얼 세대들의 SNS에 대한 태도를 알 수 있었습니다. 모두에게 공개된 온라인이라는 점보다는 자신의 삶의 영역 중 하나라고 느끼는 경향이 강한 것으로 생각됩니다.

결과 도출

빅데이터와 스몰데이터 분석을 통해 다음과 같은 결과를 도출했습니다.

먼저 밀레니얼 세대가 SNS를 통한 일상 공개에 익숙하다는 점과 자기표현의 욕구가 강하고 내 삶의 공간에 노출에 대한 저항이 낮다는 특징이 랜선 집들이라는 하나의 표현방식으로 나타났습니다.

이는 표현하고자 하는 욕구는 물론, SNS의 성장과 미디어를 통한 자극으로 인해 SNS 업로드로 이어져 일종의 주류문화로 형성되었을 것으로 예상됩니다.

또한, SNS 문화를 통해 랜선 집들이 문화가 주류로 자리 잡게 되자 매스미디어로 역전파 되었고 빅데이터 분석에서 보았던 랜선 집들이 전쟁- 홈스타 워즈 홈스타 워즈, 편 스토랑 등 예능 방송을 통한 연예인들의 집 공개 사례가 증가했습니다.

결과적으로 다시 외부 환경 및 자극으로 이어져 positive feedback을 형성해 지속적인 문화로 자리 잡은 것을 알 수 있었습니다.

결론적으로 관찰을 통해 알아보고자 했던 내 삶의 공간에 대한 밀레니얼 세대의 이중성은

하나. 자신의 삶의 공간을 일종의 패션, 자기 표출의 수단으로 여긴다

둘. 자신의 삶의 영역이 침해받지 않기 위해 SHOWING은, 정보는 제공하지 않는 것으로 나타난다

따라서, 기존 기성세대에게 private place로 여겨졌던 내 삶의 공간이 밀레니얼 세대에게는 보여주고 싶지만 알려주고 싶진 않은 공간,

“showing but not informing”한 의미를 가짐을 연구를 통해 알 수 있었습니다.

프로젝트를 통해서 TEXTOM, UCINET 등 새로운 프로그램을 배웠을 뿐 아니라 빅데이터와 스몰데이터 등 어떻게 데이터를 수집하고 처리하고 의미를 도출하는지 기초적인 흐름을 습득할 수 있었습니다.

뿐 아니라, 프로젝트 전 단계에 밀레니얼 세대에 대한 특성을 공부하면서 우리 세대만이 가지고 있는 특성과 타 세대와의 차이점에 대해서 고민할 수 있는 시간이었습니다.

평소 관심 있었던 주제에 대해서 연구하는 과정을 통해서, 문제를 해결하는 과정 혹은 호기심을 유의미하고 생산적으로 해결해가는 새로운 방법을 습득했다고 생각합니다.

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석

제리

2021년 1학기에 진행한 프로젝트인데, 그동안 다사다난하여 이제야 프로젝트 로그를 적는다.

이 프로젝트는 학교 기말과제로 제출하였고, 제목에도 있듯이 ‘빅데이터의 이해’라는 과목이었다.

해당 기말과제는 자유로운 주제로 데이터를 분석하는 것이었다.

단, 공공데이터를 이용해야 된다.

이 과목은 프로그래밍 언어를 가르치는 것은 아니다.

주로 빅데이터 이론에 대해서 배웠고, 분석 방법도 이론만 배웠다.

교양 과목이었지만, python 언어를 활용할 수 있기 때문에

다른 수강생들과 차이점을 두기 위해 python을 이용해서 분석하기로 마음을 먹었다.

참고문헌 포함하여 10페이지 안으로 보고서를 작성해야 되기 때문에

많은 내용을 담지는 못하지만, 대충 하는 성격은 못되어서 보고서에 담지 못한 내용까지 포함하여

블로그에 정리를 하려고 한다.

결과부터 말하자면 기말과제는 만점을 받았고, 학점은 A+을 받았다.

보고서에 적은 순서로 포스팅을 할 예정이다.

1. Project 목적

2. 배경 및 필요성

3. 데이터 수집 및 전처리

4. 데이터 분석

5. 결론

언어 : Python

사용 라이브러리 : pandas, folium, googlemaps

# 필요 라이브러리 import import pandas as pd import folium import folium.plugins as plugins import googlemaps

참고로 해당 프로젝트는 2021년 6~7월에 진행한 것이라서 지금이랑 코로나 상황이 많이 다르다.

500~1500명 정도로 지금보다는 확연히 적은 수이지만, 물론 이때도 심각하였고 거리두기를 강화해서 저녁 10시 제한이 걸려있는 상황이다.

[ Project 목적 ]

중학생 때부터 지겹도록 서울 지하철을 많이 타고 다녔다. 물론 지금도 지겹도록 타고 있다.

아침 출근시간, 저녁 퇴근시간을 보면 유동인구가 많은 역에는 역무원들이 추가로 배치되어 있는 것을 볼 수 있다.

구토나 음식물로 인하여 전철이 오염되거나 갑작스러운 상황을 미리 대비하기 위해 적은 직원들을 효율적으로 배치하고 집중 분배를 시킬 필요가 있다.

집중분배를 하기 위해 승·하차 인원 정보 데이터를 이용하여 언제, 어디에 사람들이 제일 많이 모이는지 확인한다.

특히 거리두기 강화로 저녁 10시에 승·하차인원이 급증하게 되는데 이때 어느 지하철역의 사람이 제일 많이 모이는지 확인한다.

이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 수 있도록 도움을 주고자 한다.

(물론, 이미 데이터 분석을 통해서 효율적으로 배치하고 있을 것이다.)

[ Project 배경 및 필요성 ]

옛날에도 자주 겪었고, 최근에 또 겪었던 일이 있다.

학교를 다닐 때 지하철 마지막 차를 많이 탔었는데 술을 먹고 타는 사람들이 굉장히 많았다.

그래서 마지막 차를 타면 높은 확률로 구토를 자주 본다.🤮🤮

이제는 사회적 거리두기 강화로 인하여 저녁 10시가 되면 식당 문을 닫아서 저녁 10시까지 빠르게 먹고 지하철을 타는 사람들이 많다. (이때는 저녁 10시였다.)

마지막 차처럼 술에 취한 사람도 많지만, 사람도 많아서 구토를 발견하면 너무 큰 피해를 준다.

지하철 안에서 구토를 하거나 음식물을 흘린 사람들은 휴지 같은 닦을 것이 없어서 못 치워서 주변 사람들에게 휴지가 있는지 물어봐서 치우는 게 정상이지만, 대부분은 다른 칸으로 가던가 그냥 나가버린다.

객실 내부의 청소는 보통 종착역에 도착했을 때 하기 때문에, 종착역 도착하기 전에 오염이 되면 좌석에 앉지도 못하고 냄새로 인하여 주변에 여러모로 피해가 많기 때문에 신속한 처리가 필요하다고 본다.

목적에도 말하였듯이 출퇴근 시간에 사람들이 많이 몰리는 지하철역에는 직원이 앞뒤로 1명씩 배치가 되어있는 것을 종종 본다. 하지만, 그렇지 않은 역이 대부분이고 지하철 운행하는 기관사분이 마이크를 통해 말을 하여도 통제가 전혀 되지 않는다. 이러면 다음 열차부터 계속 지연되어서 몇 백에서 몇 천이 피해를 보는 것이다.

이런 피해를 자주 당해서 언제 어디에 승객들이 많이 몰리는지 알려주어야겠다는 필요성을 느꼈다.

해결하기 위해서 직원을 더 뽑는 방안도 있다.

하지만 2021년 코로나19와 우대권 등의 관한 문제로 인하여 서울교통공사의 예상 적자가 1조 넘게 발생하였고, 적자는 점점 늘어나고 있다.

관련 뉴스 : https://www.news1.kr/articles/?4332941

큰 폭으로 적자가 증가하고 있다.

덩달이 직원도 감축하기 때문에 더 채용하거나 근무시간을 늘리는 것은 불가능하다.

그래서 남은 직원을 이용하여 효율적으로 운영시키는 것이 필요하다.

이것에 대해서 여러 조사를 하다가 서울교통공사가 적자라는 것에 대해 크게 와닿은 영상이 있었다.

인형을 팔았다는 사실을 이 영상 보고 알았지만, 적자가 심각하다는 것을 각인시킨 영상이었다.

[ 데이터 수집 및 전처리 ]

데이터 수집

데이터는 [서울시 지하철 호선별 역별 시간대별 승·하차 인원 정보]를 이용하였고, [서울 열린 데이터 광장]에서 수집하였다.

이 데이터는 티머니로부터 제공받았다고 한다.

http://data.seoul.go.kr/dataList/OA-12252/S/1/datasetView.do

2015.01부터 2021.05까지의 승·하차 인원 수가 적혀 있는 데이터이다.

데이터는 정형 데이터로 되어있고, 속성은 [사용 월, 호선명, 지하철역, 시간별 승·하차인원]으로 총 52개로 구성되어있다.

# 승하차 인원정보 (2021.05~2015.01) station_people = pd.read_csv(‘서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv’,encoding=’EUC-KR’) # info station_people.info()

컬럼이 너무 많아서 짤렸지만 03시~04시까지 있다.

# size station_people.shape

행은 44730개가 있고 총 52개의 열로 구성되어있다.

데이터 전처리 1 – 지하철역 위치

역 위치를 파악하여 지도를 통해 시각화를 하기 위해 folium라이브러리를 사용하였고, 지하철역 위경도를 뽑기 위해 googlemaps 라이브러리를 사용했다.

후에 설명을 하겠지만, 이런 식으로 시각화를 도와주는 라이브러리들이다.

시각화를 위해서는 우선적으로 지하철역의 위경도를 알아야 한다.

해당 데이터셋에 위경도 관련 정보를 없기 때문에 위경도가 있는 데이터셋을 찾아보려고 했으나, 마땅한 데이터가 없어서 포기하고 googlemaps 라이브러리를 이용해 위경도를 추가하였다.

※ 관련 내용은 밑 블로그 게시글을 참고

https://eunjin3786.tistory.com/304

# data read address_station = pd.read_csv(‘서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv’,encoding=’EUC-KR’) # 호선명이랑 지하철 역 정보만 추출 address_station=address_station.loc[address_station[‘사용월’]==202105,:] address_station=address_station[[‘호선명’,’지하철역’]]

서울 지하철역이 새로 생기는 것도 있고, 없어지는 것도 있기 때문에 제일 최근 값인 21년 5월에 승·하차 데이터가 발생한 지하철역을 가지고 왔다.

호선명은 역 이름이 같은 경우 구분하기 위해서 가져왔다. (양평 – 중앙선, 5호선)

# 정확한 위도와 경도를 얻기위해 역 추가 for i in address_station.index: station=”.join(list(address_station.loc[i,[‘지하철역’]])) if station[-1] != ‘역’: address_station.loc[i,[‘지하철역’]] = station+’역’

구글맵에서 위경도 값을 가져오기 때문에 검색을 위해서 정확한 지하철역 이름으로 했다.

my_key = “******************************************” maps = googlemaps.Client(key=my_key) lat = [] #위도 lng = [] #경도 # 위치를 찾을 장소나 주소를 넣어준다. places = list(address_station[‘지하철역’]) i=0 for place in places: i = i + 1 try: geo_location = maps.geocode(place)[0].get(‘geometry’) lat.append(geo_location[‘location’][‘lat’]) lng.append(geo_location[‘location’][‘lng’]) except: lat.append(”) lng.append(”) print(“%d번 인덱스 위치를 찾는데 실패했습니다.”%(i)) # 데이터프레임만들어 출력하기 df = pd.DataFrame({‘위도’:lat, ‘경도’:lng}, index=places) print(df)

위 코드 결과

208번 인덱스를 제외하고 나머지의 위·경도는 잘 찾은 모습이다.

address_station[‘위도’]=lat address_station[‘경도’]=lng # 동일한 역 처리 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’5호선’),[‘위도’]]= 37.526226 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’5호선’),[‘경도’]]= 126.8844202 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’중앙선’),[‘위도’]]= 37.4927357 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’중앙선’),[‘경도’]]= 127.4896358 # 위도 경도 못찾는 역 삽입 address_station.loc[(address_station[‘지하철역’]==’증산(명지대앞)역’),[‘위도’]]= 37.5819884 address_station.loc[(address_station[‘지하철역’]==’증산(명지대앞)역’),[‘경도’]]= 126.9101305

이름이 동일한 역의 위·경도를 수정하고 208번 인덱스(‘증산(명지대앞)역’) 위·경도를 추가했다.

# 서울시 중심부의 위도, 경도 입니다. center = [37.541, 126.986] # 맵이 center 에 위치하고, zoom 레벨은 11로 시작하는 맵 m을 만듭니다. m = folium.Map(location=center, zoom_start=10) # 컬러 딕셔너리 (6호선 색깔이 없어서 검정으로 대체) c_dic = {‘1호선’:’darkblue’,’2호선’:’green’,’3호선’:’orange’,’4호선’:’lightblue’,’5호선’:’darkpurple’,’6호선’:’black’,’7호선’:’darkgreen’,’8호선’:’pink’,’9호선’:’beige’,’중앙선’:’blue’, ‘9호선2~3단계’:’beige’,’경강선’:’cadetblue’,’경부선’:’cadetblue’,’경원선’:’cadetblue’,’경의선’:’cadetblue’,’경인선’:’cadetblue’,’경춘선’:’blue’,’공항철도 1호선’:’cadetblue’,’과천선’:’cadetblue’,’분당선’:’lightred’ ,’수인선’:’lightred’,’안산선’:’red’,’우이신설선’:’cadetblue’,’일산선’:’red’,’장항선’:’cadetblue’} # Choropleth 레이어를 만들고, 맵 m에 추가합니다. for i in address_station.index: folium.Marker( location = list(address_station.loc[i,[‘위도’, ‘경도’]]), popup = address_station.loc[i, ‘지하철역’], icon=folium.Icon(color=c_dic[address_station.loc[i, ‘호선명’]],icon=’star’) ).add_to(m) # 맵 m을 저장 m.save(‘map.html’)

folium 라이브러리를 이용해서 지하철역마다 위·경도가 제대로 들어갔는지 확인했다.

호선 색깔을 최대한 현실 반영해서 만들었다.

지하철역위치.html 0.61MB

결괏값은 이런 식으로 나오고 확대·축소도 가능하다.

서울 지하철이 얼마나 많은지 한눈에 확인이 가능하다.

앞으로 위·경도 정보는 시각화할 때마다 사용하기 때문에 저장

# csv 저장 address_station.to_csv(“서울교통공사_역주소_위경도.csv”,index=False)

데이터 전처리 2 – 날짜 지정

해당 데이터는 2015.01부터 2021.05까지의 승하차 인원수가 있다.

그래서 코로나 상황이랑 그전에 있었던 상황이 많이 다르기 때문에,

코로나가 급격히 유행이 되면서 사회적 거리두기가 2단계로 격상된 2020년 8월부터 2021년 5월까지의 데이터만 가지고 왔다.

# 2020.08 그 전 데이터는 제외 for i in station_people.index: if int(station_people.loc[i,[‘사용월’]])==202007: break station_people = station_people.loc[:6041,:] station_people.shape # csv 저장 station_people.to_csv(“서울시 지하철 호선별 역별 시간대별 승하차 인원 정보_202008까지.csv”,index=False)

공공데이터라서 null값도 없고, 정형이기 때문에 전처리는 여기까지 했다.

이제 승차인원이 많은 곳은 어디인지, 하차인원이 많은 곳은 어디인지, 시각화를 통해서 분석을 할 예정이다.

다음 포스팅에서 이어짐..

키워드에 대한 정보 빅 데이터 분석 프로젝트 주제

다음은 Bing에서 빅 데이터 분석 프로젝트 주제 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 [프로젝트발표영상] 배달 매출 예측 분석

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기
[프로젝트발표영상] #배달 #매출 #예측 #분석


YouTube에서 빅 데이터 분석 프로젝트 주제 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 [프로젝트발표영상] 배달 매출 예측 분석 | 빅 데이터 분석 프로젝트 주제, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment