서울시 대중교통 개선 팀프로젝트7 - 데이터결합 및 EDA
최종 분석 주제 : 서울교통공사가 운영하는 지하철역들의 노인 이용 패턴과 접근성, 위험도 분석 후 지표화 및 개선사항 도출
오늘 할 일
- 여러 데이터 합치기
- EDA 시작
- 지표 점수화
오늘 한 일
- 여러 데이터 합치기: 전날 데이터 수집 및 전처리된 데이터 취합(지하철역별, 행정구별)
- 결합된 데이터 검증 : 팀원들이 작업한 결합데이터 검증
내일 할 일
- 업무분장 : 자치구별 데이터결합 / EDA(지하철역별) / 보고서 및 발표자료 초안
- 데이터 분석하다가 문제 생기면 EDA팀은 데이터 결합 팀에게 전달
Issues & Challenges
- 여러 데이터 합치기: 전날 데이터 수집 및 전처리된 데이터 취합(지하철역별, 행정구별)
- 지하철혼잡도와 연단정보를 혼잡도 버전과 지하철역버전으로 나눠서 추가
- 지하철역버전 반영시 열이 많아짐(열 250개 가량 추가), 대신 지하철역기준으로 원하는대로 EDA를 한파일에서 뽑아볼 수 있음
- 나중에 ‘지하철역별_노인승하차인원정보’와 겹치는 부분이 있고 이번 주제가 노인을 주제로 분석을 하기때문에 전체자료인 지하철혼잡도는 결합하지않고 따로 분석하는 용도로만 사용할 예정
- 지하철역별 노인승하차인원정보를 지하철역버전으로 변환하여 결합
- 지하철혼잡도와 연단정보를 혼잡도 버전과 지하철역버전으로 나눠서 추가
- 결합된 데이터 검증 : EDA시 클린데이터를 위해 팀원들이 작업한 결합데이터 검증, 결합과정에서 지하철역이 중복된 데이터 발견하여 피드백 후 조치
- 오늘의 팀 작업 결과물
Reflection
- 수집한 데이터가 많다보니 데이터를 결합하는데 시간이 많이 소요됐다. 특히 익숙한 엑셀로 작업하면 작업난이도가 줄어들겠지만, 공부할겸 익숙하지않은 파이썬으로 하다보니 영 쉽지않다. 아직 파이썬에대해 공부한지 1개월정도 지났기때문에 3개월정도는 적응이 필요해 계속 사용해봐야겠다. 서로 작업한 데이터를 검증하고 도움도받고 그과정에서 새로배우는부분이 많아서 시간이 참 빨리 흘러간다.
This post is licensed under CC BY 4.0 by the author.