Post

서울시 대중교통 개선 팀프로젝트7 - 데이터결합 및 EDA

최종 분석 주제 : 서울교통공사가 운영하는 지하철역들의 노인 이용 패턴과 접근성, 위험도 분석 후 지표화 및 개선사항 도출

오늘 할 일

  • 여러 데이터 합치기
  • EDA 시작
  • 지표 점수화

오늘 한 일

  1. 여러 데이터 합치기: 전날 데이터 수집 및 전처리된 데이터 취합(지하철역별, 행정구별)
  2. 결합된 데이터 검증 : 팀원들이 작업한 결합데이터 검증

내일 할 일

  • 업무분장 : 자치구별 데이터결합 / EDA(지하철역별) / 보고서 및 발표자료 초안
  • 데이터 분석하다가 문제 생기면 EDA팀은 데이터 결합 팀에게 전달

Issues & Challenges

  • 여러 데이터 합치기: 전날 데이터 수집 및 전처리된 데이터 취합(지하철역별, 행정구별)
    • 지하철혼잡도와 연단정보를 혼잡도 버전과 지하철역버전으로 나눠서 추가
      • 지하철역버전 반영시 열이 많아짐(열 250개 가량 추가), 대신 지하철역기준으로 원하는대로 EDA를 한파일에서 뽑아볼 수 있음
      • 나중에 ‘지하철역별_노인승하차인원정보’와 겹치는 부분이 있고 이번 주제가 노인을 주제로 분석을 하기때문에 전체자료인 지하철혼잡도는 결합하지않고 따로 분석하는 용도로만 사용할 예정
    • 지하철역별 노인승하차인원정보를 지하철역버전으로 변환하여 결합
      • 2023-01-01 ~ 2023-09-30 일별 지하철역 별 시간대 별 노인승하차인원
      • → 지하철역 별 요일구분 별 승하차구분 별 9개월 평균인원정보
        • 요일구분(평일/토요일/일요일) 범주형자료 → 컬럼화
        • 승하차구분(승차/하차) 범주형자료 → 컬럼화 ex) ㅇㅇ역 ‘평일-승차-06시간대이전’, ‘일요일-하차-24시간대이후’
        • 작업일부 : 2023-01 ~ 2023-09 일별 9개월 데이터를 평일/토요일/일요일로 취합후 평균적용하여 승하차범주와 시간대별 변수들과 결합하여 컬럼화 진행

        데이터결합1

        데이터결합2-일별을 평일/토요일/일요일 취합후 평균적용

        데이터변환후 컬럼명(120개 증가)

        • 지하철역 별 결합데이터와 취합

        지하철역별 결합된데이터에 추가

  • 결합된 데이터 검증 : EDA시 클린데이터를 위해 팀원들이 작업한 결합데이터 검증, 결합과정에서 지하철역이 중복된 데이터 발견하여 피드백 후 조치
    • 오늘의 팀 작업 결과물

    오늘의 팀 결과물

Reflection

  • 수집한 데이터가 많다보니 데이터를 결합하는데 시간이 많이 소요됐다. 특히 익숙한 엑셀로 작업하면 작업난이도가 줄어들겠지만, 공부할겸 익숙하지않은 파이썬으로 하다보니 영 쉽지않다. 아직 파이썬에대해 공부한지 1개월정도 지났기때문에 3개월정도는 적응이 필요해 계속 사용해봐야겠다. 서로 작업한 데이터를 검증하고 도움도받고 그과정에서 새로배우는부분이 많아서 시간이 참 빨리 흘러간다.
This post is licensed under CC BY 4.0 by the author.