서울시 대중교통 개선 팀프로젝트9 - 지표화 및 작업물 취합
최종 분석 주제 : 서울교통공사가 운영하는 지하철역들의 노인 이용 패턴과 접근성, 위험도 분석 후 지표화 및 개선사항 도출
오늘 할 일
- 팀원별 맡은업무 집중!
- 보고서 : 온
- 코랩 데이터 취합 : 선혁
- 가설(설정, 검정) 및 지표화 : 성혁, 유진
- 사과따기 : 성학
오늘 한 일
- 코랩 데이터 취합: 팀원들이 개별적으로 진행한 코딩들을 보기좋게 하나로 취합
내일 할 일
- 작업물(보고서, 코랩, PPT 등) 초안 작성 후 팀회의
Issues & Challenges
- 지표화 점검 :
- 클러스터링으로 지하철역별 노인하차인원 대비 안전성과 접근성 관점에서 지표화
- 대시보드로 지하철역별 지표화 점수를 지도로 구현, 지하철역 버전도 고려했는데 일이 복잡해져 일단 지도로만
- 정해진 지표를 바탕으로 팀원별 업무배분하여 보고서, 코랩 등 작업물 생성
- 코랩 데이터 취합: 팀원들이 개별적으로 진행한 코딩들을 보기좋게 하나로 취합 (작업중)
1. 분석 주제 정의
- 1-1. 분석 주제
- 고령화가 빠르게 진행되고 있어 노인 친화적이지 않은 지역을 사전에 파악하여 개선
- 지하철역별 노인하차인원 대비 안전성과 접근성 지표 생성
- 1-2. 분석 목표 : 안전성이나 접근성 지표가 낮은 지하철역을 선별하여 개선방안 제언
2. 데이터수집 및 전처리
2-1. 데이터 설명
- 지하철역 관련 : 메인으로 사용할 데이터
- 자치구 관련 : 메인데이터 분석후 상황에 따라 자치구 별로 추가 분석 진행
데이터 수집 | 데이터 전처리 및 결합 | ||||
---|---|---|---|---|---|
구분 | 번호(데이터프레임) | 데이터 설명 | 데이터출처 | 변수선택 | 파생변수 생성 |
지하철역 | subway_df101 | 서울교통공사 지하철 역주소(호선, 역명, 주소) | 서울 열린데이터 광장 | 호선, 역명, 도로명주소, 지번주소 (4개) | 행정구 (1개) |
지하철역 | subway_df102 | 지하철역별 위도, 경도 정보 | 서울 열린데이터 광장 | 위도, 경도 (2개) | |
지하철역 | subway_df103 | 지하철역별 엘리베이터, 에스컬레이터, 휠체어리프트, 무빙워크 수 | 서울 열린데이터 광장 | 지하철역별 엘리베이터, 에스컬레이터, 휠체어리프트, 무빙워크 수 (4개) | |
지하철역 | subway_df104 | 2019-2023년 서울교통공사 지하철 사고 현황 | 공공데이터포털 | 지하철역별 최근 5년간 안전사고 발생 횟수 (1개) | |
지하철역 | subway_df105 | 지하철역별 승강장관련 정보(연단간격, 높이차, 곡선/직선 여부) | 서울 열린데이터 광장 | 지하철역별 연단간격 높음수, 높이차 높음수 (2개) | |
지하철역 | subway_df106 | 2015-01~2024-07 월별 지하철역별 유임/무임 승차/하차 인원수 | 서울 열린데이터 광장 | 2023년 월평균 지하철역별 (유임/무임) & (승차/하차) 인원수 (4개) | |
지하철역 | subway_df107 | 2023-01-01~2023-09-30 일별 지하철역별 시간대별(06시이전, 1시간간격 18개, 24시이후, 총20개 컬럼) 노인 승차/하차 인원수 | 공공데이터포털 | 2023년 일평균 지하철역별 (평일/토요일/일요일) & (승차/하차) & 시간대별(20개) 노인 인원수(3x2x20 = 120개), 역코드, 총 승하차인원수 (총 122개) | |
지하철역 | subway_df108 | 전국전통시장표준데이터(지하철역별 인접시장 산출 목적) | 공공데이터포털 | 지하철역별 500m이내 전통시장수 (1개) | |
지하철역 | subway_df109 | 지하철역 주변시설 | 공공데이터포털 api활용 | 지하철역별 공원, 행정시설, 의료시설, 복지시설, 종교시설 수 (5개) | |
자치구 | gu_df201 | 2023년 자치구별 연령별 인구현황 | 행정안전부 | 자치구별 고령인구 (총합/남자/여자) & (인구수/고령인구비율) (3x2 = 6개) | |
자치구 | gu_df202 | 2023년 자치구별 노인여가시설과 노인복지시설 수 | 서울 열린데이터 광장 | 자치구별 노인복지관, 경로당, 노인교실, 총합 수 (4개) | |
자치구 | gu_df203 | 자치구별 지하철역 정보 | 공공데이터포털 | 자치구별 지하철역 개수 (1개) | |
자치구 | gu_df204 | 서울시 소방서, 안전센터, 구조대 위치정보 | 서울 열린데이터 광장 | 자치구별 소방서 수 (1개) |
2-2. 데이터전처리 및 결합 : 수집된 데이터를 지하철역별/자치구별 ID선정 후 데이터 결합
- 지하철역 관련 :
- 각 데이터를 ‘서울교통공사 역주소(규칙적용).csv’에서 ‘호선’,’역명’ 컬럼 기준 통일
- 호선 : 숫자로 변경 (1호선 → 1)
- 역명 : ~’역’ 제거 (서울역 → 서울), 괄호 제거 (교대(법원.검찰청) → 교대)
- 결합 후 결측치 제거 :
- 9호선(13개역), 신내, 연신내, 충무로역 제거 : 미기입정보로 인해 원활한 분석 불가
- 각 데이터를 ‘서울교통공사 역주소(규칙적용).csv’에서 ‘호선’,’역명’ 컬럼 기준 통일
- 자치구 관련 : 서울시 행정구 기준으로 통일
3. EDA
- 데이터설명
4. 데이터 분석(지하철역별 안전성, 접근성 지표화)
Reflection
- 다음 프로젝트에서는 팀프로젝트 코딩취합을 반드시 처음부터 시작할수있게 버전관리 툴 등을 이용해야겠다. 팀원별 각각 작성된 코딩으로 완성된 데이터를 역추적해서 하나의 코딩파일로 다시만드는게 쉽지않다. 데이터를 결합하는과정에서 처음에 작업했던것이 빠진것도 있고, 작업을했지만 데이터결합을 안한 코드들도있다. 팀원들의 코딩파일들을 보면서 했던것과 안했던것, 했는데 중간에 빼버린것 등 분류작업에 시간이 많이소요됐다. 처음부터 버전관리 툴을 사용하고 규칙을 정했다면 처음만 시간이 걸리지 효율적이라고 생각한다. 다음부터는 반드시 릴리즈버전을 만들어야겠다.
This post is licensed under CC BY 4.0 by the author.