서울시 대중교통 개선 팀프로젝트10 - 보고서 제출
- 서울시 대중교통 개선 팀프로젝트11 - 팀프로젝트 발표
- 서울시 대중교통 개선 팀프로젝트9 - 지표화 및 작업물 취합
- 서울시 대중교통 개선 팀프로젝트8 - EDA
- 서울시 대중교통 개선 팀프로젝트7 - 데이터결합 및 EDA
- 서울시 대중교통 개선 팀프로젝트6 - 주제확정 및 데이터전처리
- 서울시 대중교통 개선 팀프로젝트5 - 방향정리
- 서울시 대중교통 개선 팀프로젝트4 - 배경 재논의 및 데이터수집
- 서울시 대중교통 개선 팀프로젝트3 - 역할세분화 및 배경조사와 데이터수집
- 서울시 대중교통 개선 팀프로젝트2 - 주제선정
- 서울시 대중교통 개선 팀프로젝트1 - 주제탐색
최종 분석 주제 : 서울교통공사가 운영하는 지하철역들의 노인 이용 패턴과 접근성, 위험도 분석 후 지표화 및 개선사항 도출
오늘 할 일
- 코랩 데이터 취합
- 지표화 회의
- 보고서 정리후 결과물 제출
오늘 한 일
- 코랩 데이터 취합: 데이터 수집 부터 전처리, EDA, 지표화 분석 까지 하나로 취합
- 지표화 회의 : 회귀분석, 클러스터링 등 안전성과 접근성 지표화 방안 논의
- 보고서 정리후 결과물 제출: 지표화 선정후 보고서 방향 논의
내일 할 일
- 팀프로젝트 발표
Issues & Challenges
코랩 데이터 취합: ~EDA까지 완성하고, 지표화 회의 후 추가
1. 분석 주제 정의
- 1-1. 분석 주제
- 고령화가 빠르게 진행되고 있어 노인 친화적이지 않은 지역을 사전에 파악하여 개선
- 지하철역별 노인하차인원 대비 안전성과 접근성 지표 생성
- 1-2. 분석 목표 : 안전성이나 접근성 지표가 낮은 지하철역을 선별하여 개선방안 제언
2. 데이터수집 및 전처리
2-1. 데이터 설명
- 지하철역 관련 : 메인으로 사용할 데이터
- 자치구 관련 : 메인데이터 분석후 상황에 따라 자치구 별로 추가 분석 진행
데이터 수집 | 데이터 전처리 및 결합 | ||||
---|---|---|---|---|---|
구분 | 번호(데이터프레임) | 데이터 설명 | 데이터출처 | 변수선택 | 파생변수 생성 |
지하철역 | subway_df101 | 서울교통공사 지하철 역주소(호선, 역명, 주소) | 서울 열린데이터 광장https://data.seoul.go.kr/dataList/OA-12035/A/1/datasetView.do | 호선, 역명, 도로명주소, 지번주소 (4개) | 행정구 (1개) |
지하철역 | subway_df102 | 지하철역별 위도, 경도 정보 | 서울 열린데이터 광장https://data.seoul.go.kr/dataList/OA-21232/S/1/datasetView.do | 위도, 경도 (2개) | |
지하철역 | subway_df103 | 지하철역별 엘리베이터, 에스컬레이터, 휠체어리프트, 무빙워크 수 | 서울 열린데이터 광장https://data.seoul.go.kr/dataList/OA-11573/S/1/datasetView.do | 지하철역별 엘리베이터, 에스컬레이터, 휠체어리프트, 무빙워크 수 (4개) | |
지하철역 | subway_df104 | 2019-2023년 서울교통공사 지하철 사고 현황 | 공공데이터포털https://www.data.go.kr/data/15112860/fileData.do | 지하철역별 최근 5년간 안전사고 발생 횟수 (1개) | |
지하철역 | subway_df105 | 지하철역별 승강장관련 정보(연단간격, 높이차, 곡선/직선 여부) | 서울 열린데이터 광장https://data.seoul.go.kr/dataList/OA-22124/S/1/datasetView.do | 지하철역별 연단간격 높음수, 높이차 높음수 (2개) | |
지하철역 | subway_df106 | 2015-01~2024-07 월별 지하철역별 유임/무임 승차/하차 인원수 | 서울 열린데이터 광장https://data.seoul.go.kr/dataList/OA-12251/S/1/datasetView.do | 2023년 월평균 지하철역별 (유임/무임) & (승차/하차) 인원수 (4개) | |
지하철역 | subway_df107 | 2023-01-01~2023-09-30 일별 지하철역별 시간대별(06시이전, 1시간간격 18개, 24시이후, 총20개 컬럼) 노인 승차/하차 인원수 | 공공데이터포털https://www.data.go.kr/data/15101985/fileData.do | 2023년 일평균 지하철역별 (평일/토요일/일요일) & (승차/하차) & 시간대별(20개) 노인 인원수(3X2X20 = 120개), 역코드, 총 승하차인원수 (총 122개) | |
지하철역 | subway_df108 | 전국전통시장표준데이터(지하철역별 인접시장 산출 목적) | 공공데이터포털https://www.data.go.kr/data/15012894/standard.do | 지하철역별 500m이내 전통시장수 (1개) | |
지하철역 | subway_df109 | 지하철역 주변시설 | 공공데이터포털 api활용 | 지하철역별 공원, 행정시설, 의료시설, 복지시설, 종교시설 수 (5개) | |
자치구 | gu_df201 | 2023년 자치구별 연령별 인구현황 | 행정안전부https://jumin.mois.go.kr/ageStatMonth.do | 자치구별 고령인구 (총합/남자/여자) & (인구수/고령인구비율) (3X2 = 6개) | |
자치구 | gu_df202 | 2023년 자치구별 노인여가시설과 노인복지시설 수 | 서울 열린데이터 광장https://data.seoul.go.kr/dataList/54/S/2/datasetView.do | 자치구별 노인복지관, 경로당, 노인교실, 총합 수 (4개) | |
자치구 | gu_df203 | 자치구별 지하철역 정보 | 공공데이터포털https://www.data.go.kr/data/15081868/fileData.do | 자치구별 지하철역 개수 (1개) | |
자치구 | gu_df204 | 서울시 소방서, 안전센터, 구조대 위치정보 | 서울 열린데이터 광장https://data.seoul.go.kr/dataList/OA-21072/S/1/datasetView.do | 자치구별 소방서 수 (1개) |
2-2. 데이터전처리 및 결합
- 수집된 데이터를 지하철역별/자치구별 ID선정 후 데이터 결합
- 지하철역 관련 :
- 각 데이터를 ‘서울교통공사 역주소(규칙적용).csv’에서 ‘호선’,’역명’ 컬럼 기준 통일
- 호선 : 숫자로 변경 (1호선 → 1)
- 역명 : ~’역’ 제거 (서울역 → 서울), 괄호 제거 (교대(법원.검찰청) → 교대)
- 결합 후 결측치 제거 :
- 9호선(13개역), 6호선(신내, 연신내), 3호선 충무로역 제거 : 미기입정보로 인해 원활한 분석 불가
- 자치구 관련 : 서울시 ‘행정구’ 기준으로 통일
- 9호선(13개역), 6호선(신내, 연신내), 3호선 충무로역 제거 : 미기입정보로 인해 원활한 분석 불가
3. EDA
- 데이터설명
구분 | 변수명 | 설명 | 예시 |
---|---|---|---|
지하철역 | 호선 | 지하철역 호선 | 1 |
지하철역 | 역명 | 지하철 호선별 역명 | 잠실, 시청, 동묘앞 |
지하철역 | 도로명주소 | 지하철역 도로명주소 | 서울특별시 종로구 종로 359(숭인동) |
지하철역 | 지번주소 | 지하철역 지번주소 | 서울특별시 종로구 숭인동 117 동묘앞역(1호선) |
지하철역 | 행정구 | 지하철역 행정구 | 종로구 |
지하철역 | 위도 | 지하철역 위도 | 37.573197 |
지하철역 | 경도 | 지하철역 경도 | 127.01648 |
지하철역 | 엘리베이터(E/V) | 지하철역 엘리베이터 수 | 2 |
지하철역 | 에스컬레이터(E/S) | 지하철역 에스컬레이터 수 | 3 |
지하철역 | 휠체어리프트(W/L) | 지하철역 휠체어리프트 수 | 4 |
지하철역 | 수평자동보도(M/W) | 지하철역 수평자동보도(무빙워크) 수 | 5 |
지하철역 | 5년간 안전사고 발생 횟수 | 지하철역별 최근 5년간(2019-2023) 안전사고 발생횟수 | 3 |
지하철역 | 연단간격 높음 수 | 지하철역별 승강장과 연단간격(열차문과 바로앞 땅 사이의 거리)이 넓은 승강장 수 | 6 |
지하철역 | 높이차 높음 수 | 지하철역별 승강장과 높이차(열차문과 바로앞 땅 사이의 높이차)가 높은 승강장 수 | 5 |
지하철역 | 유임승차인원 | 2023년 월평균 지하철역별 유임승차 인원수 | 140257.25 |
지하철역 | 유임하차인원 | 2023년 월평균 지하철역별 유임하차 인원수 | 147059.9167 |
지하철역 | 무임승차인원 | 2023년 월평균 지하철역별 무임승차 인원수 | 153127.6667 |
지하철역 | 무임하차인원 | 2023년 월평균 지하철역별 무임하차 인원수 | 155085.25 |
지하철역 | 역코드 | 지하철 호선별 역명 코드 | 159 |
지하철역 | 일요일-승차-06-07시간대 | 2023년 일평균 지하철역별 일요일 06시~07시 승차 노인 인원수 | 16 |
지하철역 | … (총 120개 열) | 2023년 일평균 지하철역별 (평일/토요일/일요일) & (승차/하차) & 시간대별(06시이전, 1시간간격 18개, 24시이후) 노인 인원수 | 36 |
지하철역 | 평일-하차-24시간대이후 | 2023년 일평균 지하철역별 평일 24시이후 하차 노인 인원수 | 26 |
지하철역 | 총승하차인원 | 2023년 일평균 지하철역별 노인 승하차 인원수 | 30662 |
지하철역 | 전통시장수(500m이내) | 지하철역별 500m이내 전통시장수 | 2 |
지하철역 | 공원 | 지하철역별 공원 수 | 1 |
지하철역 | 행정시설 | 지하철역별 행정시설 수 | 0 |
지하철역 | 의료시설 | 지하철역별 의료시설 수 | 3 |
지하철역 | 복지시설 | 지하철역별 복지시설 수 | 1 |
지하철역 | 종교시설 | 지하철역별 종교시설 수 | 0 |
자치구 | 고령인구_총합 | 2023년 자치구별 고령인구 수 | 86434 |
자치구 | 고령인구_남자 | 2023년 자치구별 고령인구 남자 수 | 38798 |
자치구 | 고령인구_여자 | 2023년 자치구별 고령인구 여자 수 | 47636 |
자치구 | 고령인구비율_전체 | 2023년 자치구별 고령인구비율 | 15.9 |
자치구 | 고령인구비율_남자 | 2023년 자치구별 남자 고령인구비율 | 14.9 |
자치구 | 고령인구비율_여자 | 2023년 자치구별 여자 고령인구비율 | 16.8 |
자치구 | 노인복지관 시설수 | 2023년 자치구별 노인복지관 시설수 | 6 |
자치구 | 경로당 수 | 2023년 자치구별 경로당 수 | 176 |
자치구 | 노인교실 수 | 2023년 자치구별 노인교실 수 | 21 |
자치구 | 노인여가복지시설 총합 | 2023년 자치구별 노인여가복지시설 총합 | 203 |
자치구 | 지하철역 개수 | 자치구별 지하철역 개수 | 21 |
자치구 | 소방서 수 | 자치구별 소방서 수 | 8 |
4. 데이터 분석(지하철역별 안전성, 접근성 지표화)
지표화 회의 : 회귀분석, 클러스터링 등 안전성과 접근성 지표화 방안 논의
- 처음에는 자체회의와 멘토링을 거쳐 클러스터링을 통해 지표화하는 방안을 모색
- 지표화하는 것은 좋지만 가중치에 대한 명확한 근거가 부족하다고 판단
- 또한, 클러스터링을 아직 배우지않았고, 일부 전공자만 알고있는 부분에 대해 발표를 듣는 수강생들에게도 PPT내용을 이해시키는데 많은시간이 소요되고 매끄러운 진행에 어려움이 있을것이라 판단
- → 회귀분석을 통해 지표화하는 방향으로 선회, 클러스터링은 번외로 ‘이런 방법도 해봤다’ 기재
보고서 정리후 결과물 제출: 지표화 선정후 보고서 방향 논의
- 전반적으로 보고서 담당자가 초안을 작성하였고, 보완이 필요한부분들을 팀원들이 자료를 보충하여 보고서 완성도를 높임. 20분 내 발표가 끝나도록 적절하게 스크립트 등 발표자료 조정.
Reflection
- 3일동안 팀프로젝트 코딩 작업물을 하나로 취합하는데 시간을 투자했다. 제일 간단한 초급프로젝트였는데도 불구하고 그동안 팀원들이 작업한 무수한 코딩파일과 코딩하면서 섞여버린 원데이터와 공유되지않았던 원데이터들, 중간에 가공하고 코딩한 내용들, 또 중간에 회의후 바뀐내용들… 이 과정을 오로지 결합된 완성데이터 하나를 역으로 추적해서 다시만드는것이 초급프로젝트라 가능했던것같다. 다음 프로젝트에서는 사전에 준비했으면 좋았을법한 과정들을 체크해서 업무노동을 줄여야겠다.
- 우리가 분석주제를 원활한 주제에서 좀 더 도전적인 주제로 바꾸면서 분석결과를 도출하는데 어려움이 있었다. 근본적인원인은 알고있던 지식에서 분석결과를 도출하는데 한계가 있었다. 그래서 멘토링이나 전공자의 지식을 빌려 배우지않은 모델링 분석기법을 사용하기도하고, 다시 회귀분석으로 돌아오기도 했다. 이과정에서 몰랐던 지식들을 이해하는데 도움이됐고, 아마 설명해주는 팀원도 도움이 됐을거라 생각한다. 결과적으로 팀원별로 각각 잘하는 분야가 있어서 좋은시너지가 발생해 여러 아이디어들이 나오고, 그중에서 일부만 사용할 수 밖에 없었다. 이번 프로젝트가 끝나고 어느정도 지식을 더 쌓은뒤 데이터 혹은 지식이 부족해서 보류했던 주제들을 다시 분석해보고싶다.
This post is licensed under CC BY 4.0 by the author.