Post

공유오피스 출입데이터 분석 팀프로젝트2 - 주제 선정

최종 분석 주제 : 공유오피스 무료 체험 유저의 유료 결제 전환 예측 및 데이터 수집 전략 제안

오늘 할 일

  • EDA 및 주제 선정

오늘 한 일

  1. EDA 및 주제 선정

내일 할 일

  • EDA 및 주제 선정(계속)

Issues & Challenges

프로젝트 개요

  • 공유오피스 출입데이터를 바탕으로 각종 비즈니스 지표의 추이를 예측하여 서비스의 개선 방향성을 제시
    • 공유오피스 서비스의 3일체험 신청, 신청자 일자별 방문 및 출입기록, 결제 여부, 지점별 면적 정보 등의 데이터가 담긴 데이터 셋이 제공
    • 지금까지 학습했던 데이터 분석 방법론 및 머신러닝 기법을 활용하여 서비스의 현재 상태를 분석하고, 향후 사업적인 관점에서의 개선점을 제안
      • ex1. 무료 유저의 유료 결제 전환율 예측 결과를 바탕으로 한 비즈니스 액션 제안
      • ex2. 유저의 오피스 이용량 시간 예측 결과로부터 도출한 개선안 제안
      • ex3. 유저의 방문일자 및 출입시간에 따른 방문 패턴 예측, 신규 상품 제안

데이터 설명

  • 공유오피스 서비스의 2년 8개월치(2021.05.01 ~ 2023.12.31) 데이터
  • 테이블명/테이블 설명/테이블별 주요 컬럼
#테이블명테이블 설명주요컬럼
1trial_register3일체험 신청유저id, 3일체험신청일시
2trial_visit_info3일체험 신청자 일자별 방문기록유저id, 날짜, 지점id, 최초입실시각, 최종퇴실시각, 체류시간
3trial_access_log3일체험 신청자 출입기록유저id, 지점id, timestamp, 출입방향
4trial_payment3일체험 신청자 결제 여부유저id, 결제여부
5site_area지점별 면적지점id, 지점 면적
  • 프로젝트 시 분석에 활용 가능한 외부 데이터 활용가능 (단, 제공받은 데이터셋이 메인이어야함)

해볼만한 주제찾기

  1. 지점별 성과 분석 및 방문자 수 예측을 통한 지점 운영 최적화 방안 제안
    1. 각 지점의 면적과 방문자 수, 결제 여부를 비교하여 성과를 평가하고
      1. 지점별 유료 전환율, 평균 체류시간, 방문자 수 등 비교
    2. 지점별 방문자 수를 예측하여 비즈니스 액션(개선할지 vs 폐쇄할지) 제안
      1. 개선방안 : 지점별 방문자 수에 따라 지점별 운영 시간을 조정하거나 인력 배치
      2. [심화-외부데이터] 지속가능성 검토 : 지점을 오피스상권(강남, 분당, 영등포)으로 가정하고 지속가능성 검토에 따른 폐점여부 결정
        • 지속가능성 여부? 6개월 이상 적자로 예상되는 지점, 다른지점대비 수익이 현저히 낮은곳
      요소 종류요소내부 데이터외부 데이터설명
      수익예상 방문자 수O trial_visit_info를 기반으로 예측할 수 있음
       유료 전환율O trial_payment 데이터를 분석하여 예측할 수 있음
       월간 이용권 가격 O시장 조사나 경쟁사 분석을 통해 확인
      ※ 월간 무제한 이용권 가격으로 가정
       추가 서비스 수익 O이용권 외 부가수익 찾아보기
      비용임대료 O오피스 상권(강남, 분당, 영등포)의 평수(50, 100, 150)에 따른 평균 임대료 파악
       소모품비 O평수(50, 100, 150)별 예상 소모품비 파악
       광고비 O연간 방문자수를 감안하여 예상 광고비 파악
      (광고비 파악이 힘들다면 제외하고 검토 가능)
       인건비(관리비) O평수에 따른 예상 인건비 파악
       운영 비용 O시설 운영에 필요한 기타 비용 파악
      지속가능성수익 - 비용   
      • 월간 이용권 가격은 우리가 추측한 공유오피스 기업 ‘집무실’에서의 기본회원권(월33,000원 + 매일 1시간 기본 + 추가이용시간당 3,300원 부과)은 없다고 가정하고, 일반적인 공유오피스 플랫폼들의 월간 무제한 이용권들의 가격을 가정할것
    3. EDA
      • 체험자의 유형(유료전환, 무료)에따른 지점 방문빈도 파악
      • 체험자가 인기없는 지점을 갔을때 다른 지점을 가서 유료로 전환되는지, 이용을 포기하는지 파악
      • 지점별 평일에 이용하는지, 주말에 이용하는지 파악
      • 유료전환 고객의 지점별 방문수 파악
      • 유료전환/무료 고객의 첫방문 지점과 주요방문지점, 마지막 방문지점 등을 분석 - 방문기록정보와 출입기록정보의 고유 유저 수가 일치하지 않음

    image.png

    • 지점관련 주제를 선정하는데 리스크가 크다 ⇒ 테이블별 하나라도 없는 지점데이터를 전부 제거해서 클린데이터로 분석방향 설정
      • 테이블 별 지점 정보가 일치하지 않음
      • trial_visit_info 데이터에 없는 47번 지점을 삭제하기에는 리스크가 크다
        • trial_access_log상 47번 지점 데이터는 2,717건 존재함

    image.png

image.png

image.png

  1. 무료 유저의 유료 결제 전환율 예측: 방문횟수, 체류시간, 방문한 지점수 등을 분석하여 유료결제 전환율 예측
    • 결제 전환 가능성이 높은 유저를 식별하여 체험기간 중 맞춤형 프로모션(할인쿠폰, 추가혜택 등) 제공
    • 무료체험 후 유료 결제로 이어질 수 있는 프로그램(이벤트, 추가혜택, 추가체험권 등) 기획
    • 유료전환 고객과 무료 고객의 체류시간을 비교하여 체류 시간을 늘릴 수 있는 서비스 추가

논의사항

  1. 지점id 전처리 : site_area, trial_visit_info, trial_access_log 테이블 별 지점id 종류수가 다름
    1. site_area(지점정보)와 trial_access_log(출입기록정보)의 지점id는 동일하나 방문기록정보와 다름
    2. trial_visit_info(방문기록정보)는 더많은 지점id가 있지만 47번 지점id 정보가 없음
    3. 47번 지점id는 출입기록정보에서 2,717건 정보와 294명의 고유유저수(약5%) 정보가 기록됨

    ⇒ 지점id는 모델 예측에 중요한 변수라고 판단하여 모든 테이블에 포함된 지점id만 사용하기로 결정

  2. 주제선정 : 지점별 전환율, 방문자 수, 유료전환 고객 수 등 좀 더 논의 필요
  3. 외부데이터 : 메인데이터가 정보가 별로 없으니 외부데이터를 권장함
    1. 모델링 활용 혹은 근거자료로 외부데이터 활용 적극 추천(강사님 피드백)
      1. 외부데이터를 사용하면 무엇을 사용하든 메인데이터보다 분석범위가 클수밖에없다
      2. 프로젝트 가이드라인에서는 외부데이터를 활용해도 제공받은 데이터가 메인으로 사용하는것을 명시함
      3. i번과 ii번을 모두 충족하는게 불가능함(이런 문제를 왜 수강생이 고민해야하는가?)
      4. 외부데이터를 활용하면 프로젝트 분석 논리는 추상적일수밖에없다. 이것이 옳은방향인가?
      5. 데이터분석가가 데이터분석을 하는이유는 무엇인가? 이 프로젝트는 적합한가?

Reflection

  • 이번에 제공받은 7메가짜리 데이터셋을 가지고 프로젝트를 지속할지 고민이 많았다. 제공한 교육기관에서도 부족한점을 느꼈는지 외부데이터 사용을 권장한다. 단, 외부데이터가 제공받은데이터보다 분석에 메인이되면 안된다고 한다. 상식적으로 7메가짜리 데이터셋을 외부데이터와 연계하면 주객전도는 불가피하다. 이런 이슈들을 왜 수강생이 고민해야하는지 아쉽다. 이번 프로젝트의 메인은 협업이다. 현업에서는 당연히 내가원치않은 프로젝트도 끌고가야한다. 다만, 포트폴리오를 작성하는 입장에서 제공받은 데이터셋의 아쉬움이 많을뿐이다. 차라리 캐글/공모전 등의 외부 데이터셋 선택권이 있었다면 어땠을까하는 생각이든다. 누굴 위한 프로젝트인가? 수강생을 위한 프로젝트라면 답을 찾을 수 없다. 하지만 교육기관을 위한 프로젝트라면 납득할 수 있다. 어찌됐든 프로젝트는 개인단위가 아니라 팀단위이다. 주어진 상황에서 팀을위해 최선을 다해야한다.
This post is licensed under CC BY 4.0 by the author.