Post

공유오피스 출입데이터 분석 팀프로젝트9 - 프로젝트 발표

최종 분석 주제 : 공유오피스 무료 체험 유저의 유료 결제 전환 예측 및 데이터 수집 전략 제안

오늘 할 일

  • 발표 자료 준비(주말) 및 프로젝트 발표

오늘 한 일

  1. 발표 자료 준비 및 프로젝트 발표
    1. 도입부 ~ EDA까지 발표 진행

내일 할 일

  • 남은 일정 최선을 다하기

Issues & Challenges

프로젝트 발표

  • 최종 분석 주제 : 공유오피스 무료 체험 유저의 유료 결제 전환 예측 및 데이터 수집 전략 제안
  • 발표 담당 : 도입부, 분석 배경 및 목적, 전처리, EDA (약 10분)
  • 목차(발표부분 볼드 처리)
    1. 분석 배경 및 목적
    2. 데이터 전처리
    3. EDA
    4. 모델링
    5. 분석 한계
    6. 개선 방향 제안

발표 내용 일부

image.png

  • 우리팀은 공유오피스 무료 체험 유저의 유료 전환을 예측하고, 예측 결과를 바탕으로 데이터 수집 전략을 제안하는 것을 주제로 선정하였다.

image.png

  • 공유오피스 A사는 신규 유저를 유입하기 위해 3일 무료 체험 서비스를 제공하고 있는데, 무료체험 서비스의 유료 결제 전환 비율을 모니터링 해본결과, 우측에 있는 2023년 차트를 보면 유료 결제 전환비율이 지속적으로 감소하는 추세를 보이고 있었다.
  • 우리팀은 유료 결제 전환비율이 감소하는 원인을 파악하기 위해 무료체험 유저의 결제 전환 여부를 예측하여 유저가 결제에 영향을 미치는 요인을 파악하고, 이를 통해 무료 체험 서비스의 개선 방안을 도출하는 것을 본 프로젝트의 분석 목표로 설정하였다.

image.png

  • 무료 체험 유저의 유료 결제 전환 여부를 예측하기위해 공유오피스 A사의 무료 체험 신청 정보와 일자별 방문 기록 정보, 일자별 출입 기록 정보, 유료 회원 전환 여부가 담긴 정보와 지점별 면적 정보를 제공받았고, 이중에서 일자별 방문 기록(trial_visit_info) 정보는 일자별 출입 기록(trial_access_log) 정보로 대체하여 사용하였다.

image.png

  • 우리팀은 제공받은 데이터를 활용하기 위해 몇가지 전처리 과정을 수행했다.
  • 왼쪽에 표를 보면 방문 기록 정보와 지점별 면적 정보에 있는 지점 정보가 일치하지 않는 것을 확인할 수 있다. 그리고, 방문 기록 정보에서 입실 기록과 퇴실 기록이 없는 유저가 재실시간이 기록된 데이터를 발견하였고, 방문 기록이 출입 기록 정보가 담긴 trial_access_log 테이블과 정보가 일치하지않는 점을 확인하였다.
  • 이러한 부분을 고려했을때, 방문 기록 정보가 출입 기록 테이블에서 수집가능하여, 방문 기록 정보를 분석에 사용하지 않았다.
  • 그리고, 테이블 별로 불필요한 중복값이 발생해서 해당 데이터는 제거하고 분석을 진행하였다.

image.png

  • 다음으로는 일자별 출입 기록이 담긴 테이블의 시간 정보를 조정하는 작업을 진행하였다.
  • 첫번째로는, 출입기록이 데이터마다 마이크로 초단위 부분의 형식이 일치하지 않는것을 발견하고, 데이터 오류를 방지하고자 불필요한 마이크로 초단위 부분을 제거하였다.
  • 두번째로는, 출입 기록이 영국 시간대로 기록되고 있는것을 확인하여, 원활한 분석을 위해 한국 시간대로 변환하는 작업을 진행하였다.

image.png

  • 다음으로는 비정상적인 체크인 기록을 조정하는 작업을 수행하였다.
  • 왼쪽 그림을 보면 공유오피스를 이용하는 유저는 지점을 방문하거나 퇴장할때 키카드 등의 인증장치로 출입절차를 수행해야 하는것을 알 수 있지만, 출입문이 열려있거나, 인증장치를 놓고와서 다른사람이 대신 출입문을 열어주는 등, 정상적인 출입절차를 따르지않는 상황또한 발생할 수 있는것으로 관찰되었다.
  • 우리팀은 비정상적인 출입기록을 2가지 상황으로 요약하였는데, 첫번째로는 출입기록이 퇴실로 시작하거나 입실로 끝난 유저 정보를 비정상 출입기록으로 판단하여, 해당 유저의 출입 기록을 입실로 시작하고 퇴실로 끝날수 있도록 1초 간격으로 입실 또는 퇴실 정보를 추가하였다.
  • 두번째로는 입실이나 퇴실 기록이 2번 이상 연속으로 기록된 유저를 비정상 출입기록으로 판단하여, 측정이 불가능한 출입 기록을 제거하는 작업을 수행하였다. 아래 를 보면, case1에서 입실이후 퇴실이 2번 연속 기록된 유저는 퇴실과 퇴실사이에 어느 시간대에 입실이 기록되었는지 확인할 수 없어 측정이 불가능한 퇴실 정보는 제거하였다. 마찬가지로 case2에서도 입실이 2번 연속 기록된 유저의 정보에서 측정이 불가능한 입실 정보는 제거하였다.

image.png

  • 유저 별 이용 패턴을 분석하기 위해 출입 기록 정보와 무료 체험 신청 정보를 바탕으로 파생변수를 생성하였다. 주요 변수로는 재실시간과, 첫 방문 날짜, 평일 혹은 주말 방문일 수, 선호 지점 변수를 분석에 활용하기 위해 파생변수로 생성하였다.

image.png

  • 우리팀이 아래와 같은 기준으로 데이터 결합을 수행하였다.
  • 표를 보면 출입 기록이 담긴 trial_access_log의 무료 체험 유저 수와 유료 회원 전환 여부가 담긴 trial_payment의 무료 체험 유저 수가 차이나는 것을 알 수 있는데, 무료 체험 신청을 했지만 실제로 공유오피스 서비스를 이용하지 않은, 방문하지 않은 유저가 3,598명이 발생한 것을 알 수 있다.
  • 우리팀의 주제는 무료체험 유저의 결제 전환 여부를 예측하는 것인데, 제공받은 데이터상으로는 무료체험을 신청하고 공유오피스를 방문하지 않은 유저가 어떤 이유로 방문을 하지 않았는지 확인할 수 있는 정보가 없었고, 무료 체험을 신청한 유저의 공유오피스 방문 패턴이 결제 전환 여부를 판단하는데 중요한 요인이 있다고 판단하였다.
  • 따라서, 방문하지 않은 유저를 분석에 포함한다면 예측 모델의 정확성이 떨어진다고 판단하여, 공유오피스에 방문하지 않은 유저는 분석대상에서 제외하였다.

image.png

  • 지금까지 전처리 과정을 요약하면,
  • 공유오피스를 방문한 무료 체험 유저 6,026명을 기준으로 하나의 테이블로 결합하였고,
  • 유료 결제 전환에 중요한 요인을 파악하기위해 유저의 재실시간과 첫 방문 날짜, 선호 지점 등의 파생변수를 추가하였다.
  • 그리고, 출입 기록 시간 정보와 비정상적인 체크인 기록을 조정하는 작업을 수행하였다.

image.png

  • 공유오피스를 방문한 무료 체험 유저 6,026명을 대상으로 유료 결제 전환 요인을 파악하기 위해 EDA를 진행하였다.
  • 먼저, 재실시간 EDA를 진행하였는데, 왼쪽 차트는 무료체험 후 결제를 하지 않은 유저와 결제를 전환한 유저로 분류하여 평균 재실시간을 전체, 일별, 평일, 주말 기준으로 나타낸 자료다. 차트를 확인해보면 평균 재실시간 분포는 결제 전환 여부와 상관없이 유사한 패턴을 보이고 있었다.
  • 그리고, 주말보다는 평일에 공유오피스를 이용하는 시간이 많은것을 알 수 있었다.
  • 오른쪽 차트를 보면 시간대별 재실시간 분포는 대부분의 유저가 무료 체험 기간 72시간 중 12시간 미만으로 짧게 이용하는 패턴을 보였다.

image.png

  • 결제 여부 유저별 첫 방문 날짜 패턴을 확인해보니,
  • 결제를 전환하지 않은 유저는 12월과 9월, 8월에 가장 많이 방문하였고,
  • 결제를 전환한 유저는 9월과 6월, 8월에 가장 많이 방문하는 패턴을 보였다.
  • 첫 방문 시간대로는 주로 업무 시간대인 오전 9시부터 오후 5시에 방문하는 패턴을 보였다.

image.png

  • 입실과 퇴실을 합친 방문 횟수를 유저별로 분포를 확인해보니, 대부분의 유저는 3일 무료 체험 기간 동안 방문 횟수가 16회 미만으로 관찰됐다.
  • 여기서 방문 횟수 16회는 유저가 지점에 방문할때 하루 1번 출입과 퇴장하는 기록이 포함된 결과로, 대부분의 유저는 출입 후 점심시간이나 산책 등의 경우를 제외하고는 공유오피스 밖으로 나가는 행동을 보이지 않는 것으로 나타났다.

image.png

  • 지점 관련 EDA를 분석해보니, 무료 체험 신청 유저는 평수가 넓은 공유오피스를 선호하는 것으로 파악됐고, 지점별 평당 유저 수는 1호점은 50평임에도 불구하고 평당 유저 수가 15명으로 평수대비 가장 많은 유저가 방문한 것으로 확인되었다. 그러나, 평수대비 가장 적은 유저가 방문한 49호점도 평수가 50평인점을 봤을때, 유저들은 평수가 넓은곳을 선호하지만, 단순히 공간이 넓은 지점이 아닌 위치와 이용 시설 등 지점의 종합적인 조건을 고려하여 방문하는 것으로 파악할 수 있었다.

image.png

  • 지금까지 EDA 분석내용을 종합해보면 다음과 같다.
    • 재실 시간은 무료 체험 기간 72시간 중 12시간 미만으로 이용하는 것으로 관찰됐다.
    • 첫 방문 패턴으로는 주로 무료체험을 신청한 다음날에 방문하고, 연초보다는 연말에, 그리고 주로 업무 시간대에 방문하는 것으로 나타났다.
    • 주말보다는 평일에 공유오피스를 이용하는 것을 선호하고,
    • 공유오피스를 방문하고 입실과 퇴실의 빈도는 점심시간이나 산책 등 최소한의 움직임을 보이는 것으로 관찰됐다.
    • 선호하는 지점으로는 평수가 더 넓은 곳을 선호하지만, 지점의 위치와 이용 시설 등 종합적인 조건을 고려하는 것으로 나타났다.
  • 우리팀은 EDA를 진행했지만, 무료 체험 신청 후 결제를 하지 않은 유저와 결제를 전환한 유저의 패턴이 유사하여 결제 전환 여부를 예측하기위한 추가적인 분석이 필요함을 느껴 다음과 같은 통계적 검정을 수행하였다.

image.png

  • EDA 진행후, 무료 체험 이용 유저들의 결제 전환율에 영향을 미치는 변수들을 확인하기 위해 결제 전환율과 각 변수 간의 상관관계를 분석하였다.
  • 피어스만 상관관계와 스피어만 상관관계를 확인해보니 두 상관분석에서 모든 변수가 결제 전환율과 낮은 상관관계를 보이고 있었다. 또한, 일부 변수들은 p값이 통계적으로 유의미하지 않았다.
  • 따라서, 각 변수들과 결제 전환율 간의 상관관계가 통계적으로 유의미하지 않아 독립적인 예측 변수로 활용하기 어렵다는 결론을 내렸다.

image.png

image.png

  • 우리팀은 재실 시간이 무료 체험 유저의 유료 결제 전환에 유의미한 영향을 미칠 것이라고 예상하고 가설을 세웠고, T-test를 통해 확인해보니, 결제 그룹의 재실 시간이 미결제 그룹의 재실 시간보다 작다는 그룹 간 차이가 존재했다. 하지만, t 통계량이 작았고 일부 변수들에서 그룹 간 차이가 통계적으로 유의미하지 않았다.
  • 그룹 간의 차이를 보기 위해 각 그룹의 분포도 시각화 해보았는데, 그룹 간 분포가 거의 겹쳐서 뚜렷한 차이를 확인할 수 없었다.

image.png

  • 우리팀은 모델링을 통해 각 유저의 결제 여부를 예측하기 위해 우리가 생성한 유저 행동 관련 파생변수들을 사용하였고, 타겟 변수로는 결제 여부를 사용하였다.
  • 사용 모델은 총 다섯 가지의 머신 러닝 모델을 사용하였고, 데이터 불균형 해소를 위해 SMOTE 기법과 ENN 기법을 사용하였다. 두 기법은 모두 최근접 이웃 알고리즘인 KNN을 사용하는데, SMOTE는 KNN을 기반으로 소수 클래스 데이터를 오버샘플링하여 새로운 데이터를 생성하고, ENN은 KNN을 통해 잘못 분류될 가능성이 높은 데이터를 언더샘플링하여 제거하는 방식이다.

image.png

  • 제공된 데이터에서 3일 무료 체험을 신청한 유저 중 공유오피스를 방문한 유저를 대상으로 유료 결제 전환 여부를 예측하는 모델을 구축하여 성능을 비교하였다. 생성한 파생 변수들은 상기와 같다.

image.png

  • 모델링 결과는 다음과 같다.
  • 사용 모델은 로지스틱 회귀 모델, 랜덤 포레스트, LGBM, CatBoost, XGBoost를 사용하였고 가장 성능이 좋았던 두 모델 CatBoost와 XGBoost에는 SMOTE 기법을 통해 오버샘플링을, ENN 기법을 통해 언더샘플링을 적용하여 모델링을 추가로 진행하다.
  • 결론적으로 데이터 불균형 해소 기법을 적용하지 않은 CatBoost 모델이 전체적으로 가장 우수한 성능을 보였다.
  • SMOTE, ENN 기법을 적용한 모델들은 재현율이 개선되어 F1-Score와 AUC score가 향상되었지만, 설명력인 R^2값이 -0.9로 가장 낮았고, 이는 모델 예측 성능의 무의미함을 시사했다.

image.png

  • 가장 성능이 높았던 CatBoost의 성능 지표를보면,
  • AUC 점수는 0.59, 정확도는 0.62로 중간 수준이나 결제 유저 클래스를 제대로 분류하지 못해서 재현율과 F1점수가 낮았다. 추가적으로 변수 중요도 분석을 통해 이 모델에서 유저의 평일 방문 일수와 재실시간 관련 변수들이 주요 변수임을 확인하였다.

image.png

image.png

  • 우리팀은 이번 프로젝트의 한계점은 근본적인 원인이 데이터 설계에 있다는 결론을 내렸다.
  • 데이터 부족 원인으로는 결제 여부에 따른 그룹 간 통계량 차이가 미미했고, 기간 또한 짧으며, 여러 공유 오피스 관련 연구 논문에서 중요하게 다룬 심리적, 맥락적 요인, 사용자의 특성 관련 데이터를 보유하고 있지 않았다. 이와 관련하여 데이터 수집 전략 제안을 구성하였다.

image.png

image.png

image.png

image.png

  • 우리팀은 SNS 채널을 활용하여 무료 체험 서비스와 설문조사 참여 혜택을 제공하는 광고를 기재하여 유저 행동 데이터를 수집하는 방안을 제안하였다.
  • 설문조사는 무료 체험 신청 전에 작성하는 유저의 기본 정보와 이용 목적 등이 담겨있고,
  • 무료 체험 완료 후에는 체험 만족도와 향후 결제 의향을 확인하고, 개선사항을 수집하는 내용이 담겨있었다.

image.png

  • 수집된 추가 데이터를 기존 데이터와 통합하여 예측 모델을 개선하여, 결제 가능성이 높은 유저를 식별하여 맞춤형 프로모션을 제공하는 전략을 제안하였다.

image.png

  • 마지막으로 지점별/유저별/날짜별 공유오피스 상황을 실시간으로 파악하여 조치할 수 있도록 고객 관리 대시보드를 개발하였다.

Reflection

  • 파트3 중급2 프로젝트가 종료되었다. 이번 프로젝트는 팀원들과 협력하며 다양한 도전을 함께 경험할 수 있어 의미 있는 시간이었다. 개인적인 소감은 지금까지 적어온 협업일지들에 기재하여 생략한다. 이번 프로젝트 총평은 학습과정과 프로젝트의 방향성이 완벽히 일치하지 않아 다소 아쉬움이 남는 부분이 있었다. 우선, 다른팀들의 발표내용을 들어보니, 대부분의 팀들이 가이드라인을 지키지 않았다. 다른 팀들이 가이드라인을 준수하려는 노력을 기울였겠지만, 프로젝트 설계상 준수하기 어려운 부분이 있었던 것으로 보인다. 다만, 가이드라인을 지키지 않은 팀들이 창의적이고 의미 있는 결과물을 도출했지만, 가이드라인의 중요성이 향후 프로젝트에서는 조금 더 강조되거나 명확해져, 가이드라인을 지킨 팀들이 아쉬움을 느끼지 않았으면 좋겠다는 생각이 들었다. 프로젝트 평가보다는 프로젝트 해석에 대한 견해차이가 발생했다고 볼 수 있었고, 이부분에서 아쉬움을 느꼈다. 이후로 언급한 내용은 다른팀들의 대한 불만보다는 다른팀들이 이렇게 할 수 밖에없는 상황을 인지하였지만, 그에따른 개인적인 견해, 내가 생각하는 일하는 자세를 기재하였다.
  • 가장 큰 차이로는 모델링을 사용하지 않는 팀과 외부데이터를 메인으로 사용한 팀이 있었다.
  • 우선, 모델링을 사용하지 않은팀의 근거를 생각해보면, 데이터 분석에서 모델을 반드시 사용하는 것은 아니라는 근거로 모델을 활용하지 않은것으로 보인다. 다만, 본 프로젝트의 학습내용은 머신러닝이 메인으로서, 모델을 사용하지 않은 접근은 데이터 분석의 다양한 가능성을 탐구하려는 시도로 볼 수 있지만, 본 프로젝트의 학습 목표와 모델 사용이 주요 초점이었던 점을 고려하면, 이 부분에서 약간의 방향성 차이가 있었던 것으로 보인다. 개인적으로 업무 환경에서의 협업은 약속된 조건을 기반으로 이루어진다고 생각하기 때문에 가이드라인 준수와 창의적 접근 간의 균형을 찾을 필요가 있다고 생각한다. 다만, 앞서말했듯이 근본적으로 그러한 선택을 할 수 밖에없는 프로젝트 설계의 문제점이 주요했다고 볼 수 있다.
  • 다음으로는 외부데이터 사용 기준이다. 이번에 제공받은 데이터는 공유오피스의 무료체험 유저의 출입기록만 담긴 데이터로 구성되었다. 하지만, 데이터의 한계로 인해 외부데이터 사용을 권장하고있었고, 외부데이터를 적극적으로 활용한 팀들의 창의적인 시도는 인상적이 였지만, 제공된 데이터와의 연계성이 명확하지 않은 외부데이터를 메인으로 활용한 접근에 대해서는 보다 신중한 평가기준이 필요하지 않을까 생각된다. 외부데이터는 날씨 정보와같은 모든사람이 납득할 수 있는 정확한 정보가 있는 반면, 어떤 기업인지도 알 수 없는 상태에서 해당 기업을 정확하게 가정하고 그 기업의 지점 위치를 정확하게 위치데이터로 활용한 외부데이터를 긍정적으로 평가했다는 점은 아쉬움이 있다. 개인적으로는 정확하지 못한 정보를 기반으로 분석을 진행하는 것은 신뢰성 면에서 보완이 필요하다고 생각하며, 만약 계약관계에서 컨설턴트가 확실하지 못한 기업의 정보를 확정하듯이 외부데이터를 가져와서 사용한다면 신뢰관계가 다소 아쉬울 수 있다고 판단된다. 설령 제공받지 못했지만 그 기업의 정보를 알고있어도, 의뢰인이 공개하지않은 정보를 분석에 사용하는 것은 적절한 분석이라고 생각하지 않는다. 이번 프로젝트에서는 지점의 위치 정보를 제공받지 못하였지만, 대부분의 팀들은 지점의 위치 정보를 확정하고 그에따른 외부데이터(상권, 임대료, 유동인구 등)를 활용하여 창의적이고 풍부한 분석을 진행하였다. 하지만, 풍부한 분석을 위해서는 결국 ‘위치 정보를 상상하고 확정’했기때문에 가능한 일이다. 이러한 방식은 신중한 접근이 필요하며, 보다 명확한 데이터 기반으로 분석을 진행한다면 훨씬 더 설득력 있는 결과물이 나올 수 있을 것 같다. 위치 정보를 프로젝트 데이터에서 제공했다면 프로젝트를 좀 더 풍부하게 외부데이터(날씨, 상권, 임대료, 유동인구 등)를 활용할 수 있었지만, 이번 프로젝트에서는 외부데이터를 활용할수있는 근거가될 수 있는 정보들(위치, 일반회원 정보, 가격, 편의시설 등)이 전혀 없었기 때문에, 외부데이터를 내부데이터와 연계하여 사용하기에는 상당히 제한적이었다. 그럼에도 불구하고, 부정확한 가정을 기반으로 한 접근은 신중한 검토가 필요하다고 느꼈지만, 창의적인 시도가 프로젝트에 새로운 관점을 제시한 점은 흥미로웠다.
  • 비록 이번 프로젝트에서 데이터셋과 가이드라인, 평가방식에 대해 아쉬운 부분이 많았지만, 교육기관의 프로젝트 설계의 한계로 인해 발생할 수 있는 해프닝이라고 판단하고, 어려운 상황속에서도 최선을 다한 팀들을 위해 긍정적인 평가를 부여했다고 생각해야한다. 이과정에서 가이드라인을 준수한 팀들이 아쉬움을 갖지않고 파이널 프로젝트에 최선을 다해 원하는 성과를 얻었으면 한다. 어찌되었든, 모든 수강생들이 어려운 환경 속에서도 창의적이고 의미 있는 결과물을 만들어낸 점이 인상 깊었다. 이번 프로젝트를 통해 얻은 경험들이 각자에게 자산이 되리라 믿으며, 남은 파이널 프로젝트에서도 멋진 결과를 만들어내길 응원한다.
This post is licensed under CC BY 4.0 by the author.