Kaggle 이나 Dacon 같은 무료로 데이터를 얻을 수 있는 사이트에서 데이터 시각화 연습해보도록 합시다. |
듣는 독서를 즐기다, 윌라
독서를 읽는 것이 아닌 '듣는 것'으로 다루는 오디오북 앱, 윌라. 이 서비스는 2018년 런칭되어 현재 200만 명의 회원의 회원에게 사랑을 받고 있다. 가족과 함께 공유하는 요금제(9,900원)로 보다 저렴하게 이용을 할 수 있으며 전문 성우가 낭독하여 퀄리티 높은 독서를 즐길 수 있다는 점이 특징이다.
해당 앱의 데이터를 통해 분석을 하고 데이터 시각화를 할 수 있다면 더할 나위 없이 좋겠지만, 소중한 데이터는 대외비인지라.. 조금이라도 유사한 무료 데이터를 찾아 가설을 세워보고 데이터를 정리해보려 한다.
분석을 위해 Kaggle에서 오디오북 앱 무료 데이터를 다운 받았다. 이 데이터의 세부 사항은 다음과 같다.
- 데이터는 오디오북 앱에서 가져온 것이며 데이터베이스의 각 고객은 한 번 이상 구매했습니다.
- 주요 아이디어는 회사가 돌아올 가능성이 낮은 개인을 대상으로 돈을 지출해서는 안된다는 것입니다.
- 다시 전환할 가능성이 더 높은 고객에 초점을 맞추면 매출 및 수익성 수치가 증가할 것입니다. 모델은 클라이언트가 다시 방문하는 데 가장 중요한 지표가 무엇인지 보여주어야 합니다.
해당 데이터는 1만 4천여 개의 레코드가 있는 csv 파일이었고, 각 수치에 관한 짧은 설명을 토대로 아래와 같이 필터링했다. 이 데이터를 통해 오디오북 구매 기간의 합계, 구매 가격의 합계, 평균 구매 금액, 고객 리뷰 여부, 참여도 측정값, 총 지원 요청 수, 마지막 방문, 재무개 여부 등의 정보를 알 수 있다.
그리고 위의 데이터에서 추측할 수 있는 가설 3가지를 세웠다. 이 데이터의 세부 사항에서 매출과 수익을 중점적으로 언급을 하고 있었기에 가설 또한 재구매와 관련된 내용으로 대부분 구성했다.
가설 1. 평균 구매 금액이 10 이상이며, 리뷰를 남긴 유저는 그렇지 않은 유저보다 6개월 동안 재구매를 할 확률이 높다.
가설 2. 구매 후 구매 콘텐츠를 열람하지 않은 유저의 경우, 6개월 동안 재구매는 거의 일어나지 않을 것이다.
가설 3. 구매 기간이 평균 이상일수록 구매 후 구매 콘텐츠를 열람하지 않은 유저의 비율이 높을 것이다.
🔍가설 3가지를 데이터를 통해 검증해보자!
가설 1. 평균 구매 금액이 10 이상이며, 리뷰를 남긴 유저는 그렇지 않은 유저보다 6개월 동안 재구매를 할 확률이 높다.
평균 구매 금액 | 리뷰 | 유저 수 | 재구매 | 비율 |
10 이상 | O | 428명 | 143명 | 33.41% |
X | 1,436명 | 673명 | 46.86% | |
10 미만 | O | 1,836명 | 239명 | 13.01% |
X | 10,384명 | 1,182명 | 11.38% | |
전체 | O | 2,264명 | 382명 | 16.87% |
X | 11,820명 | 1,855명 | 15.69% |
위 가설을 검증하기 위해 평균 구매 금액, 리뷰 여부, 6개월 동안의 재구매 여부 데이터를 확인했다. 평균 구매 금액이 10이고, 리뷰를 작성한 유저의 수는 428명이다. 이중 재구매를 한 유저는 143명으로, 33.41%를 기록했다. 이에 반해 리뷰를 작성하지 않은 유저의 수는 1,436명이었으며 재구매를 한 유저의 수는 673명으로, 46.86%의 비율을 보였다. 가설과 달리 평균 구매 금액이 10 이상인 유저 중 리뷰를 작성하지 않은 유저의 재구매 비율이 높았다.
추가로 비용에 차이가 있다면 해당 비율이 달라질 것이라는 생각을 하게 되었다. 그래서 추가로 평균 구매 금액이 10 미만인 유저들의 재구매 비율도 확인해봤다. 이때 재구매 비율은 리뷰를 작성한 유저가 근소하게 높은 것으로 확인되었다.
그렇다면 금액에 상관 없이 오로지 리뷰 여부로만 재구매 비율을 따져보면 어떨까? 약 1%의 비율 차이만 보였지만 리뷰를 작성한 유저의 재구매 비율이 조금 더 높았다. 결과적으로 리뷰의 여부는 재구매에 큰 영향을 미치지 않는다는 것을 알 수 있다.
다만, '리뷰 작성'이라는 항목을 제외한 후 '평균 구매 금액이 10 이상'인 유저의 재구매 비율만 살펴보면 10 미만의 유저보다 재구매 비율이 훨씬 높은 것이 확인 가능하다. 따라서 리뷰 여부가 아닌 평균 구매 금액이 재구매 비율에 영향을 미친다는 결론을 내릴 수 있다.
가설 2. 구매 후 구매 콘텐츠를 열람하지 않은 유저의 경우, 6개월 동안 재구매는 거의 일어나지 않을 것이다.
구매 후 열람 | 유저 수 | 재구매 | 비율 |
O | 8,591명 | 1499명 | 17.44% |
X | 5,493명 | 738명 | 13.43% |
두 번째 가설을 검증하기 위해 구매 후 방문과 재구매의 데이터를 살펴봤다. 참고로 구매 후 방문은 '마지막_방문_분_구매_날짜'라는 데이터였으며, 차이가 클수록 더 빨리 참여하는 것이고 값이 0이면 고객이 구매한 항목에 액세스한 적이 없다는 것을 확신한다는 내용이 있었다.
구매 후 열람을 한 번이라도 한 유저의 경우 재구매 비율은 17.44%로 확인되었다. 그리고 구매 후 열람을 아예 하지 않은 유저의 수는 5,493명이며 그중 재구매를 한 유저 수는 738명이었다. 열람을 하지 않은 유저이더라도 재구매 비율은 13.43%로 약간의 차이가 존재한다는 것을 확인할 수 있었다. 열람을 한 유저가 재구매 비율은 조금 더 높았지만, 열람을 하지 않았다면 재구매는 거의 일어나지 않을 것이라는 두 번째 가설은 명확히 틀린 것으로 결론을 내리게 되었다.
가설 3. 구매 기간이 평균 이상일수록 구매 후 구매 콘텐츠를 열람하지 않은 유저의 비율이 보다 높을 것이다.
구매 기간 합계 | 유저 수 | 구매 후 열람 X | 비율 |
평균 이상 | 9,096명 | 3,379명 | 37.14% |
평균 이하 | 4,988명 | 2,114명 | 42.38% |
해당 가설은 구매 기간이 긴 유저가 오히려 구매 콘텐츠를 열람하지 않을 수도 있다는 생각으로 작성했다. (기간이 짧으면 기간 내에 빠르게 봐야겠다는 생각에 오히려 열람율이 높고, 기간이 길다면 잊고 지낼 수 있다는 그러한 추측으로)
구매 기간의 합계가 평균 이상인 유저의 수는 9,096명 이었으며 구매 후 열람을 하지 않는 비율은 37.14%였다. 꽤 높은 수치이다. 그리고 구매 기간의 합계가 평균 이하인 유저의 수는 4,988명이며, 구매 후 열람을 하지 않는 비율은 42.38%로 구매 기간이 평균 이상인 유저의 비율보다 약 5% 가량 높았다.
구매 기간 합계가 평균 이상일 경우에도 콘텐츠를 아예 열람을 하지 않는 비율이 높다는 것을 확인했으나, 평균 이하일 경우에 열람을 하지 않는 비율이 더 낮기에 해당 가설 또한 틀린 것을 확인할 수 있다.
짧은 회고
가설은 전부 틀려버렸다^^... 그래도 데이터를 열심히 읽어내 내가 세운 가설이 틀렸다는 것을 증명한 것만으로도 뿌듯하다. 그리고 가설1을 검증하는 과정을 통해 재구매에 영향을 끼치는 새로운 영역을 분석한 것 같아서 감격스럽다😂 이렇게 1만 4천개의 레코드만 있을 뿐인데도 복잡하고 어려웠는데 회사에 더 큰 데이터를 제대로 분석하려면 정말 공부를 꾸준히, 그리고 잘 해내야겠다는 생각이 든다.
'프로덕트 매니저 부트캠프 > PMB Daily 과제' 카테고리의 다른 글
앱은 어떻게 분류될까? 코드스테이츠 PMB 10기 (0) | 2022.03.07 |
---|---|
뉴닉의 랜딩페이지 뽀개보기 코드스테이츠 PMB 10기 (0) | 2022.03.06 |
프립Frip을 린분석을 통해 알아보자! 코드스테이츠 PMB 10기 (0) | 2022.03.01 |
오늘의집의 핵심 지표 GA에서 파악하기 코드스테이츠 PMB 10기 (0) | 2022.02.25 |
여다트립을 이용하는 유저들의 플로우차트 작성, 그리고 개발 언어 초입기 코드스테이츠 PMB 10기 (0) | 2022.02.24 |