fcmm테이블 모델링
hiphan-mansoorrr.tistory.com
모델링한 데이터를 바탕으로 데이터 시각화 및 분석을 진행한다.
tableau desktop public을 사용하여 mysql과 커넥션 할 수 없으므로 mysql에서 csv파일로 추출하여 진행하였다.
분석을 위해 추출한 테이블과 파일명 그리고 태블로에서의 관계는 아래와 같다.
mysql 테이블명 | 추출한 파일명 | 관계(=) |
category_unique | category.csv | category_unique.category_code = product2.category_code |
product2 | product.csv | category_unique.category_code = product2.category_code |
review | review.csv | product2.product_code = review.product_code |
직관적으로 데이터를통해 볼 수 있는 사항을 먼저 정리한다.
태블로를 통해 차원으로 분류하여 볼 수 있는 부분은 category테이블의 Category, Segment, Subsegment, Category Code이다. 측정값으로 분류하여 볼 수 있는 부분은 count(product_code) Org Price, Discount Price, Discount Pct, Review Num 이다.
1. 차원별 측정값 기초통계량 확인
가. 갯수
1) 대분류별
- 라이프스타일 웨어 > 신상품 > 럭키데이 > 스포츠웨어 > 콜라보레이션 > 베스트 > 프로모션 순으로 제품 수가 많게 나타난다.
2) 중분류별
- 상위 5개를 살펴보면 중분류별 제품 갯수는 null > 하의 > 상의 > 풋볼 > 아우터 순으로 나타난다.
- null을 제외하면 '하의' 제품이 가장 많은것을 알 수 있다.
- 중분류에 null이 있는 경우는 대분류가 베스트, 신상품, 프로모션인 경우이다.
- 베스트, 신상품, 프로모션에만 중분류가 없는 이유를 살펴보면 252개 상품중 2개 상품을 제외한 나머지 상품은 특정 대분류에 이미 속해있는 상품이기 때문이다.
https://hiphan-mansoorrr.tistory.com/14 : 중분류 NULL은 왜?
3) 소분류별
- 상위 5개를 살펴보면 NULL, 롱팬츠, 상의, 숏팬츠, 숏슬리브 , 맨투맨 순으로 나타난다. NULL을 제외하면 롱팬츠, 상의, 숏팬츠, 숏슬리브 등의 순이다.
- 하의류 중에서도 숏팬츠보다는 롱팬츠의 제품이 더 많고 상의류에서는 숏슬리브(반팔)제품이 많은 것을 알 수 있다.
- 또한, 숏슬리브 부터 위쪽으로 다른 소분류들에 비해 제품 수의 차이가 적은것을 알 수 있다.
- 편하고, 가볍게 툭 걸칠 수 있는 FCMM의 특성을 반영한 결과인가 싶다.
- NULL값을 살펴보면 신상품, 럭키데이, 콜라보레이션, 베스트, 프로모션의 대분류에서 나타난다.
- 소분류가 없는 제품들의 경우 이벤트성을 가진 대분류에서 나타나는 특성이며 중분류와 마찬가지로 이미 속한 곳이 있는 제품들이다.
4) 종합
대,중,소분류, 카테고리코드별 제품수를 나타냈다. 색은 대분류 기준으로 가장 많은것은 짙은 빨간색으로e 표현했다.
대분류 기준 제품수 = { fixed Category : count(Product Code) }
우선 모든 제품은 특정 카테고리에 담기기 때문에 이후 부터 이루어질 분석에서는 럭키데이, 신상품, 베스트, 프로모션 대분류는 분석에서 제외한다.
<궁금증>
- 하의가 제품이 많은 이유가 있을까?
- 많이 팔려서 많이 출시하나(리뷰가 많다)?
- 가격이 저렴한가? or 가격이 비싼편인가?
- 대분류별 하의의 비율은 얼마나 될까?
- 가장 많이 팔리는 하의는 어떤 종류일까?
나. Org Price, Discount Pct, Discount Prce
평균단가와 할인율을 살펴보고자 한다.
지금은 기초적인 통계를 보는 단계니까 조금 안이뻐도 일단 본다. 나중에 대시보드 만들때 이쁘게 만들면 되니까.
대분류, 중분류, 소분류와 평균가격, 평균 할인율, 평균 할인가를 확인했다.
- 평균가격이 가장 높은 대분류는 콜라보레이션 종류이며 평균 96,817원이다.
- 평균가격이 가장 낮은 대분류는 라이프스타일 웨어이며 50,468원 이다.
- 중분류에서는 아우터가 평균 가격이 가장 높다.
- 할인율은 라이프스타일 웨어에서 가장 높게 나타나고 콜라보레이션에서 가장 낮게 나타난다.
- 할인율에서 특이한점이 있다.
- 아우터에서는 할인율이 거의 적용이 되지 않는다.
- 맨투맨과 후드/집업도 할인율이 적용되지 않는다.
- 위에서 확인한 제품이 많았던 상의(롱슬리브, 숏슬리브), 하의(숏팬츠, 롱팬츠)는 할인율이 많이 적용되는 축에 속한다.
- 스포츠웨어의 평균 할인율은 25.2%인데 테니스 웨어는 할인이 전혀 적용되지 않고 풋볼에만 적용된다.
- 콜라보레이션은 일단 단가가 다른 제품에 비해 비싼 편이며 할인율도 많이 적용되지는 않는다.
결론
많은 제품이 출시되어있는 군집이 할인율도 많이 적용된다.
테니스웨어는 할인 안한다
아우터류도 할인 안한다.
맨투맨과 후드/집업도 할만한데 할인 안한다.
할인을 안한다는건 그만큼 마진이 많이 안남아서인가? / 많이 팔리지 않는건가?
궁금한것 투성이군
다. Review Num
리뷰 갯수를 살펴본다.
대 / 중 / 소분류의 리뷰수를 시각화하면 다음과 같다. 리뷰개수 순으로 내림차순 정렬 하고 색은 대분류를 기준으로 가장 많은것을 가장 진한 빨간색으로 표현하였다.
리뷰수를 내림차순으로 살펴보면 대분류는 라이프스타일웨어, 스포츠웨어, 콜라보레이션 순으로 나타난다. 중분류는 아우터에 대한 댓글이 가장 많고 하의, 상의 용품 순이다. 소분류는 플리스, 롱팬츠, 풋볼하의, 풋볼상의 등 순이다.
어떤 사이트에서도 얼마나 구매되었는지 공개하지 않는다.
리뷰는 구매한사람들이 작성한다. 그렇다면 리뷰 수를 구매한 수라고 본다면 아래와 같은 현상이 나타난다.
종합
1. 플리스는 제품 갯수가 적고 할인율도 적은데 불구하고 가장 많은 구매율을 보였다.(오오!)
2. 하의가 제품도 많고 할인율도 높은 만큼 롱팬츠, 숏팬츠, 풋볼의 하의의 구매율이 높다.
3. 상의의 경우 제품도 많고 할인율도 높은 편이었던 숏슬리브가 구매율이 높다.
4. 반면 제품수와 할인율도 낮은 맨투맨과 후드집업이 구매율이 높게 나타났다(오오!)
5. 롱슬리브는 제품수가 적고 할인율이 가장 높은데 구매율이 낮게 나타났다.(오오!)
6. 1000건 이상인 제품을 많이 팔리는 기준으로 삼는다면 플리스, 롱팬츠, 숏팬츠, 숏슬리브, 풋볼 상의, 풋볼 하의가 있다.
7. 테니스웨어는 확실한 매니아층이 있고, 대중적인 스포츠가 아니다보니 구매율이 다른 상품들에비해 현저히 떨어지는 것으로 보여진다. 이런 이유라면 할인을 굳이 할 필요가 없다라는 것도 이해가 간다. 힘뺄필요 없으니!
플리스, 롱팬츠, 숏팬츠, 숏슬리브, 풋볼상의, 풋볼하의가 왜 구매율이 높은지 살펴본다. 반면 낮은 제품들은 왜 낮은지 살펴본다.
구매율에 영향을 많이 미치는 요인에 대해 살펴본다.
fcmm 데이터시각화2
hiphan-mansoorrr.tistory.com
'Data Analysis > FCMM' 카테고리의 다른 글
fcmm 데이터시각화2 (0) | 2023.07.20 |
---|---|
fcmm 데이터 분석(중분류 NULL은 왜?) (0) | 2023.07.19 |
fcmm테이블 모델링 (0) | 2023.07.18 |
스크래핑 (0) | 2023.07.18 |
사이트 분석 (0) | 2023.07.18 |