본문 바로가기

Data Analysis39

스크래핑 스크래핑 시작 전 스크래핑의 진행의 구상은 속도면에서 리뷰까지 한번에 가져오는것 보다 나눠서 가져오는것이 빠를것이라는 생각이 들었다. 따라서 category와 product에 들어갈 데이터만 먼저 가져오고(main.py) 이후 review를 가져올 코드를 다시 작성한다.(review.py) 모듈들은 expactor안에 fcmm.py와 mysql.py로 나누어 작성하였다. 스크래핑은 selenium을 활용해 진행하였다. main.py는 category -> segment -> subsegment를 클릭하도록 만들고 이후 product들을 가져오기 위해 더보기를 클릭하였다. 중간중간 time.sleep을 통해 쉬게 해줬다. 데이터는 dictionary형태로 변환하여 가져오고 이를 mysql에 바로 저장시켰다.. 2023. 7. 18.
사이트 분석 fcmm사이트는 들어가보니 럭키데이, 베스트, 신상품, 프로모션, 라이프스타일웨어, 스포츠웨어, 콜라보레이션으로 큰 카테고리가 나눠져 있었다. 카테고리별 segment와 subsegment별로 나누어져 있었다. 이를 정리한 구성도는 다음과 같다. 사이트를 보고 짐작한 것은 럭키박스, 베스트, 신상품 카테고리에는 나머지 카테고리에 속하는 상품을 가지고 뿌려주는것 이었다. 일단 데이터 확보하고 확인. category를 클릭하면 segment가 나오고, segment를 클릭하면 subsegment가 나온다. 이후 물품을 클릭하면 물품에 대한 정보와 댓글들이 확인된다. 그렇다면 데이터는 category, product, review 테이블로 나누어 수집한다. 테이블에 들어갈 컬럼들을 생각해 보니 아래와 같았다... 2023. 7. 18.
들어가며 스포츠웨어중 저렴하고 질이 좋아 가볍게 입는 fcmm브랜드가 있다. fcmm에서는 어떤 종류의 옷을 판매하고 있고, 소비자들의 인식은 어떨려나 라는 생각이 들어 분석해보고자 한다. [구상하는 전체 흐름] 스크래핑을 통해 데이터를 가져와 db(MySQL)에 저장한다. db에 저장한 데이터를 간단하게 sql을 통해 분석해 보고 분석에 용의한 형태로 변경한다. 태블로를 통해 시각화 하고 조금 더 딥한 분석을 진행한다. 2023. 7. 18.