본문 바로가기

👍 회고 기록/😎 업무 회고

[220817] 평점 낮은 리뷰가 많다고 가장 많은 불만이 있다고 할 수 있을까?

📌수업 내용

캐글 데이터 중, 아래의 이커머스 의류 리뷰 데이터를 SQL에 import 해서 분석해보는 실습을 진행했다.

 

Women's E-Commerce Clothing Reviews

23,000 Customer Reviews and Ratings

www.kaggle.com

  • SQL csv import 방법
    (1) workbench 사용해서 바로 업로드 (용량이 많은 경우 오래 걸린다)
    (2) python으로 업로드 (좀 더 큰 파일에 용이)
  • 상품 리뷰 데이터 분석
    (부서별 평점, 연령대별 평점, 특정 키워드 비율 등)

💡보고 느낀 것

평점 낮은 리뷰가 많다고 가장 많은 불만이 있다고 할 수 있을까?

  • 리뷰 점수가 낮은 연령대를 카운팅해봤다. 카운팅 해보니, 40대의 리뷰 수가 가장 많았다.
  • 그러면 평점 낮은 리뷰가 많은 40대가 가장 만은 불만이 있다고 할 수 있을까?
  • 아니다. 지금 바로 판단할 수 없다. 단순히 카운트를 한 결과만 가지고는 불만이 많다는 것을 판단할 수 없다. 40대가 옷을 많이 구매해서 좋은 리뷰 만큼 나쁜 리뷰가 많을 수도 있기 때문에 비율을 봐야 한다. 불만 리뷰가 전체 리뷰 중 비중이 얼마나 되는지를 계산해야, 파악할 수 있다.
  • 데이터 분석을 할 때, 수치가 크고 작음을 어떤 기준으로 판단하는지에 대한 궁금증이 항상 있었다. 그래서 언제나 강의 등에서 질문하곤 했는데, 상황이나 도메인에 따라 다르다는 답변을 받았다. 처음에는 이해하기 어려웠지만, 위의 사례에서 어렴풋이 이해가 됐다. 어떤 지표던지 다른 것과 비교를 하면서 봐야 한다. 단순히 숫자가 크다라고 판단하는 게 아니라, 작년보다 얼마나 큰지 다른 항목보다 얼마나 큰지, 전체 비중 대비해서 몇 퍼센트인지 비교해보면서 판단해야 한다. 

리뷰 키워드를 파악할 때는 연관 키워드를 같이 봐주면 좋다.

  • 리뷰 내용에 특정 키워드가 얼마나 포함되어있는지, 살펴봤다. 불만 리뷰 내용을 몇가지 읽어보니 size에 대한 내용이 많아서 size, large, loose, small, tight 등의 키워드가 리뷰 텍스트에 얼마나 포함되어있는지 추출해봤다. 
  • 이때 large, loose 그리고 small, tight를 해준 이유는 small만 보는 게 아니라 tight를 같이 봐줌으로써 small이 정말 size가 작다는 문제인지를 가늠할 수 있기 때문이라고 한다. 

리뷰 데이터 텍스트 처리는 주로 파이썬을 사용한다.  

  • 리뷰 데이터를 분석 할 때 간단히 주요 키워드가 존재하는지 여부를 파악했다. 더 자세하게 하기 위해서는 텍스트 처리를 해줘야 한다. 
  • 텍스트 처리 할때 영어는 시제, 형태 등을 처리해줘야 하는데 SQL에서는 이것을 처리하기 쉽지 않다. 워드를 SPLIT 해줘야 하고, 변형이 되면서 문제가 되는 단어가 생길 수 있다. 원형을 찾아줘야 한다. 원형을 찾아서 SPLIT한뒤 COUNT 해줘야 하는데, MY SQL에서는 함수가 없다. 배열로 만들어줘야 하는데, 배열로 만드는 게 불가능하다. HIVE에서 SPLIT함수를 하거나 파이썬을 사용해야 한다. 
  • 그래서 현업에서는 리뷰 내용을 수치화할 때 파이썬을 주로 사용한고 아래의 방법을 사용한다고 한다. 
  • (1)TF-IDF(Term Frequency Inverse Documet Frequency) 사용
    -- 해당하는 단어가 몇 번이나 나왔는지 보는데 i, was 등 가치 업는 키워드는 제외된다. python을 활용해서 이 작업해주면 키워드를 파악할 수 있다. 
  • (2) 텍스트 분석 NLP(자연어 처리)

😄감사한 일

  • MY SQL WORKBENCH 비밀번호 문제로 초기화를 해야 했는데, 유튜브 영상을 보고 해결했다. 똑같은 에러가 발생해도 해결할 수 있는 힘을 길렀다. 좋은 정보를 제공하고 있는 영상 제작자 분께 감사하다. 
  • 내부 프로젝트를 준비하고 있는데, 열정적이고 적극적인 분들과 한 팀이 돼서 주제에 대해 논의하고 있다. 이미 다른 교육과정을 듣고 오신 분도 있어서, 그분들에게 많이 배우고 있다. 좋은 사람에게 배울 수 있음에 감사하다. 

적용할 것

  • TF-IDF(Term Frequency Inverse Documet Frequency) 찾아보기