본문 바로가기

👍 회고 기록/😎 업무 회고

[220810] 실무에 대해 많이 물어보고, 많이 얻어가기

📌수업 내용

SQL을 활용해 매출 데이터를 분석하는 실습을 진행했다. MY SQL에서 제공하는 자동차 판매 데이터를 활용했다.

  • 구매 지표 추출 (매출액, 구매자수, 구매건수, 인당 매출액, 건당 구매 금액, 당월 매출 누계, 월별 매출의 작년 대비 비율, Z차트)
  • 그룹별 구매 지표 추출 (국가별, 도시별 매출액, 북미 비 북미 매출액 비교, 매출 TOP5 국가 및 매출, ABC분석, 재구매율)
  • 베스트셀러 (특정 시장에서의 베스트셀러 상품 추출)
  • 이탈률 (Churn Rate)

💡보고 느낀 것

  • 이탈률을 구하고, 이탈의 원인을 찾아보면서 내가 이용하는 서비스들의 이탈률은 어느 정도인지 고민이 들었다. 모회사의 과제 전형을 수행할 당시 제공된 데이터가 일주일치여서 하루 단위로 이탈을 측정해서 분석 보고서를 제출했다. 면접에서도 이탈 기준을 주어진 데이터가 일주일 단위여서 하루 단위로 계산했다고 이야기했는데, 다시 생각해보니 데이터를 만들어서라도 한 달 정도의 분석을 해봤으면 어땠을까 싶다. 

질문한 내용

  • 코테 문제 풀면 많은 방법으로 정답에 도달할 수 있는데 좋은 쿼리의 기준은?
    코테 테이블은 간단해서 그렇지, 현업의 천만 단위 테이블을 다룰 때는 조인이나 유니온이 너무 많으면 안 된다. 메모리를 많이 차지하고 느린 등 효율이 안 나온다. 서브 쿼리나 함수를 주로 써서 메모리를 적게 써야한다. 서브 쿼리는 조인보다 속도 빠르기도 하다. 또한 DB에 자주 사용하는 테이블을 생성해서 사용하면 좋다.
  • 튀는 값 어떻게 구분하면 되는지?
    튀는 값은 콘텍스트 별로 다르다. 이탈이 일시적일 수 있고 시계열적일 수도 있다. 값을 추출해보고, 그때 어떤 이벤트가 있었는지 확인해주는 게 좋다. 어떨 때 튀는 값이다라고 정해져 있지는 않다.

😄감사한 일

  • SQL수업이지만, 강사님께 현업에 대한 내용을 많이 물어볼 수 있어 좋았다. 더 많이 질문하고 많이 배워야지!!

적용할 것

  • postgrel sql, pyspark 활용해서 동일하게 지표 추출 연습해보기