본문 바로가기

👍 회고 기록/😎 업무 회고

[220725] 실험 설계 해보기 ("애플이 앞으로도 잘 나갈까?" vs "지금 아이폰을 쓰는 사람은 휴대폰을 바꿀 때도 아이폰을 쓸까?")

📌수업 내용

유재명 강사님의 <실험 설계>를 들었다. 개강식에서 데잇걸즈 5기 수료생분들 중에 세 분을 만났는데, 세 분 모두 최애 강사님으로 통계를 강의하시는 유재명 강사님을 뽑으셔서 정말 기대됐다.

  • 통계는 왜 필요한가?
    → 프로젝트에서 결과 발표할 때는 sql, python을 보여주기 쉽지 않아서, 통계기법 어떻게 처리했는지 보여주게 된다. 통계를 하면 좋은 결과받을 수 있다. 
    → 사람들은 경험적으로 괜찮은 답을 찾는데(휴리스틱 hueristic), 어떤 경우에 잘 맞지 않다. 휴리스틱을 극복하려면 통계가 필요하다.
  • 데이터 분석가는 무엇을 해야 하나?
    → (1) 통계적 사고를 바탕으로 데이터를 분석, (2) 다른 사람이 쉽게 이해할 수 있도록 이야기, 대표적 사례 등등으로 잘 포장해서 커뮤니케이션
    → 경험적으로 봤을 때 (2)로 문제가 생기는 경우 많다. 데이터 분석을 하는데 너무 스토리텔링 하려고 하고, 데이터나 숫자에 끼워 맞추려고 해서 문제가 생긴다. (1)과 (2)의 균형을 맞추는 게 중요하다.
  • 통계는 왜 어려운가?
    → 매우 늦게 형성된 학문으로 기존의 인류의 자연스러운 사고방식과는 동떨어져 있다.
    → 직관적 관점에서 이해하지 말고, 통계적 관점을 수용할 필요가 있다.
    → 용어 번역이 이상한 경우 많으니 용어만 보고 대충 짐작하면 안 된다. 
  • 통계 분석을 통해서 할 수 있는 일들 (데이터 분석가가 하는 일)
     (1) 대상의 특성을 수치로 표현하기 
     (2) 부분을 통해 전체를 추측하기 
     (3) 비교하기 
     (4) 예측하기 
     (5) 영향력을 미치는 변수 찾기 
     (6) 지수(index) 만들기 
     (7) 비슷한 것 끼리 모으기 
  • (1) 대상의 특성을 수치로 표현하기 
    → 무엇이든 수치로 표현할 수 있음 (양적인 것은 물론 질적인 것도)
    → 수치가 대상을 파악하기에 좋은 성질을 가지고 있는가? 질문해보기 
  • (2) 부분을 통해 전체를 추측하기
    → 부분을 통해 전체를 합리적으로 추측하는 것이 필요
    → 추측은 맞을 수도 있고 틀릴 수도 있다. 항상 맞는 것이 아니고 대체로 맞다는 뜻이므로 합리적인 추측 매우 중요 
  • (3) 비교하기 
    → 여러 개 대상을 비교해야 하는 경우가 많이 있음 (임상시험, A/B테스트) 
  • (4) 예측하기 
    → 미래에 대한 예측도 있지만, 쉽게 파악하기 어려운 특성을 예측할 수 있음!
    → 비즈니스에서 예측은 매우 중요 
  • (5) 영향력을 미치는 변수 찾기 
    → 목적으로 하는 특성에 영향이 큰 변수를 분별 
    (ex. 목적은 높은 만족도, 영향이 큰 변수로는 가격, 친절함 등 
    → 해당 변수를 높이거나 낮추어 목적으로 하는 특성을 조절 
    (ex. 고객 만족도를 직접 높일 수는 없지만, 더 친절하게 응대하는 것은 가능)
  • (6) 지수(index) 만들기 
    → 대상의 특성 중에는 직접적으로 관찰하기 어려운 것이 있음 
    →  이러한 특성은 관찰 가능한 다른 특성들과 연관을 맺고 있음 
    → 관찰 가능한 특성들을 바탕으로 관찰하기 어려운 특성을 지표화 할 수 있음 
    (ex. 학점 평균도 이 사람의 성적을 판단하기 위해 지수를 만든 것임)
    →  대상 자체가 실재하지 않는다 해도, 이 지표를 통해 의사결정이 쉬워짐 (도구주의)
  • (7) 비슷한 것끼리 모의기 
    → 대상의 다양한 특성을 바탕으로 비슷한 것 끼리 모아서 하나의 집단으로 인식하면 편리한 경우 있음 
    (ex. 비슷한 고객들에게 같은 프로모션이나 추천을 할 수 있음)
  • 데잇걸즈 과거 프로젝트 예시 
    → 주거지 추천 : 주거지 별 특징을 지수화하여 라이프스타일에 맞는 주거지를 추천 (지수화)
    → 당근마켓 매물 분석 : 매물 제목과 조회수의 관계 분석 (예측하기) 
  • 프로젝트 주제 실험 설계해보기 (아래 이미지로 정리)

 

  • 데이터 모으기 
    → 공공데이터 
    → 인터넷 스크래핑 : 리뷰(쓰는 사람만 써서 편중되기 쉬움), 매물 정보 (허위 매물 있을 수 있음)
    → 기업 등 내부 자료 : 회사 다니면 쉽지만, 분석을 목적으로 모은 데이터가 아니고 프로세스에서 축적된 자연스러운 데이터일 거다. 분석 목적이 아니어서 분석하기 힘들 수 있다. 
    → 직접 수집 : 설문조사 (질문 작성 매우 중요)
  • 질문 작성하는 방법 
    → 이용하는 이유를 물어보면, 답변자 입장에서 어려울 수 있다. 답변을 큰 기대 안 하는 게 좋다. 사용자가 별 이유 없이 이용할 수 있다. 
  •  6기 멤버들이 선정한 주제에 대한 강사님 코멘트 
    → 주식이나 정치는 데이터 분석 안 하는 게 좋다. 주식은 통계적으로 예측이 안된다.

    → 정책을 데이터 분석으로 하기 어렵다.  비교하기가 어려워 쉽지 않다. 정책은 전국적으로 적용이 된다! 미국 연방제는 주마다 정책이 다르기 때문에 가능하다. 작년 노벨 경제학상 받으신 분이 최저 임금제 연구가 유명한데, 주마다 최저 임금이 좀 달라서 가능한 거다
    →시간적인 게 들어가면 대체로 어렵다. 동네별 집값 비교는 비교할 수 있는 기회 많은데, 시간대별로 비교, 미래 예측은 어렵다. 기회가 적다. (미래 예측이 쉬운 거는 주기적으로 반복되는 경우 그나마 쉽다.)
    →추천의 경우, 추천의 목적을 궁극적으로 정하는 게 좋다. 매출, 화제성 등 어떤 것을 목적으로 할지 정하고 비교에 들어가면 좋다.(ex. 이벤트를 지역 A에 하는 경우와  지역 B에 하는 경우, SNS 업로드 수로 화제성을 비교로 하겠다 등)
    → 상권은 뜨고 지는 기간이 너무 길기 때문에, 상권 발달 가능성 높은 지역을 예측하는 것은 정말 어렵다.
    → 게임 패치 전과 후는 다른 환경도 다 같이 변하기 때문에 통제해서 보기 어렵다.
    → 인재 채용 공고문을 첨삭해주는데, 통계로 단어 비중을 분석해서 지원자가 더 지원하게 만들게 해주는 경우도 있다. 하지만 지원율이라는 게 나올 회사가 많이 없어서 쉽지 않다.
    → 변수를 생각할 통제할 수 있는 변수를 생각해야 한다.
    → 시간별이 아닌 개인별로 비교하는 걸로 바꿔보면 더 쉽다. 
    → 옷이 어느 정도 옷차림에 적절한지 지수화해서, 옷가게 옷에 붙여서 팔면 재밌을 듯, 떼돈 벌 수 있다.
    → 잘 팔리는 상품의 특성을 비교해서, 새롭게 나오는 상품이 얼마나 팔릴지는 예측 가능
    → 브랜드의 위상은 과거와 현재가 다르기 때문에 과거의 데이터를 분석하는 게 큰 도움이 안 된다.

💡보고 느낀 것

오늘 수업에서 이론뿐만 아니라, 실무적으로 중요한 것도 많이 배웠다. 재밌는 데이터가 가장 중요하다는 말씀이 가장 인상 깊었다. 

  • 회사 일은 돈을 버는 것이고, 고객이 원하는 큰 줄기를 잘 맞추는 것이 중요하다. 디테일한 거에 너무 집착하면 안 된다. 큰 줄기 같은 경우, 많은 데이터가 필요하지 않을 때가 있다. 큰 줄기가 맞으면 방법이 좀 틀려도 결과는 맞다.
  • 데이터 분석은 데이터 분석(통계)을 해서 의사결정을 지원하는 건데, 의사결정자들이 통계를 잘 모른다. 분석 결과를 이해시키기 어렵다. 복잡한 통계기법으로 분석한 결과를 안 좋아할 가능성이 높다. 데이터 분석가의 딜레마다.
  • 데이터 분석 결과를 보면, 통계적 사고가 없는 경우는 없다. 다만 데이터로 많이 좌우된다. 데이터가 재밌는 게  제일 중요하다. 작년에 당근마켓분석이 재밌었던 이유는 데이터에 있다. 재밌는 데이터를 구하는 게 포인트이다. 분석의 방법론은 정해져 있기 때문에(잘하는 사람은 있을 수 있겠지만), 데이터가 제일 중요하다. 프로젝트나 회사에서 일할 때도 어떻게 하면 고객들의 의견을 반영할 수 있는 데이터를 수집할 수 있을까 고민 필요
  • 인과관계를 입증하는 게 굉장히 어려운 문제다, 하지만 학자가 아닌 실무자 입장에서 생각해보면, A를 달성하기 위해 B를 했더니 A가 달성이 돼. 그러면 목적이 달성된 거니깐 꼭 인과관계에 너무 집중할 필요는 없다. 결과/목적을 잘 달성할 수 있는지가 중요하다.
  • 언제나 사업이나 비즈니스 적으로 생각해보면 좋을 것 같다. 이 분석을 통해 어떤 비즈니스 결과를 창출해 볼 수 있을까? 관찰자 입장에서 보게 되는데 ACTION으로 할 수 있는 걸로 보면 좋을 것 같다.

😄감사한 일

  • 프로젝트 주제 설계를 하고, 강사님이 하나씩 피드백을 해주셨다. 
  • 서버 내 게임 경제 지표를 수치화해보고 싶다는 주제를 정하고, 이벤트나 패키기가 출시됐을 때 경제 지표에 어떤 영향을 미칠지 예측해보고 싶다고 작성했다. 이에 대해 중요한 피드백을 받았다. 실험 설계 이론과 일맥상통하는데, 반복되는 이벤트나 동일한 패키지가 아닌 경우 이벤트는 한 번 밖에 없는 고유한 사건이어서 분석이 대체로 어렵다는 것이었다. 유저별로 어떻게 될지, 개인별 비교로 쪼개서 들어가야 한다는 말씀이었다.
  • 앞선 기수 분들도 프로젝트 주제 정한 뒤에 너무 어려워서 바꾸는 경우가 많았다고 한다.  주제 잡는 것은 오늘 배운 관점으로 항상 연습해보면 좋을 것 같다고 얘기해주셨다. 
  • 정말 중요한 관점을 배워서 다행이다. 배운 관점으로 다시 주제를 생각해봐야겠다. 

좋아! 배운 관점으로 주제를 다시 생각해보자!

적용할 것

  • 프로젝트 주제 잡는 연습 하루에 하나씩 해보기
  • 데잇걸즈 재작년, 작년 발표 자료 보기