본문 바로가기

📚 콘텐츠/📖 좋은 책

[데이터 분석가의 숫자유감] 데이터 분석가는 숫자에 대한 낭만적 경외감을 깨 줘야하는 존재다!

📖 데이터 분석가의 숫자유감

 

데이터 분석가의 숫자유감 - YES24

지금은 데이터 시대다 회사원이라면 누구라도 데이터 문해력을 길러야 한다이 책은 직장에서 흔히 발생하는, 데이터를 오해하면서 일어나는 에피소드를 만화와 글로 담았다. 그래서 재미도 있

www.yes24.com


💡콘텐츠 인사이트

2화 숫자의 불확실성

  • 숫자라는 건, 한 번도 절대적이 었던 적이 없어요. 이 사과를 ‘한 개’라고 부르는 것조차, 수많은 사람의 공통된 전제하에 만들어진 기준일 뿐이죠. 사과마다 크기와 맛이 다 다르지만, 한 덩어리의 열매라는 이유로 우린 이 모든 사과를 ‘한 개’라고 하는 거예요. 만약 사과를 봉지에 넣었다면, 봉지에 사과 몇 개가 들어있는지 상관없이 우린 ‘사과 한 봉지’라고 세겠죠
  • 데이터는 그 보다 훨씬 많은 전제와 요약이 더해져 생성된 것이기 때문에 그 기반에 있는 수많은 가정과 합의를 이해해야 한다. 무조건 큰 숫자를 고르는 건 상관관계로 인과관계를 해석하려는 거나 다름없어요.
  • 요즘 많이 사용되는 ‘데이터 기반 의사결정’은 수치화된 데이터를 기반으로 판단해 다음 행보를 결정하려는 것이고 결국 전후, 혹은 다양한 상황에서 얻은 데이터를 정량적으로 비교함으로써 이루어진다. 숫자 자체의 변화는 중요하고, 숫자 변화를 기반으로 한 판단은 명확한 듯 보인다. 하지만 직접적이고 단순한 숫자 비교에는 여러 딜레마가 있다. 세상은 가변적이고 크게 봤을 때는 동일한 것도 나눠서 보면 다르기도 하다. 단순한 숫자 차이가 있더라도 그 차이가 통계적으로 의미가 있는지 고려해야 할 전제 조건은 없는지 그 차이가 정말 여러 측면에서의 차이가 맞는 것인지를 여러 도구를 사용하여 고민해야 한다.
  • 숫자는 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다. 특히 데이터는 많은 가정과 합의에 의해 가지치기되고 단순화되어 요약되고 정리된다. 숫자를 비교하려면 정의, 실험, 실제 수치, 상황 등 고려해야 하는 전제가 생각보다 많다.
  • 무조건 숫자가 크고, 그래프가 잘 나오는 값을 고를 수는 없다.

4화 확률과 분포

  • 확률은 지나간 사건을 보상해주지 않는다. 동전 앞면이 세 번 나왔다 해도, 다음 뒷면이 세 번 나오지는 않는다. 하지만 사건의 반복을 통해 쌓이는 데이터는, 흙탕물에 맑은 물을 붓는 것처럼 이런 불균형을 정돈할 힘을 가지고 있다. 많은 기록이 지나간 후에는 대략 동전 앞면이 50%, 뒷면이 50%에 가까워진다.
  • 기존 결과가 없는 상태에서 어떤 확률을 구할 때는 사건을 임의로 일으켜 데이터 집합을 만들기도 한다. 이런 용도로 사용되는 A/B테스트 기법이 있다. 그래서 A와 B가 평균 10% 차이로 A가 더 높았고, 대략 전환율이 3%라는 결과가 정말 확실하다고 해도 (실제 상황에서는 이미 환경이 동일하지 않을 여러 변수가 있지만 무시한다고 해도) 실제로는 전환율이 훨씬 낮게, 혹은 더 높게 나오는 날도 존재할 수 있다. 다만 아주 오래 이를 두고 보면 수학자 베르누이가 말한 ‘큰 수의 법칙’에 따라 그 비율은 3%에 가까워질 수 있을 것이다.

5화 실험을 통한 의사결정

  • A/B테스트 계열의 실험은, 실험할 때는 실험 대상 외의 모든 변수를 일정하게 유지해야 그에 대한 효과를 파악할 수 있다. 물론 현실에서 다른 변수가 일정하다는 것은 불가능에 가깝다. A/B테스트의 경우, 임의로 나눈 두 집단의 값도 완전히 동일하지는 않겠지만 보통 ‘통계적 유의성’을 미리 파악하여 유의하다고 판단되는 선에서 실험을 진행해야 한다. 하지만 이외에 다른 변화가 일어날 가능성이 있다면(서비스 기능 추가, 프로모션 등), 실험 기간을 새로 고려하거나 실험 자체를 다시 고민해보는 것이 낫다. 실험 중 의도치 못한 변화가 생긴 경우라면, 해당 변화의 특성을 파악하고, 이에 따라 실험을 빠르게 중단하거나 재설계하는 등의 조치를 취할 수 있다.
  • 실험을 매우 세밀하게 설계하는 것이 중요하다.
  • 실험 대상이 된 데이터는 다른 데이터와 마찬가지로 고객의 사용내역이 기록된 데이터지만, 실험 내용이 섞여 있어 이를 그대로 사용할 수 없다. 최소한 데이터를 사용하는 사람이 해당 데이터가 기록된 시기에 실험이 이루어졌다는 것을 인지하고 알고 있어야 한다.

8화 시계열 데이터

  • 시계열 데이터는 시간에 따른 변화를 데이터로 나타낸 것이다.
  • 시계열 데이터를 분석할 때는 이를 크게 추세, 주기, 계절성으로 구분하여 분석해야 한다.
    • (1) 추세 : 장기적으로 늘어나거나 줄어드는 형태 → 수치가 떨어지는 지접도 존재하지만, 추세상으로는 오르고 있다고 분석할 수 있다.
    • (2) 주기 : 고정된 시간 단위로 유사한 변동 형태가 나타나는 경우 (형태의 반복) → 평일 지하철 승객 수 데이터에서 출퇴근 시간에 상승하는 그래프가 그려지고, 이 모양은 24시간이라는 일정한 시간 단위로, 월~금이 비슷한 형태로 반복된다.
    • (3) 계절성 : 주기적으로 반복되는 때에 어떤 사건이 발생하는 것 (빈도의 반복) → 밸런타인데이에 초콜릿 판매량이 특히 증가
  • 많은 사람은 데이터를 볼 때 자신의 사고에 갇혀 시야가 좁아진다. ‘시간을 고려한다’는 것 역시 많은 경우, 이런 이유로 무심하게 파묻어버리며 어제와 오늘의 숫자 변화에 일희일비하고는 한다.

9화 별점의 함정

  • 데이터는 ‘무슨 일’이 일어났는지는 알려줘도, 그 일이 ‘어떻게’ 일어났는지, 어떤 감정으로 일어났는지는 알려주지 않는다. 매출 데이터만 봐서는 이런 고객들의 의도나 만족도를 알 수 없다.
  • 간단한 만족도 조사도 마찬가지로, 사람들의 별점이 사람들의 만족도를 정확히 나타내 주진 않는다. 그래서 고객이 매기는 점수같이 사용자가 직접 입력하는 데이터 대신 고객의 실제 행동 데이터 같이 프로그램이 남기는 데이터를 보고 추정해볼 수 있다. (ex. 어떤 고객이 우리 서비스를 구입하고, 다음에 또 구입했다면 만족도가 높다고 볼 수 있다. → 재구매율, 이탈률)

10화 인구통계학 정보의 효용성

  • 인구 통계학이라는 자연히 주어진 숫자보다는 실제로 고객이 매일마다 움직이는 행동 데이터를 기반으로 고객을 이해하는 것이 더욱 필요하다.
  • ex. 말레이시아의 2017년 유튜브 통계에서 육아 주제 동영상의 시청자 중 40%가 남성이고, 50%가 35세 이상이었다는 사실이 밝혀졌다. 인구통계만(25~35세 여성)을 이용해서 광고를 진행한 브랜드라면 최소 40%의 잠재고객을 놓치고 있을지도 모른다.

11화 조건부 확률

출처 : 데이터 분석가의 숫자유감 (대답을 데이터를 활용해서 논리적으로 풀어나가고 있다)

  • 현재는 다양한 과거에 의한 결과이고, 유사한 모양의 현재라고 하더라도 변화의 양과 방향은 같지 않아, 현재라는 평면 아래 감춰진 입체적 모습은 각기 다른 형태를 띤다. 이를 고려하지 않고 현재의 숫자를 과도하게 객관화해서 사용하면 오히려 잘못된 결정을 내릴 수 있고, 이런 일이 반복되다 보면 데이터가 쓸모없는 것 일지도 모른다는 오해를 불러일으키기도 한다. 각각의 데이터로 그려진 사진 뒤에는 많은 사건이 함축되어 있다는 것을 알고 제대로 천천히 바라봐야 한다.

12화 범위 제한을 통한 정확도 향상

  • 데이터 활용의 근간은 ‘논리’다. 논리는 명확한 정의와 범위의 제한으로부터 시작한다.
  • 자전거가 시속 100Km를 달릴 수 없고, 강을 건널 수 없다고 해서 자전거를 쓸모없는 탈거리라고 치부하지 않는다. 자전거는 ‘단거리를 적당한 속도로 가는 데 사용하고, 보관이 쉽다’는 용도를 파악하고 그 한계에 맞춰 사용한다면 충분히 훌륭한 수단이다. 이는 물건뿐만 아니라 지식에서도 사용한다. 데이터 분석해서 만들어낸 결과 역시 제약 사항을 명확히 정의했을 때 효과적인 수단이 된다.

14화 데이터 문해력

  • ‘데이터는 진실만을 말한다’라고 쉽게 들 생각해서 데이터 사용이 오늘날 널리 퍼졌지만, 우리는 이런 명제와 함께 디즈레일리가 말했다고 전해지는 “세상에는 세 가지 종류의 거짓말이 있다. 거짓말과 새빨간 거짓말, 그리고 통계다”라는 문장도 같이 기억해둘 필요가 있다. 데이터를 분석한다는 것은 결국 수를 처리한다는 것이다. 사람들은 숫자에 대해 낭만적 경외감을 가지고 있어, 일단 숫자만 들이대면 더 이상 이를 ‘이해하고 해석하려고’ 하지 않는다. 그렇게 사람들은 통계의 거짓말에 속아 넘어간다.

📝의견 및 추후 적용사항

✍️ 의견

  • 데이터를 볼 때 뭘 주의해야 할지 알려주는 책이었다. 특히 '2화 숫자의 불확실성' 부분이 가장 인상 깊었다. 데이터를 다루다 보면, 어느 순간 분석 목적을 잃고 숫자에 매몰되어 숫자에 집착하고 있는 나 자신을 발견한다. 경계해야지 다짐해도 계속 생각하지 않으면 잊게 된다. 이를 잊게 되면, 많은 의사결정을 단순히 더 큰 숫자를 고르는 것으로 끝날 수 있다.
  • 더 큰 숫자를 고르는 것은 데이터 기반 의사결정이 아니다. 결정 전에 분석의 목적을 생각해야 하고, 숫자를 더 깊게 뜯어보면서 차이가 정말 유의미한지도 검증해 봐야 한다. 전환율이 100%인 A그룹과 30%인 B그룹을 비교하면서, A그룹을 타깃 고객으로 삼자는 의사결정은 매우 성급한 것일 수도 있다. A그룹의 전체 수는 2명이고, B그룹의 전체 수는 100명일 수도 있기 때문이다. 더 깊이 들어가서 판단해야 한다. 
1. 무조건 큰 숫자를 고르는 건 상관관계로 인과관계를 해석하려는 거나 다름없어요.
2. 숫자는 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다.
3. 단순한 숫자 차이가 있더라도 그 차이가 통계적으로 의미가 있는지 고려해야 할 전제 조건은 없는지 그 차이가 정말 여러 측면에서의 차이가 맞는 것인지를 여러 도구를 사용하여 고민해야 한다.
4. 데이터를 분석한다는 것은 결국 수를 처리한다는 것이다. 사람들은 숫자에 대해 낭만적 경외감을 가지고 있어, 일단 숫자만 들이대면 더 이상 이를 ‘이해하고 해석하려고’ 하지 않는다. 그렇게 사람들은 통계의 거짓말에 속아 넘어간다.
  • 위의 네 가지 말은 많은 생각을 하게 만든다. 내가 데이터 분석가를 꿈꾸게 된 이유는 숫자를 근거로 설득할 수 있기 때문이었다. 숫자는 확실하다는 전제를 깔고 생각했었는데, 데이터 분석을 하면 할수록 숫자는 불확실하다는 것이 무슨 말인지 이해가 된다.
  • 숫자에 대한 무수한 합의와 기준이 필요하고, 이는 산업별로 아니 회사별로 다 다르다. 어떻게 보면 가장 불확실하기 때문에 숫자를 판단할 데이터 분석가가 필요한 것 같기도 하다. 모든 사람에게 데이터를 해석하는 역량이 필요하지만, 특히나 데이터 분석가는 숫자에 대한 낭만적 경외감을 깨 줘야 하는 존재다. 이를 집요할 정도로 파고들고 해석하여 통계의 거짓말에 속아 의사결정이 이뤄지지 않게 해야 한다. 

✨적용할 것 

  • 기존 결과가 없는 상태에서 어떤 확률을 구할 때는 사건을 임의로 일으켜 데이터 집합을 만들기도 한다. 이런 용도로 사용되는 A/B테스트 기법이 있다. A/B테스트 실험을 설계하고 해석하는 방법과 사례를 찾아보고, 일상생활에서 A/B테스트 적용해보기!