본문 바로가기

👍 회고 기록/😎 업무 회고

[220816] 모수는 모집단의 특성을 수치화 한 것!

📌수업 내용

확률과 통계 수업!

  • 변수를 구분하는 게 중요하다. 변수에 따라 할 수 있는 분석 종류가 다르기때문
    -> (1) 범주형 변수 (주거 형태, 고향, 학력, 출석 등) : 덧셈 등 대부분의 연산이 의미가 없다. 
    -> (2) 연속형 변수 (무게, 나이, 시간, 거리, 자녀의 수, 시험 점수 등) : 연적인 형태로 연산이 의미가 있다. 
  • 변수와 데이터가 있으면 통계를 내야 하는데 통계의 종류는 2가지 
    -> (1) 기술 통계 (여기서 기술은 tech가 아닌 descriptive로 묘사, 설명) : 데이터를 묘사, 설명
    -> (2) 추론 통계 : 데이터를 바탕으로 추론, 예측 (대부분의 통계는 추론 통계다) 
  • 기술 통계치 : 데이터를 묘사, 요약, 설명하는 통계적 방법과 절차들 
    -> (1)  중심 경향치 : 평균, 중간값 or 중위수, 최빈값 (범주형 변수에서 유용하다)
    -> (2) 분위수 : 등수를 매겨준다. (오름차순) 크기 순으로 정렬된 데이터를 q개로 나누는 위치의 값
    -> (3) 변상성 측정치 : 데이터가 퍼져있는 정도를 나타내는 수치
  • 변상성을 지표와 시킬 수 있는 두가지 방법 
    -> (1) 범위 = 최댓값 - 최솟값 : 최댓값과 최솟값에 극단값이 들어있으면 범위가 늘어난다. 
    -> (2) 사분위간 범위 (IQR) : 3사분위(상위 25%)- 1사분위(하위 25%)
  • 박스 플롯 : 상자 옆면이 IQR (Whisker선의 디폴트값은 1.5배에 그어준다. 1.5배 넘어가는 값이 있으면 점으로 표시)

  • 편차 : 값 - 평균
  • 분산 : 편차가 크고 작음을 지표화 시킨 지표로 편차 제곱의 평균 
  • 표준 편차 : 데이터의 변산성(크고 작은 정도)를 지표화 시키려고 만들었다. (편차를 제곱하면 크기가 커지므로 분산에 루트 씌운 값)
  • 모 집단 population : 연구의 관심이 되는 집단 전체 (애매함)
    → 현실에서는 너무 많고 애매해서 파악 불가 (관찰 불가능)
  • 표본 sample : 특정 연구에서 선택된 모집단의 부분집합
    → 통계에서는 낱개의 하나의 사례가 아니라, 모은 부분집합을 의미
    → 실습 자료 중 차 1대가 표본이 아니라 274개가 표본이다.
  • 표집 sampling : 모집단에서 표본을 추출하는 절차 (표본추출이라고도 함)
    → 우리가 하는 모든 통계는 sample을 가지고 하는 것이다.
    → 표본을 가지고 모집단을 추측하는 거다.
  •  모수(population parameter) → 엄청나게 중요한 용어!!!
    = 모집단(population)의 파라미터 → 모집단의 특성을 나타내는 값, 모집단의 특성을 수치화한 것을 의미

    • 모평균 : 모집단의 평균 (파라미터 중 하나다, 모수중 하나다)
    • 모분산 : 모집단의 분산 (파라미터 중 하나다, 모수중 하나다)
  • 주의! “표본의 크기”를 “모수”라고 하는 경우도 있으나 잘못된 표현
  • 통계량(통계치) sample statistic
    = 표본에서 얻어진 수로 계산한 값 (=통계치) → 뭘 계산했든, 표본에서 나온거로 계산하면 표본값
    • 표본평균 : 표본의 평균
    • 표본분산 : 표본의 분산
  • 추론 통계 inferential statistics : 표본 통계량을 일반화하여 모집단에 대해 추론하는 것 
  • 추적 : " 통계량(표본의 평균)으로 모수(모집단의 평균)를 추측하는 절차
    -> 추정 point estimate : 하나의 수치로 추정
    -> 구간 추정 interval setimate : 구간으로 추정 → 어느정도 정확하게 추정하는 방법

구간 추정에서 제일 흔하게 많이 사용하는 신뢰구간 comfidence interval

  • 대표적인 구간 추정 방법 (신뢰할 수 있는 구간 아님, 믿으면 안 됨!!!, 이름만 그런 거니 맞을 수도 있고 틀릴 수도 있다.)
  • 신뢰구간 = 통계량(데이터에서 직접 구한 값) +- 오차범위

신뢰 수준 comfidence level

  • 신뢰구간에 모수가 존재하는 표본의 비율
    • 신뢰 수준이 높음 → 많은 표본을 포함 → 더 넓은 오차 범위 → 정보가 작음 (일본 프로파일러 사례, 이 말을 듣고 할 수 있는 행동이 없다.)
    • 신뢰수준이 낮음 → 적은 표본을 포함 → 더 좁은 오차 범위 → 정보가 많음
  • 신뢰구간이 좁으면 신뢰수준이 낮으므로 타협이 필요
    • 교과서적으로 95%, 99% 등을 추천하거나 절대적 기준은 없음
    • 감수할 수 있는 수준에서 결정 →신뢰 수준을 높인다는 것은 어떤 경우에도 틀리지 않게 만들겠다라고 이야기하는거다. →신뢰수준을 무한히 높일 수 없는게, 모든 예외를 다 넣어야하는건데. 이러면 의사결정을 할 수 없다.
  • 신뢰수준 95% 신뢰구간 (예외 5%는 쳐냄) → 신뢰구간이 좁음 (길이 막힐 것 만 생각함 20~30)
  • 신뢰수준 99% 신뢰구간 (예외 1%만 쳐냄) → (비가 많이 올 가능성까지 생각함 20 ~80)
  • 신뢰 수준이 높다는 더 정확하다는 이야기가 아니다 → 틀리지 않는 말로는 의사결정을 할 수 없다.
  • 신뢰수준이 높다는 것은 더 많은 경우의 수를 생각하는 거다. (일본 프로파일러 이야기는 신뢰수준 100%다, 하지만 정확한 거는 없다. 범위가 넓어 틀리다 맞다 중에는 맞는 쪽인데, 범인은 잡고 보면 맞는데, 이 말로 범인을 어떻게 잡을지는 애매함)
  • 예시 → 의사결정을 취하는 액션의 기준 선으로 활용
    • 중고차 회사를 차리려고 한다, 평균 800만 원 정도 되면 수수료 몇% 먹고 충분히 수익이 되겠다.
    • 신뢰 수준 95% 신뢰구간 853만 원±40만 원 (아까 평균이 853만 원이니) 814~853이니 할 수 있는 사업이다.
    • 만약 이 사업 리스크 안 지고 싶어 신뢰 수준 99% 신뢰구간 계산해보니
    • 신뢰수준 99% 신뢰구간 853만 원±52만 원이니, 801~905더라. 애매하니 이럴 땐 시장조사 더 해봐야 한다.

💡보고 느낀 것

  • 그러려니 하면 된다. 이해한다는 것에 대한 환상 x
  • 이해하는 것보다 표준편차를 이용해서 뭘 하려고 하는 거냐? 가 중요!
  • 정답이 존재한다는 환상 X!! 어떤 지표가 완벽하다는 것 없음!
  • 지표마다 보여주는 부분이 다르니 여러 가지 지표 알아야 한다.
  • 데이터 분석의 목적은 의사결정을 하는데 필요한 만큼!
  • 데이터를 가지고 뭘 하려는 게 없기 때문에, 어려운데 대략적인 목적을 기준으로 파악해서 기준을 설정하면 된다.
  • 모집단 : 고객 전체 (살면서 고객 전체 데이터 볼 일 이 없다, 우리가 고객 전체라고 생각해도 알고 보면 고객 전체가 아니다, 최종적으로 구매한 사람 데이터만 보게 된다)
  • 만약 자동차 회사 데이터 분석가, 여러분의 고객은 누구일까?
  • (1) 30년 전에 포니 2를 구매한 후 다시는 국산차를 안 사는 어르신 → 우리가 보는 데이터
  • (2) 자녀를 낳고 새 차 구매를 고민하는 신혼부부 (아직 차 없음)
  • (3) 방금 고등학교 졸업한 대학 신입생

😄감사한 일

  • 통계 용어에 대해 명확하게 배워서 좋았다. 면접 때 나올 수 있는 질문이어서 공부했었는데 따로 면접 치트를 만들어 관리해봐야겠다.
  • 많은 분들이 질문한 걸로 더 깊은 이해를 할 수 있어 감사했다. 

적용할 것

  •  면접 - 기술 질문 치트 시트로 정리해두기