본문 바로가기
Machine Learning

머신러닝 기초통계

by wanttosleep1111 2023. 3. 11.

머신러닝 기초통계

 

1. 통계학

  • 과거 자료에 근거하여 자연 또는 사회 현상에 대한 과학적 추론과 불확실한 미래를 대비하기 위해 합리적 의사결정을 하고자 하는 학문
  • 통계학과 인공지능의 관계
    데이터를 사람이 통계학적으로 분석하는 데서 그치지 않고, 훨씬 방대한 양의 데이터를 기계가 효과적으로 분석하고, 이를 바탕으로 미래를 예측하기 위해 인공지능이 필요

 

2. 용어

  • 모집단 : 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합
  • 표본 : 모집단에서 추출한 일부 관측값이나 측정값의 집합
    (모집단을 대표하는 표본을 어떻게 잘 선정하느냐가 핵심)
  • 전수조사 : 모집단 전체를 조사하는 것
  • 표본조사 : 표본만 가지고 조사하는 것
  • 양적 자료 : 숫자로 표현할 수 있고 연산할 수 있는 수치형 데이터
    (ex: 키, 몸무게, 유권자 수 등)
  • 질적 자료 : 숫자로 표현할 수 없는 범주형(문자형) 데이터
    (ex: 성별, 직업 등)
     
  • 개체 : 연구자 또는 관찰자가 관심을 갖는 대상
    (ex: 신입사원)
  • 요인 : 개체에 관한 특성 중 연구자가 특별히 관심을 갖는 특성
    (ex: 신입사원의 스펙)
  • 변수 : 요인을 구성하고 있는 요소
    (ex: 학교성적, 자격증, 개발능력, 수상이력, 프로젝트 경험 등)
  • 독립 변수(Independent variable) : 다른 변수에 영향을 받지 않고, 종속 변수에 영향을 주는 변수
  • 종속 변수(Dependent variable) : 종속 또는 의존적 변수, 독립변수에 영향을 받아 변화하는 변수
    (ex: y = 3x ; y → 종속변수(출력값), x → 독립변수(입력값))
  • 도수 : 데이터 값이 나타내는 빈도 수 (개수)
  • 상대도수 : 도수를 전체 데이터의 숫자로 나눈 것 (비율), 총 도수가 다른 두 데이터를 비교 사용
  • 상자수염 그래프(Boxplot) : 사분위 수를 시각화
    Minimum : 최솟값 (이상치 제외)
    1st Quartile : 25% 값
    Median : 중간값
    3rd Quartile : 75%값
    Maximum : 최댓값 (이상치 제외)
    Outlier : 이상치, 최대 최소를 벗어난 값
    (최댓값 기준 : 3사분위 + IQR*1.5)
    (최솟값 기준 : 1사분위 - IQR*1.5)

 

 

  • 평균의 오류 : 다수의 데이터가 있을 때 평균만 가지고 데이터 분석 불가능
    (평균에서 각 데이터가 얼마만큼 떨어져 있느냐를 측정하는 측도가 필요)
  • 편차 (Deviation) : 관측값들이 평균으로부터 떨어진 거리
  • 분산 (Varience) : 편차 제곱의 평균 → 관측값들이 퍼져 있는 정도
    (제곱을 해서 마이너스 편차값을 없애준다. 절댓값을 쓰지 않는 이유는 미분을 이용하기 때문)
  • 표준편차 (Standard deviation) : 분산의 제곱근 → 제곱된 분산의 스케일을 원래대로 변경
  • 정규분포 : 통계에서 많이 사용되는 확률 분포로 좌우가 대칭인 종 모양 그래프
  • 표준정규분포 : 평균이 0, 표준편차가 1인 정규분포
    (평균과 표준편차가 서로 다른 정규분포를 쉽게 비교하기 위해 사용)

 

 

  • 산점도 (Scatter plot) : 데이터의 분포 형태, 경향을 확인

 

  • 상관계수(Correlation coefficient)
    피어슨 상관 계수 : 산점도에서 대략적으로 파악할 수 있는 두 변수 관계를 하나의 수치로 나타내는 방법
    공분산/표준편차*표준편차
    ※ 공분산 : 2개의 변수 간 선형 관계를 나타내는 수치 값
    -1 <= r <= 1 (r이 0에 가까울수록 변수 간의 연관이 없어짐, 수치의 절댓값이 클수록 두 변수는 서로 관계가 높음)
     

 

3. 인공지능과 수학

  • 데이터 처리부터 AI모델링 전 과정이 수학적으로 표현되며, AI학습 시 미분이 포함된 최적화 기법 사용
  • 미분 : 움직이고 변화하는 대상의 "순간적인 변화"를 설명
    (ex : 과속 카메라 구간 단속, 비행기 제동거리 측정, 아이스크림이 녹을 때 온도 변화, 행성의 움직임 등)

댓글