머신러닝 기초통계
1. 통계학
- 과거 자료에 근거하여 자연 또는 사회 현상에 대한 과학적 추론과 불확실한 미래를 대비하기 위해 합리적 의사결정을 하고자 하는 학문
- 통계학과 인공지능의 관계
데이터를 사람이 통계학적으로 분석하는 데서 그치지 않고, 훨씬 방대한 양의 데이터를 기계가 효과적으로 분석하고, 이를 바탕으로 미래를 예측하기 위해 인공지능이 필요
2. 용어
- 모집단 : 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합
- 표본 : 모집단에서 추출한 일부 관측값이나 측정값의 집합
(모집단을 대표하는 표본을 어떻게 잘 선정하느냐가 핵심) - 전수조사 : 모집단 전체를 조사하는 것
- 표본조사 : 표본만 가지고 조사하는 것
- 양적 자료 : 숫자로 표현할 수 있고 연산할 수 있는 수치형 데이터
(ex: 키, 몸무게, 유권자 수 등) - 질적 자료 : 숫자로 표현할 수 없는 범주형(문자형) 데이터
(ex: 성별, 직업 등)
- 개체 : 연구자 또는 관찰자가 관심을 갖는 대상
(ex: 신입사원) - 요인 : 개체에 관한 특성 중 연구자가 특별히 관심을 갖는 특성
(ex: 신입사원의 스펙) - 변수 : 요인을 구성하고 있는 요소
(ex: 학교성적, 자격증, 개발능력, 수상이력, 프로젝트 경험 등) - 독립 변수(Independent variable) : 다른 변수에 영향을 받지 않고, 종속 변수에 영향을 주는 변수
- 종속 변수(Dependent variable) : 종속 또는 의존적 변수, 독립변수에 영향을 받아 변화하는 변수
(ex: y = 3x ; y → 종속변수(출력값), x → 독립변수(입력값)) - 도수 : 데이터 값이 나타내는 빈도 수 (개수)
- 상대도수 : 도수를 전체 데이터의 숫자로 나눈 것 (비율), 총 도수가 다른 두 데이터를 비교 사용
- 상자수염 그래프(Boxplot) : 사분위 수를 시각화
Minimum : 최솟값 (이상치 제외)
1st Quartile : 25% 값
Median : 중간값
3rd Quartile : 75%값
Maximum : 최댓값 (이상치 제외)
Outlier : 이상치, 최대 최소를 벗어난 값
(최댓값 기준 : 3사분위 + IQR*1.5)
(최솟값 기준 : 1사분위 - IQR*1.5)

- 평균의 오류 : 다수의 데이터가 있을 때 평균만 가지고 데이터 분석 불가능
(평균에서 각 데이터가 얼마만큼 떨어져 있느냐를 측정하는 측도가 필요) - 편차 (Deviation) : 관측값들이 평균으로부터 떨어진 거리
- 분산 (Varience) : 편차 제곱의 평균 → 관측값들이 퍼져 있는 정도
(제곱을 해서 마이너스 편차값을 없애준다. 절댓값을 쓰지 않는 이유는 미분을 이용하기 때문) - 표준편차 (Standard deviation) : 분산의 제곱근 → 제곱된 분산의 스케일을 원래대로 변경
- 정규분포 : 통계에서 많이 사용되는 확률 분포로 좌우가 대칭인 종 모양 그래프
- 표준정규분포 : 평균이 0, 표준편차가 1인 정규분포
(평균과 표준편차가 서로 다른 정규분포를 쉽게 비교하기 위해 사용)

- 산점도 (Scatter plot) : 데이터의 분포 형태, 경향을 확인


- 상관계수(Correlation coefficient)
피어슨 상관 계수 : 산점도에서 대략적으로 파악할 수 있는 두 변수 관계를 하나의 수치로 나타내는 방법
공분산/표준편차*표준편차
※ 공분산 : 2개의 변수 간 선형 관계를 나타내는 수치 값
-1 <= r <= 1 (r이 0에 가까울수록 변수 간의 연관이 없어짐, 수치의 절댓값이 클수록 두 변수는 서로 관계가 높음)

3. 인공지능과 수학
- 데이터 처리부터 AI모델링 전 과정이 수학적으로 표현되며, AI학습 시 미분이 포함된 최적화 기법 사용
- 미분 : 움직이고 변화하는 대상의 "순간적인 변화"를 설명
(ex : 과속 카메라 구간 단속, 비행기 제동거리 측정, 아이스크림이 녹을 때 온도 변화, 행성의 움직임 등)
'Machine Learning' 카테고리의 다른 글
머신러닝 Decision Tree, 교차 검증, 특성 선택 (0) | 2023.03.20 |
---|---|
머신러닝 분류 평가 지표 (0) | 2023.03.12 |
머신러닝 기초 3, KNN모델을 이용한 붓꽃 품종 분류 실습 (0) | 2023.03.12 |
머신러닝 기초 2, 비만도 데이터 이용 학습 (0) | 2023.03.11 |
머신러닝 기초 1, and/xor 연산 (1) | 2023.03.11 |
댓글