본문 바로가기

분류 전체보기73

머신러닝 로지스틱 회귀(Logistic Regression) 머신러닝 로지스틱 회귀(Logistic Regression) 1. 로지스틱 회귀 선형 모델 방식을 기반으로 이진 분류를 수행하는 모델 이름은 회귀(Regression)이지만 숫자 0과 1로 구분하는 분류 모델 ※ 선형 모델 방식을 분류에 사용하는 이유 선형 모델은 간단한 함수식을 사용하기 때문에 학습 및 예측 속도가 빠름 매우 큰 데이터 세트에서도 잘 동작 일반적으로 특성이 많을수록 더 잘 동작 (특성이 적은 데이터에서는 다른 모델이 더 좋은 경우가 많음) 선형회귀 직선을 사용하여 두 집단을 분류할 수 있다는 점에서 착안 ex) 선형회귀 직선을 사용하여 분류하면 20시간을 공부했을 경우 y값이 1보다 커지게 되어 특별한 의미가 없어져버리고 합격 판단의 기준이 어려워짐 주요 매개변수(Hyperparamet.. 2023. 3. 24.
머신러닝 선형 회귀 머신러닝 선형 회귀 1. 회귀 연속적인 실수 값을 예측하는 분야 2. 선형 회귀 (Linear Regression) 직선의 형태를 가지는 1차식으로 연속적인 실수 값을 예측하는 모델 여러 개의 독립변수 x(특성)와 종속변수 y(예측값)의 선형 상관 관계를 모델링 규제가 있는 회귀 모델(Lasso, Ridge)과 딥러닝 이론의 기초 회귀는 현업에서 많이 사용되며 활용 분야가 매우 넓음 선형 회귀 예시 y = wx + b y : 종속(응답) 변수 w : 기울기(가중치) x : 독립(입력) 변수 b : 절편(편향) 학습 데이터에는 없는 미지의 데이터에 대한 값을 예측할 때, 데이터의 분포를 가장 잘 표현할 수 있는 직선(y=wx+b)을 그려서 값을 예측 다중 선형 회귀 함수 회귀 모델의 성능 평가 : 예측값과.. 2023. 3. 24.
머신러닝 앙상블(Ensemble) 머신러닝 앙상블(Ensemble) 앙상블 : 여러 개의 모델이 예측한 값을 결합하여 정확한 최종 예측을 도출하는 기법 앙상블을 사용하는 이유 단일 모델에 비해 높은 성능과 신뢰성을 얻음 데이터의 양이 적은 것에 대비하여 충분한 학습 효과 가능 앙상블 방법 보팅(Voting) 여러 개의 다른 종류의 모델이 예측한 결과를 투표 혹은 평균을 통해 최종 선정 베깅(Bagging) 여러 개의 같은 종류의 모델이 예측한 결과를 투표 혹은 평균을 통해 최종 선정 부스팅(Boosting) 여러 개의 같은 종류의 모델이 순차적으로 학습-예측하여 오류를 개선하는 방식 1. 보팅(Voting) 하드 보팅(Hard voting) : 다수결 소프트 보팅(Soft voting) : 각 확률의 평균 (일반적으로 소프트 보팅의 예측.. 2023. 3. 20.
머신러닝 Decision Tree, 교차 검증, 특성 선택 머신러닝 Decision Tree, 교차 검증 1. Decision Tree : 결정 트리 모델 스무고개를 하듯 예/아니오 질문을 반복하며 학습 특정 기준(질문)에 따라 데이터를 구분하는 모델 분류와 회귀에 모두 사용 가능 지니 불순도 (Gini Impurity) 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 뜻함 결정 트리 모델의 노드 분할 기준 각 질문들이 얼마나 좋은 질문인지 수치로 파악 가능 0 ~ 0.5 사이 값을 범위로 가짐 불순도가 0에 가까울수록 잘 분류된 것 (좋은 질문) 불순도가 0.5라면 데이터가 5:5 비율로 섞여서 분류된 것 (좋지 않은 질문) ※ 지니 불순도 예시 A와 B 방법으로 데이터 분류 비교 엔트로피 (Entropy) 해당 범주 안에 같은 데이터가 얼마나 포함되.. 2023. 3. 20.
머신러닝 분류 평가 지표 머신러닝 분류 평가 지표 1. Confusion_matrix 앞글자 : 예측 성공 판단 뒷글자 : 예측값 TN (True Negative) : 실제 False인 정답을 False라고 예측 (정답) FP (False Positive) : 실제 False인 정답을 True라고 예측 (오답) FN (False Negative) : 실제 True인 정답을 False라고 예측 (오답) TP (True Positive) : 실제 True인 정답을 True라고 예측 (정답) 정확도 (Accuracy) : 전체 중에 정확히 맞춘 비율 불균형한 데이터가 들어있을 경우 정확도로 성능을 평가하는 것은 문제가 됨 재현율 (Recall) : 실제 양성 중에 예측 양성 비율 실제 positive(양성)인 데이터 예측을 Negat.. 2023. 3. 12.
머신러닝 기초 3, KNN모델을 이용한 붓꽃 품종 분류 실습 머신러닝 기초 3, KNN모델을 이용한 붓꽃 품종 분류 실습 1. 머신러닝 일반화, 과대적합, 과소적합 모델의 신뢰도를 측정하고, 성능을 확인하기 위한 개념 과대적합(Overfitting) 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하 너무 상세하고 복잡한 모델링을 하여 과도하게 정확히 동작하는 모델 과소적합(Underfitting) 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능이 저하 모델링을 너무 간단하게 하여 성능이 제대로 나오지 않은 모델 일반화(Generalization) 훈련 세트로 학습한 모델이 테스트 데이터가 주어져도 정확한 예측을 기대 가능 (훈련 세트에서 테스트 세트로 일반화가 되었다고 함) 일반화 성능이 최대화 되는 모델을 찾는 것이 목표 2. 모.. 2023. 3. 12.
머신러닝 기초 2, 비만도 데이터 이용 학습 머신러닝 기초 2 1. 머신러닝 과정 ① Problem Identification (문제 정의) 비즈니스 목적 정의 모델을 어떻게 사용해 이익을 얻을 지 확인 현재 솔루션의 구성 파악 지도 vs 비지도 vs 강화, 분류 vs 회귀 (ex : 다음 학기 성적 점수 예측 → 회귀(직전 학기 성적, 알바 진행 여부, 연애 등)) (ex : 다음 학기 학점 예측 → 분류) ② Data Collect (데이터 수집) File (CSV, XML, JSON), Database, Web Crawler, IoT 센서를 통한 수집, Survey ③ Data Preprocessing (데이터 전처리) 결측치, 이상치 처리 Feature Engineering (특성공학) : Scaling (단위변환) Encoding (범주형.. 2023. 3. 11.
머신러닝 기초 1, and/xor 연산 머신러닝 기초 1. 인공지능의 역사 2. 튜링 테스트 (Turing Test) 기계가 인간과 비슷하게 대화가 가능하다면 기계에 지능이 있다고 인정하는 방식 최초 통과 AI : 유진 구스트만 (러시아 개발진) CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) 사람과 컴퓨터를 판별하는 튜링 테스트 3. 인공지능의 종류 약한 인공지능 (Weak AI) 학습을 통해 문제를 해결, 주어진 조건 아래서만 작동 → 사람을 흉내내는 수준 자율자동차, 구글 번역, 페이스북 추천 등 (ex : 구글 AlphaGo, IBM Watson, 아마존 Alexa, Apple Siri 등) 강한 인공지능 (Strong AI) 사고를.. 2023. 3. 11.
머신러닝 기초통계 머신러닝 기초통계 1. 통계학 과거 자료에 근거하여 자연 또는 사회 현상에 대한 과학적 추론과 불확실한 미래를 대비하기 위해 합리적 의사결정을 하고자 하는 학문 통계학과 인공지능의 관계 데이터를 사람이 통계학적으로 분석하는 데서 그치지 않고, 훨씬 방대한 양의 데이터를 기계가 효과적으로 분석하고, 이를 바탕으로 미래를 예측하기 위해 인공지능이 필요 2. 용어 모집단 : 관심의 대상이 되는 모든 개체의 관측값이나 측정값의 집합 표본 : 모집단에서 추출한 일부 관측값이나 측정값의 집합 (모집단을 대표하는 표본을 어떻게 잘 선정하느냐가 핵심) 전수조사 : 모집단 전체를 조사하는 것 표본조사 : 표본만 가지고 조사하는 것 양적 자료 : 숫자로 표현할 수 있고 연산할 수 있는 수치형 데이터 (ex: 키, 몸무게,.. 2023. 3. 11.