국비지원교육/교육일지

7주차 교육일지: 머신러닝

민서타 2023. 9. 20. 11:17

R 스퀘어

 ● 평균으로 예측한 것 대비 분산을 얼마나 축소시켰는지 / 0 <= R^2 <= 1 값이 클수록  성능↑ / 현업: 성능0.25 이상 Good

 

MEPE(평균 절대 비율 오차)

  ● 실제값 대비 예측값이 얼마나 차이가 있는지를 %로 표현

 

RMSE( 평균 제곱근 오차)

  ● 부호의 영향을 제거하기 위해 제곱을 취한 지표


★ 정량적 분석 요약

1. 모델 성능 확인 2. P-value 확인 및 유의미한 변수 추출 3. B 활용 X단위당 Y에 미치는 영향 판단 y=ax+b

 

전통적인 feature selection: [전진 선택법, 후진 소거법, 단계적 선택법] --> 효율 ↓

개선된 feature selection: Penalty Term


Penalty Term: 불필요한 Feature에게 벌을 부여해서 학습하지 못하게 함

 -Error를 최소화 하는 제약 조건에서 필요 없는 Feature의 베타(계수)에 페널티를 부여

 



미분하여 0에 가깝게, Loss Func 발견 목적 -> 페널티 부여로 가능


1) Ridge Regression(L2-norm): 제곱 오차를 최소화하며 회귀 계수를 제한

2) Rasso Regression(L1-norm): 절대값을 씌운 오차를 최소화하며 회귀 계수 제한, 미분 불가로 경사하강법 사용

 

Ridge(제곱) Rasso(절대값)
L2 norm 규제 L1 norm 규제
변수 선택 불가능 변수 선택 가능
Closed form solution 존재(미분으로 구함) Closed form solution 존재하지 않음, 경사하강법 이용
변수 간 상관관계가 높은 상황에서 좋은 예측 성능 변수 간 상관관계가 높은 상황에서 ridge 보다  예측 성능 부족
크기가 큰 변수를 우선적으로 줄이는 경향  

 

3)ElasticNet: Ridge + Rasso, 최적해 선택 기법

 

1. OOB(Out of Bag)

-부트스트랩을 통한 랜덤 중복추출 실행 시, train data에 속하지 않는 데이터

-OOB error는 부트스트랩에 포함되지 않은 데이터를 의사결정 나무를 통해 나온 예측값과 실제값의 차

 

2. Global VS Local:

Global: 종속변수 Y 전체, Y에 영향을 미치는 중요도
Local: 특정 종속변수 Y, 특정 종속변수 Y에 미치는 중요도

 

3. 목적:

 ★ 내가 원하는 데이터에 대한 특정 Y의 해석력을 얻기 위해서는 Black Box Model을 열어봐야함

Black box model: 내부 작업의 이해없이 입력과 결과의 측면으로 볼 수 있는 시스템(내부 작업은 명확하지 않음)

 

4. 설명 할 수 있는 방법(LIME, SHAP):

LIME(Local Interpretable Model-agnostic Explanation)

반응형