7주차 교육일지: 머신러닝
R 스퀘어
● 평균으로 예측한 것 대비 분산을 얼마나 축소시켰는지 / 0 <= R^2 <= 1 값이 클수록 성능↑ / 현업: 성능0.25 이상 Good
MEPE(평균 절대 비율 오차)
● 실제값 대비 예측값이 얼마나 차이가 있는지를 %로 표현
RMSE( 평균 제곱근 오차)
● 부호의 영향을 제거하기 위해 제곱을 취한 지표
★ 정량적 분석 요약
1. 모델 성능 확인 2. P-value 확인 및 유의미한 변수 추출 3. B 활용 X단위당 Y에 미치는 영향 판단 y=ax+b
전통적인 feature selection: [전진 선택법, 후진 소거법, 단계적 선택법] --> 효율 ↓
개선된 feature selection: Penalty Term
Penalty Term: 불필요한 Feature에게 벌을 부여해서 학습하지 못하게 함
-Error를 최소화 하는 제약 조건에서 필요 없는 Feature의 베타(계수)에 페널티를 부여
미분하여 0에 가깝게, Loss Func 발견 목적 -> 페널티 부여로 가능
1) Ridge Regression(L2-norm): 제곱 오차를 최소화하며 회귀 계수를 제한
2) Rasso Regression(L1-norm): 절대값을 씌운 오차를 최소화하며 회귀 계수 제한, 미분 불가로 경사하강법 사용
![]() |
Ridge(제곱) | Rasso(절대값) |
L2 norm 규제 | L1 norm 규제 |
변수 선택 불가능 | 변수 선택 가능 |
Closed form solution 존재(미분으로 구함) | Closed form solution 존재하지 않음, 경사하강법 이용 |
변수 간 상관관계가 높은 상황에서 좋은 예측 성능 | 변수 간 상관관계가 높은 상황에서 ridge 보다 예측 성능 부족 |
크기가 큰 변수를 우선적으로 줄이는 경향 |
3)ElasticNet: Ridge + Rasso, 최적해 선택 기법
1. OOB(Out of Bag)
-부트스트랩을 통한 랜덤 중복추출 실행 시, train data에 속하지 않는 데이터
-OOB error는 부트스트랩에 포함되지 않은 데이터를 의사결정 나무를 통해 나온 예측값과 실제값의 차
2. Global VS Local:
Global: 종속변수 Y 전체, Y에 영향을 미치는 중요도 Local: 특정 종속변수 Y, 특정 종속변수 Y에 미치는 중요도 |
3. 목적:
★ 내가 원하는 데이터에 대한 특정 Y의 해석력을 얻기 위해서는 Black Box Model을 열어봐야함
Black box model: 내부 작업의 이해없이 입력과 결과의 측면으로 볼 수 있는 시스템(내부 작업은 명확하지 않음) |
4. 설명 할 수 있는 방법(LIME, SHAP):
LIME(Local Interpretable Model-agnostic Explanation)