Background
해당 논문은 Unlearning 관련 방법과 평가지표에 대해 살펴보던 중
선행연구의 잊힘의 정도를 파악하는 평가지표가 정성적으로 적합하지 않다 생각하여 찾아보게 되었다.
Contributions
1) 확률론적 관점에서 LLM 언러닝을 평가하는 프레임워크와 평가지표 제안
2) Greedy decoding 기반 점 추정은 결정론적 평가법에서 안전하다 생각하지만 데이터 누수 발생 가능
3) 다항샘플링 시 추출될 수 있는 정보들을 제대로 지우기 위해 엔트로피 최적화와 온도 스케일링 기법 제안
Introduction
해당 논문의 저자는 AI safety 관점에서 LLM에서의 최종 output 값을 평가하는 결정론적 평가기법을 지적한다.
모델의 출력 분포가 아닌 단일값에 집중하는 것은 LLM 모델 공격에 취약할 수 있다고 생각하기 때문이다.
따라서 단일 출력값을 평가하는 이전 연구와 달리 분포의 통계값(평균, 기대값, 신뢰구간)을 사용한
(* Monte Carlo Sampling, Clopper-Pearson upper confidence, Dvoretzky-Kiefer-Wolfowitz Inequality 공식 적용)
평가지표를 제안하고, 위험 요소의 출력을 줄이는 엔트로피 최적화 기법과 적응형 온도 조절 기법을 제안하고자 했다.
해당 그림은 해리포터의 친한 친구를 지우려는 데이터셋의 목적에서, 낮은 확률이지만 지우고자 한 데이터
(존, 헤르미온느)가 여전히 남아있음을 보여준다 -> 데이터 누수
Related works
관련연구를 짧게 요약하면 다음과 같다.
Machine unlearning
- 모델의 전반적인 성능을 유지하면서 특정 정보를 모델의 Weight에서 제거
- Method: Gradient Ascent (GA), Gradient Difference (GD), Negative Preference Optimization etc
Attacks against unlearning
- LLM에서 제거된 정보를 추출하는 공격기법
- Method: Hidden states에서 제거된 정보 추출, 임베딩 공간을 활용한 복원 etc
Framework and Metrics
LLM에서 가장 기초적인 전제로, h(s)를 이진 분류로 설정하고 * 생성된 텍스트의 정보 유출 여부(유출 시 1 else 0)
다음 조건을 만족하고자 하였다.
Metric 1과 2는 정보의 유출 확률을 특정 구간에 제한하려 하였으며
Metric 3과 4는 LLM의 출력분포의 품질을 평가하고자 하였다.
(Metric 해석은 필자가 이해하는데 가장 고생을 들인 부분이다)
Metric은 특정 LLM의 확률 값을 직접 계산하기 어렵기 때문에, 앞에서 이야기한 공식들을 적용한다.
특정 분포와 무관하고, 비모수적 경계를 사용한다고 가정하였다(distribution-free, non-parametric bounds)
(Monte Carlo Sampling, Clopper-Pearson upper confidence, Dvoretzky-Kiefer-Wolfowitz Inequality)
Monte Carlo Sampling
- 복잡한 확률분포에서 여러 번 표본을 뽑아 기대값 추정
Clopper-Pearson upper confidence
- 이항분포에서 성공확률 p의 신뢰구간을 계산
Dvoretzky-Kiefer-Wolfowitz Inequality
- 최대 허용값 ∈ 조절을 통해, 경험적 CDF와 실제 CDF 사이의 최대 차이를 계산(정보유출확률 계산)
데이터가 특정 범위를 벗어날 확률이 얼마나 작은지를 수학적으로 계산하고자 확률적 경계(Concentration Bounds)
기법을 적용하여, 모델이 특정 입력(q)을 받았을 때 정보 유출 가능성(p)를 상한으로 제한하였다.
Metric1은 모델 출력을 여러 번 샘플링하여 정보 유출 여부 횟수(Sn)를 확인하고, 전체 샘플 수(n)과 함께
클로퍼 피어슨 신뢰 구간을 사용하여 유출 확률의 상한을 계산하였다.
Metric2는 정보 유출의 정도가 0~100% 사이의 연속적인 값으로 측정될 때 각 샘플의 정보 유출 비율을 계산하고
경험적 누적 분포함수(CDF) Fn(x)를 만든 뒤 Dvoretzky-Kiefer-Wolfowitz 부등식에 따라 신뢰 구간을 계산한다.
여기서 엡실론 값은 샘플 수와 신뢰 수준에 따른 보정 값이다.
Metric 3은 기대치 경계를 의미하는데, 경험적 CDF 값을 [0, 1] 구간에서의 여러 개의 작은 구간으로 나눈다.
여기서 타우(각 구간)의 길이를 누적 분포 함수로 나타내었다.
이를 DKW 부등식을 사용해 경험적 CDF에서 발생할 수 있는 오차를 보정하여 기대치의 상한과 하한을 계산한다.
Metric4는 표준 편차 경계로 평균에서 얼마나 떨어져 있는 지를 측정한다.
여기서 에타는 기대치 경계를 계산한 결과를 바탕으로, 최대 변동성 값을 추정하고 델타는 분산의 변화량을 나타낸다.
양수 음수 여부를 고려하여 사인으로 부호를 조정하고, 각 구간별 최대 변동성 차이를 더한다
논문의 저자는 기대값과 분산을 모두 고려한 ED score를 추가적으로 제안한다. 여기서 X_bar는 X값의 평균이다
(여기까지 Metric에 대한 설명이고, 숨 넘어갈 거 같다)
Method
1) Entropy optimization과 2) Adaptive temperature scaling
엔트로피 최적화방법은 다음과 같다.
여기서 식1은 전체 시퀀스의 평균엔트로피를 의미하며 각 시간 단계 t에 대해 모델이 예측하는 각 토큰 y_t의
확률 분포의 엔트로피를 구하고 그 값을 평균화 하였다.
식 2는 Forget set은 λf(λ >0), Retain set에서는 λr(λ < 0)으로 엔트로피 최소화, 유지로 모델 출력을
결정적이면서도 다양성을 유지할 수 있게 하였다(지울 데이터와, 유지할 데이터)
적응적 온도 조절기법은 LLM에서 temperature 조절과 거의 동일하다(창의적이지 못하게)
저자가 설명하는 기법은
1) 모델이 출력한 시퀀스에 대한 c(x)를 계산하고
2) 확신도의 임계값을 설정 후 온도를 조정한다(여기서 특정 임계값을 초과하면 온도값을 0으로 설정한다)
Experiment & Results
실험은 TOFU와 Who is harry potter 데이터셋으로 진행하였으며
Phi-1.5와 Llama 2 Who is Harry Potter 모델을 사용하였다.
로스함수는 해당분야 SOTA 기법인 RMU, GradAscent, GradDiff, Negative Preference Optimization을 적용했고
실험결과는 저자들의 도입부에 제기한 결정론적 평가 기법이 부적합 한다는 것을 증명한다
결론
이제 시작된 분야인 만큼, 평가지표 개발에도 다양한 아이디어가 적용되어야 할 거 같다.