스터디/논문

할루시네이션(1): KNOWHALU: HALLUCINATION DETECTION VIA MULTI-FORM KNOWLEDGE BASED FACTUAL CHECKING

민서타 2025. 1. 26. 23:54

Background

해당 논문은 할루시네이션 탐지 방법 중 프롬포트 기반 Method와 RAG를 적절하게 결합한 논문이다.

(LLM 할루시네이션 문제 해결을 위해 모델 내부지식 또는 외부지식 개입으로 해결하려는 방법론을 결합하였다)

 

Contributions

 1) 구체적이지 않은 할루시네이션을 탐지하는 기법과 단계적 사실 확인기법(유사 COT와 RAG) 프레임워크 제안

 2) 환각 탐지에 사용되는 쿼리를 공식화하여 World knowledge와의 관계를 탐구

 3) 예측결과에 대한 단계별 검증으로 환각의 영향을 줄이고, 기존 SOTA 모델 대비 QA task의 좋은 성능 확보


Introduction

해당 논문의 저자는 LLM 할루시네이션 탐지를 위해 기존에 수행된 Response의 자기일관성 연구, LLM 히든 스테이트 점검 또는 사후 확인(외부 지식을 활용한 데이터 증강 기법)에는 한계가 있음을 지적한다.  

따라서 저자는 2가지(내부 지식과 외부 지식)방법을 모두 이용한 프레임워크를 제안하였다.

여기서 저자는 기존의 할루시네이션에 관한 정의(generating plausible but factually incorrect or unspecific information)가 아닌 조금 더 엄밀한 범위 내에서의 관점

Non-fabrication hallucination을 제안하였다

-> The answer indeed provides a fact but it is not the answer to the question.

ex) “ChatGPT can do lots of things” for the question “What can ChatGPT do?”

(* 내용은 Fact를 제공하지만 질문에 부합하지 않는 답변(사용자는 더 풍부하고 구체적인 답변을 원한다)

해당 방법으로 1차 할루시네이션을 Check하고, 이후 5단계 과정으로 할루시네이션을 점검하게 된다.

더보기

 

(1) “Step-wise Reasoning and Query" breaks down the original query into step-wise reasoning and sub-queries for detailed factual checking

(2) “Knowledge Retrieval" retrieves unstructured knowledge via RAG and structured knowledge in the form of triplets for each sub-query

(3) “Knowledge Optimization" leverages LLMs to summarize and refine the retrieved knowledge into different forms

(4) “Judgment Based on Multi-form Knowledge" employs LLMs to critically assesses the answer to sub-queries, based on each form of knowledge

(5) “Aggregation" provides a further refined judgment by aggregating predictions based on different forms of knowledge.


Related works

관련연구를 짧게 요약하면 다음과 같다.

더보기

할루시네이션 점검

- 사실에 대한 확인 없는 Chain of Thought, LLM 응답의 일관성(비슷한 주장이 반복되는지) 점검

- 출력물의 분포 확인 등

사실 확인 기법

- input으로 부터 받은 내용을 단계적으로 상속받으며 추론하는 Multi-hop reasoning

- 위키피디아에서 검색된 외부 지식을 사용

기존 연구들은 정답의 이진 분류(Yes or No)에 대한 할루시네이션만 탐지하려하였으며, 여러 유형의 할루시네이션에 대해서는 탐지하려하지 않았다(False positive가 발생할 수 있음) 따라서 주어진 프롬포트로 특정 input을 extraction하면서도 input에 대해 단계적 검증과 외부지식 증강 기법을 적용하였다.


Factual Checking: Non-fabrication hallucination Check

설계한 프롬포트에서 input의 Non-fabrication hallucination을 확인하고 다음 5단계 method로 input 전달

더보기

 

(a) Step-wise Reasoning and Quer

 - original input query -> 작은 sub 쿼리로 분할 -> 개별 sub 쿼리에 대해 지식 검색(위키피디아 지식)

- original query에 대해 제공한 instruction으로 논리적인 검증을 할 수 있게 세분화 & 개별쿼리 사실확인

- ex) Luke Skywalker 캐릭터가 처음 등장한 1977 년 우주 테마 영화의 유명한 악보를 누가 작곡 했습니까?

- 서브쿼리는 더 세부적인 지식을 확인: 루크 스카이워커가 등장한 1977년 우주 테마 영화는 무엇입니까

- 쿼리에 대해 일반적인 평서문 형식의 General 쿼리와 주된 개체를 포함한 Specific 쿼리를 구성

(b) Knowledge Retrieval retrieves knowledge for each sub-query based on existing knowledge database

- 전달받은 서브 쿼리 질문을 위키피디아에 검색(Top-K로 연관된 지문 가져오기)

(c) Knowledge Optimization summarizes and refines the retrieved knowledge, and maps them to different forms, such as unstructured knowledge (object-replicate-object triplet)

- 다른 LLM으로 검색된 지식이 너무 길거나 비문이 많기 때문에 간결하게 만들어주는 방식

- Structured: 객체-술어-객체 형태로 변경, (“Star Wars", was, 1977 space-themed movie) and (Luke Skywalker, first appeared in, “Star Wars")

- Unstructured: ‘Star Wars,’ released in 1977, is the space-themed movie in which the character Luke Skywalker first appeared.'

(d) Judgment Based on Multi-form Knowledge assesses the answer for each sub-query based on multi-form knowledge

- 서브 쿼리로부터 지식을 가져오면 #Query와 #Knowledge를 LLM이 판단할 수 있게 전달(#Judgement)

- 하위 쿼리와 해당하는 지식을 평가하여 모순이 있는 지 확인(INCORRECT, CORRECT, INCONCLUSIVE)

(e) Aggregation combines insights of judgments based on different forms of knowledge and makes a further refined judgment

- 반복으로 수집한 판단결과를 집계(낮은 신뢰도로 형성된 답변의 편향을 줄이기 위해 더 높은 신뢰도의 대체 답안 채택)

- 100개의 검증 데이터셋에서 각 지식 형태에 따른 신뢰도 점수 분포(분위수) 수집 및 점수 기준 임계값 설정


Experiment & Results

QA task의 경우 제안한 방법을 사용하면 Starling-7B모델로도 GPT 3.5와 유사한 성능을 보였으며

일부 방식에서는 GPT 4.0보다 높은 성능을 보임(Starling 7B모델은 비구조적 지식, GPT는 구조적 지식에서 성능↑)

요약 task의 경우 제안한 방법은 baseline보다  Starling 7B 모델에서 10.8% 성능↑ , GPT 3.5에서는 6.2% 성능↑

사전 Non-fabricaticion과 이후 Fact-checking 단계를 모두 수행하면 TPR 15% 증가 및 FPR이 2% 감소

결론

Knowhalu method는 쿼리 작성 방식과 지식을 구조화하는 수준이 모델 성능에 큰 영향을 미치며,

작은 모델로도 충분한 성능을 달성한 것을 확인

반응형