민서타 81

LLM component(1): Residual Connection(작성중)

0. LLM workflow1)입력 인베딩 -> 2)트랜스포머 블록(멀티 헤드 어텐션, 피드포워드 네트워크, 잔차 연결 및 정규화) -> 3)출력 레이어 4) 출력 디코딩1. 정의Residual Connection은 신경망에서 발생하는 기울기 소실(vanishing gradient) 문제를 해결하기 위해 도입되었다.신경망의 특정 층에서 입력값을 출력값에 더해주는 방식인데, 어떤 변환을 수행한 F(X)에원래 입력값인 X를 더해 최종 출력을 만든다. Y = F(X) + X ## 트랜스포머 블록 구조 상 멀티 헤드 어텐션(출력)과 피드 포워드 네트워크(출력과 입력)에 적용import torchimport torch.nn as nnclass FeedForwardNetwork(nn.Module): def _..

스터디/AI 2025.03.05

할루시네이션(2): LLM-Check: Investigating Detection of Hallucinations in Large Language Models

Summary해당 논문은 할루시네이션 탐지 방법 중 모델 튜닝을 하지 않고 single response를 활용한 방법이다.출력 토큰 생성 시 attention map과 hidden_state, output prediction probabilities 값을 사용하여 불확실한 토큰(할루시네이션한 답변) 탐지에 집중하였다.(NuerIPS 2024, Sriramanan et al.)Contributions  1) Model inner states를 활용한 저비용 할루시네이션 탐지 방법 제안 2) 기존에 연구되어 오던 반복 샘플링 기반  할루시네이션 측정방법과 외부지식 활용방법 보다 우수함을 증명 Introduction저자는 LLM 할루시네이션 탐지 방법 중 uncertainty estimation 방법론에 집중..

스터디/논문 2025.02.13

할루시네이션(1): KNOWHALU: HALLUCINATION DETECTION VIA MULTI-FORM KNOWLEDGE BASED FACTUAL CHECKING

Background해당 논문은 할루시네이션 탐지 방법 중 프롬포트 기반 Method와 RAG를 적절하게 결합한 논문이다. (LLM 할루시네이션 문제 해결을 위해 모델 내부지식 또는 외부지식 개입으로 해결하려는 방법론을 결합하였다) Contributions  1) 구체적이지 않은 할루시네이션을 탐지하는 기법과 단계적 사실 확인기법(유사 COT와 RAG) 프레임워크 제안 2) 환각 탐지에 사용되는 쿼리를 공식화하여 World knowledge와의 관계를 탐구 3) 예측결과에 대한 단계별 검증으로 환각의 영향을 줄이고, 기존 SOTA 모델 대비 QA task의 좋은 성능 확보Introduction해당 논문의 저자는 LLM 할루시네이션 탐지를 위해 기존에 수행된 Response의 자기일관성 연구, LLM 히든 ..

스터디/논문 2025.01.26

Unlearning 리뷰(1): A PROBABILISTIC PERSPECTIVE ON UNLEARNING AND ALIGNMENT FOR LARGE LANGUAGE MODELS

Background해당 논문은 Unlearning 관련 방법과 평가지표에 대해 살펴보던 중선행연구의 잊힘의 정도를 파악하는 평가지표가 정성적으로 적합하지 않다 생각하여 찾아보게 되었다.  Contributions  1) 확률론적 관점에서 LLM 언러닝을 평가하는 프레임워크와 평가지표 제안 2) Greedy decoding 기반 점 추정은 결정론적 평가법에서 안전하다 생각하지만 데이터 누수 발생 가능 3) 다항샘플링 시 추출될 수 있는 정보들을 제대로 지우기 위해 엔트로피 최적화와 온도 스케일링 기법 제안Introduction해당 논문의 저자는 AI safety 관점에서 LLM에서의 최종 output 값을 평가하는 결정론적 평가기법을 지적한다.모델의 출력 분포가 아닌 단일값에 집중하는 것은 LLM 모델 공..

스터디/논문 2024.12.14

대학원생 일기(1): 입학 환영회부터 중간고사까지

후기 대학원 중간고사까지의 삶후기는 애매한 시즌이다. 추석부터 시작해서 각종 공휴일이 많기에, 지도교수님의 터치가 적다.내가 무엇을 해야할 지 명확히하지 않고 입학하고 보니, 연구실에서 국제적인 미아가 되었다.그저 시간의 흐름대로 눈을 뜨고, 눈을 감고. 드문드문 연구실 학생들과 친해지려 노력해보고.내가 더 나아지기 위한 시간을 매일 고민했었다. 하루 아침에 되진 않겠지만막연히 정한 연구 주제인 추천시스템은 추진력과 설득력이 부족했고.결국 다른 주제를 선택해보라는 교수님의 방침을 받았다. 연구실 인턴을 했으면 제때 출발할 수 있었을 텐데 아쉬웠다.합류하게 된 연구실에서 교수님의 지도 학습을 매일 받지 못하는 상황이라. 사실 어렵기도 하고.매주 한 번 가지는 미팅 시간이 나에겐 엄청나게 소중했다. 더 많이..

심화기계학습: 차원축소

차원축소 분류: 변수선택과, 변수추출[선형, 비선형 기법)변수선택 기법Hughes Phenomenon: 훈련 데이터 수에 비해 차원이 증가할 수록 모델 성능이 점차 감소(데이터 밀도감소) 대표적인 차원 축소기법더보기PCA목적: 데이터 차원 축소와 최대한의 분산 보존.주성분: 공분산 행렬에서 가장 큰 고유값을 갖는 고유벡터의 방향으로 정의(이 벡터들은 서로 직교하며 데이터들의 선형결합으로 표현)왜 직교하는가?중복 정보를 제거하고, 각 저성분이 독립적으로 데이터를 설명하기 위해적용: 1) 데이터 행렬의 평균을 0으로 정규화 2) 공분산 행렬 계산 및 고유값, 고유벡터 계산 3) 고유값을 크기 순으로 정렬하여 상위 k개의 고유벡터 선택 4) X를 새로운 k 차원 공간으로 투영: Z=XW 더보기Multidime..

딥러닝 유틸(1) Tmux

1. Tmux란? 터미널 멀티플렉서로, 하나의 터미널 세션에서 여러 개의 창을 관리하고, 세션을 분리하거나 재접속하는 등 유용한 기능을 제공하는 tool을 의미한다-> 즉, 우리가 모델을 돌릴 때 사용하고 있는 컴퓨터에서 여러 작업 터미널 창을 만들어 주며, tmux에 넣은 작업은 실제 작업 종료 전 까진 중단되지 않는다(작동중인 컴퓨터 종료해도 무관) 2. Tmux 구성요소: 세션(여러 터미널 창을 그룹화), 윈도우(작업 공간), Pane(독립적인 터미널 창) 3. Tmux 설치conda install -c conda-forge tmux # conda# 우분투 기반 도커 컨테이너apt-get updateapt-get install -y tmux# macOSbrew install tmux 4. 명령어# ..

대학원생 일기(0): 컨택과정부터 면접 이후까지

후기 대학원 지도교수 컨택부터 면접, 지도교수 선정까지전기를 떠나보내고, 후기 대학원 진학을 고민했었다. 사실 실무자가 되고 싶었다.공부는 대학교까지가 끝이라 생각했는데 내가 그 석사를? 사실 그냥 남들이 말하는 좋은 회사에 가서 일하고 싶었다.AI 부트캠프 이후, 분야에 대한 관심은 많았으나 나를 신입으로 봐주는 곳은 어디에도 없었다.결국 등록금부터 여러가지 사항을 고려해 관심있던 학교의 지도교수에게 메일을 보냈다.몇 차례의 화상 면담 끝에 면접에 필요한 내용을 공부하라는 답변을 받았는데막상 해당 문제들은 면접에서 나오진 않았다.면접 때 어떤 교수가 "만약 원하는 연구실에 들어가지 못한다면 어떻게 할 생각인가요?"라는 질문을 받았을 때.설마 이게 복선인가 생각했다.합격 이후 해당 연구실의 대표 학생(박..

자주 쓰이는 딥러닝(1): 최대우도추정, 크로스엔트로피 로스

최대우도추정: 주어진 데이터셋을 기반으로 확률 모델(로그 우도함수 최대화 하는 파라미터) 추정*우도란? 주어진 파라미터하에서 데이터 X가 관측될 확률엔트로피: 불확성의 척도로, 정보량의 기대값KL-divergence: 확률분포 간 정보량의 차이로, P분포를 추정하는데 Q분포가 얼마나 적합한 지 측정크로스 엔트로피(KL + entropy P)1) 두 확률 분포 p와 q사이의 차이를 측정하는 방법2) 모델이 예측하는 확률 분포 q와 실제 데이터의 분포 p가 얼마나 유사한지 측정크로스 엔트로피 손실함수이진 분류 손실함수다중 클래스 분류

트랜스포머: Attention is all you need 이해 및 구현

ABSTRACT구글의 트랜스포머 모델은 자연어처리와 컴퓨터비전 분야의 교과서로 사용된다. 현재 AI논문 인용 횟수 1위(약 91,000회)를 달성할 정도로 지금까지도 주목받고 있는 모델이다. 다양한 트랜스포머에 대한 지식 정리글이 많지만, 이 포스팅은 초심자가 정확한 코드 구현보단 이해에 초점을 맞춰 작성해보려 한다* 출처: Attention is All You Need [https://arxiv.org/pdf/1706.03762.pdf]SUMMARY핵심 아키텍쳐-포지셔널 인코딩, 인코더, 디코더-멀티 헤드 어텐션(인코더 셀프, 마스크드 디코더 셀프 어텐션, 인코더-디코더 어텐션)0. 모델 구조인코더는 모델에게 문장을 전달하고, 디코더는 이를 출력 문장으로 반환한다. 디코더는 인코더에서 나온 컨텍스트와 ..

스터디/논문 2024.07.22