스터디 13

LLM component(1): Residual Connection(작성중)

0. LLM workflow1)입력 인베딩 -> 2)트랜스포머 블록(멀티 헤드 어텐션, 피드포워드 네트워크, 잔차 연결 및 정규화) -> 3)출력 레이어 4) 출력 디코딩1. 정의Residual Connection은 신경망에서 발생하는 기울기 소실(vanishing gradient) 문제를 해결하기 위해 도입되었다.신경망의 특정 층에서 입력값을 출력값에 더해주는 방식인데, 어떤 변환을 수행한 F(X)에원래 입력값인 X를 더해 최종 출력을 만든다. Y = F(X) + X ## 트랜스포머 블록 구조 상 멀티 헤드 어텐션(출력)과 피드 포워드 네트워크(출력과 입력)에 적용import torchimport torch.nn as nnclass FeedForwardNetwork(nn.Module): def _..

스터디/AI 2025.03.05

할루시네이션(2): LLM-Check: Investigating Detection of Hallucinations in Large Language Models

Summary해당 논문은 할루시네이션 탐지 방법 중 모델 튜닝을 하지 않고 single response를 활용한 방법이다.출력 토큰 생성 시 attention map과 hidden_state, output prediction probabilities 값을 사용하여 불확실한 토큰(할루시네이션한 답변) 탐지에 집중하였다.(NuerIPS 2024, Sriramanan et al.)Contributions  1) Model inner states를 활용한 저비용 할루시네이션 탐지 방법 제안 2) 기존에 연구되어 오던 반복 샘플링 기반  할루시네이션 측정방법과 외부지식 활용방법 보다 우수함을 증명 Introduction저자는 LLM 할루시네이션 탐지 방법 중 uncertainty estimation 방법론에 집중..

스터디/논문 2025.02.13

할루시네이션(1): KNOWHALU: HALLUCINATION DETECTION VIA MULTI-FORM KNOWLEDGE BASED FACTUAL CHECKING

Background해당 논문은 할루시네이션 탐지 방법 중 프롬포트 기반 Method와 RAG를 적절하게 결합한 논문이다. (LLM 할루시네이션 문제 해결을 위해 모델 내부지식 또는 외부지식 개입으로 해결하려는 방법론을 결합하였다) Contributions  1) 구체적이지 않은 할루시네이션을 탐지하는 기법과 단계적 사실 확인기법(유사 COT와 RAG) 프레임워크 제안 2) 환각 탐지에 사용되는 쿼리를 공식화하여 World knowledge와의 관계를 탐구 3) 예측결과에 대한 단계별 검증으로 환각의 영향을 줄이고, 기존 SOTA 모델 대비 QA task의 좋은 성능 확보Introduction해당 논문의 저자는 LLM 할루시네이션 탐지를 위해 기존에 수행된 Response의 자기일관성 연구, LLM 히든 ..

스터디/논문 2025.01.26

Unlearning 리뷰(1): A PROBABILISTIC PERSPECTIVE ON UNLEARNING AND ALIGNMENT FOR LARGE LANGUAGE MODELS

Background해당 논문은 Unlearning 관련 방법과 평가지표에 대해 살펴보던 중선행연구의 잊힘의 정도를 파악하는 평가지표가 정성적으로 적합하지 않다 생각하여 찾아보게 되었다.  Contributions  1) 확률론적 관점에서 LLM 언러닝을 평가하는 프레임워크와 평가지표 제안 2) Greedy decoding 기반 점 추정은 결정론적 평가법에서 안전하다 생각하지만 데이터 누수 발생 가능 3) 다항샘플링 시 추출될 수 있는 정보들을 제대로 지우기 위해 엔트로피 최적화와 온도 스케일링 기법 제안Introduction해당 논문의 저자는 AI safety 관점에서 LLM에서의 최종 output 값을 평가하는 결정론적 평가기법을 지적한다.모델의 출력 분포가 아닌 단일값에 집중하는 것은 LLM 모델 공..

스터디/논문 2024.12.14

대학원생 일기(1): 입학 환영회부터 중간고사까지

후기 대학원 중간고사까지의 삶후기는 애매한 시즌이다. 추석부터 시작해서 각종 공휴일이 많기에, 지도교수님의 터치가 적다.내가 무엇을 해야할 지 명확히하지 않고 입학하고 보니, 연구실에서 국제적인 미아가 되었다.그저 시간의 흐름대로 눈을 뜨고, 눈을 감고. 드문드문 연구실 학생들과 친해지려 노력해보고.내가 더 나아지기 위한 시간을 매일 고민했었다. 하루 아침에 되진 않겠지만막연히 정한 연구 주제인 추천시스템은 추진력과 설득력이 부족했고.결국 다른 주제를 선택해보라는 교수님의 방침을 받았다. 연구실 인턴을 했으면 제때 출발할 수 있었을 텐데 아쉬웠다.합류하게 된 연구실에서 교수님의 지도 학습을 매일 받지 못하는 상황이라. 사실 어렵기도 하고.매주 한 번 가지는 미팅 시간이 나에겐 엄청나게 소중했다. 더 많이..

대학원생 일기(0): 컨택과정부터 면접 이후까지

후기 대학원 지도교수 컨택부터 면접, 지도교수 선정까지전기를 떠나보내고, 후기 대학원 진학을 고민했었다. 사실 실무자가 되고 싶었다.공부는 대학교까지가 끝이라 생각했는데 내가 그 석사를? 사실 그냥 남들이 말하는 좋은 회사에 가서 일하고 싶었다.AI 부트캠프 이후, 분야에 대한 관심은 많았으나 나를 신입으로 봐주는 곳은 어디에도 없었다.결국 등록금부터 여러가지 사항을 고려해 관심있던 학교의 지도교수에게 메일을 보냈다.몇 차례의 화상 면담 끝에 면접에 필요한 내용을 공부하라는 답변을 받았는데막상 해당 문제들은 면접에서 나오진 않았다.면접 때 어떤 교수가 "만약 원하는 연구실에 들어가지 못한다면 어떻게 할 생각인가요?"라는 질문을 받았을 때.설마 이게 복선인가 생각했다.합격 이후 해당 연구실의 대표 학생(박..

트랜스포머: Attention is all you need 이해 및 구현

ABSTRACT구글의 트랜스포머 모델은 자연어처리와 컴퓨터비전 분야의 교과서로 사용된다. 현재 AI논문 인용 횟수 1위(약 91,000회)를 달성할 정도로 지금까지도 주목받고 있는 모델이다. 다양한 트랜스포머에 대한 지식 정리글이 많지만, 이 포스팅은 초심자가 정확한 코드 구현보단 이해에 초점을 맞춰 작성해보려 한다* 출처: Attention is All You Need [https://arxiv.org/pdf/1706.03762.pdf]SUMMARY핵심 아키텍쳐-포지셔널 인코딩, 인코더, 디코더-멀티 헤드 어텐션(인코더 셀프, 마스크드 디코더 셀프 어텐션, 인코더-디코더 어텐션)0. 모델 구조인코더는 모델에게 문장을 전달하고, 디코더는 이를 출력 문장으로 반환한다. 디코더는 인코더에서 나온 컨텍스트와 ..

스터디/논문 2024.07.22

KLUE: Korean Language Understanding Evaluation

KLUE: 한국어 모델의 자연어 이해 능력을 평가하기 위한 데이터 세트. 업스테이지, 네이버 등 수많은 기업이 협업하여 제뉴스기사, 위키피디아, 위키백과, 발화 데이터셋, 에어비앤비 리뷰 등을 학습주요 내용: 8개의 TASK1. Topic Classification(TC)2. Semantic Textual Similarity(STS)3. Natural Language Inference(NLI)4. Named Entitiy Recognition(NER)5. Relation Extraction(RE)6. Depencency Parsing(DP)7. Machine Reading Comprehension(MRC)8. Dialogue State Tracking(DST)

스터디/논문 2024.07.16

벡터 DB(1) 튜토리얼

벡터DB더보기텍스트, 이미지, 오디오 등 임베딩 방식으로 나타낸 데이터를 저장, 관리, 검색하는기능을 제공하는 임베딩 벡터 전용 DB -고차원의 공간에 임베디드 벡터를 인덱싱하여 저장 -입력 쿼리와 가장 가까운 이웃을 찾아주는 검색방식, ANN 검색 알고리즘에 기반한 검색 효율성 도모 -(1) Indexing (2) Querying, (그 외) Loading, Transforming, Post-Processing 등 추가 지원패키지 다수 존재1. 동작원리: 1) 임베딩 모델에 값 Input [Source Data(이미지, 텍스트 등) -> 임베딩 모델  2) 임베딩 벡터 표현 -> 사전 벡터DB의 데이터 확보를 위한 인덱싱 및 쿼리(검색)작업 수행 -> 결과 전달2. 검색방법:1) 유사도 기반 검색2) ..

스터디/AI 2024.07.04

DEVIEW 2018

1. : 인공지능이 인공지능 챗봇을 만든다 CLOVA 1. 말뭉치 데이터 중 주변 단어를 보고 의미를 파악하여 피쳐 추출 2. Vector Representation: 주어진 벡터 스페이스에 각 문장의 임베딩 벡터를 적절하게 배치 AutoML기법 적용 파이프라인: 말뭉치(클러스터링) -> 데이터 클리닝 -> 피쳐 전처리 -> 모델 선택, 파라미터 최적화(모델 튜닝) -> 모델 검증 적용 1)다양한 문장과 문법 학습(vector representation / N-hot representation) 2)중요 정보 기억(LSTM) - 전후 문맥(Bi-directional) - 반복학습(highway network) - 정답 위주 feedback(attention) 3)다양한 모델의 다수결 앙상블 4)akka를..