nlp 4

트랜스포머: Attention is all you need 이해 및 구현

ABSTRACT구글의 트랜스포머 모델은 자연어처리와 컴퓨터비전 분야의 교과서로 사용된다. 현재 AI논문 인용 횟수 1위(약 91,000회)를 달성할 정도로 지금까지도 주목받고 있는 모델이다. 다양한 트랜스포머에 대한 지식 정리글이 많지만, 이 포스팅은 초심자가 정확한 코드 구현보단 이해에 초점을 맞춰 작성해보려 한다* 출처: Attention is All You Need [https://arxiv.org/pdf/1706.03762.pdf]SUMMARY핵심 아키텍쳐-포지셔널 인코딩, 인코더, 디코더-멀티 헤드 어텐션(인코더 셀프, 마스크드 디코더 셀프 어텐션, 인코더-디코더 어텐션)0. 모델 구조인코더는 모델에게 문장을 전달하고, 디코더는 이를 출력 문장으로 반환한다. 디코더는 인코더에서 나온 컨텍스트와 ..

스터디/논문 2024.07.22

KLUE: Korean Language Understanding Evaluation

KLUE: 한국어 모델의 자연어 이해 능력을 평가하기 위한 데이터 세트. 업스테이지, 네이버 등 수많은 기업이 협업하여 제뉴스기사, 위키피디아, 위키백과, 발화 데이터셋, 에어비앤비 리뷰 등을 학습주요 내용: 8개의 TASK1. Topic Classification(TC)2. Semantic Textual Similarity(STS)3. Natural Language Inference(NLI)4. Named Entitiy Recognition(NER)5. Relation Extraction(RE)6. Depencency Parsing(DP)7. Machine Reading Comprehension(MRC)8. Dialogue State Tracking(DST)

스터디/논문 2024.07.16

NLP(1): 시스템 파이프라인

NLP: 자연어처리, Natural Language Processing컴퓨터가 인간의 언어를 이해하고 해석하는 분야. 텍스트분석, 번역, 감정 분석 등 다양한 APP에 활용분석 과정1. 텍스트 전처리(정규 표현식을 통한 텍스트 전처리, 토큰화, 표제어 추출 등)# 1-1 정규표헌식 전처리import re# [a-zA-Z]: 모든 알파벳, [0-9] 모든 숫자 [ㄱ-ㅎ가-힣]# re.sub(정규표현식, '', text)로 사용 '': 정규표현식에 없는 문자열을 공백 또는 ''으로 대체text = "Python hello world 시작해봅시다"re.sub('[^ㄱ-ㅎ가-힣]', '', text) # '시작해봅시다'이후 영어의 경우 nltk, 한국어의 경우 konlpy 패키지 등을 활용한다# 1-2 토큰화,..

카테고리 없음 2024.07.08

벡터 DB(1) 튜토리얼

벡터DB더보기텍스트, 이미지, 오디오 등 임베딩 방식으로 나타낸 데이터를 저장, 관리, 검색하는기능을 제공하는 임베딩 벡터 전용 DB -고차원의 공간에 임베디드 벡터를 인덱싱하여 저장 -입력 쿼리와 가장 가까운 이웃을 찾아주는 검색방식, ANN 검색 알고리즘에 기반한 검색 효율성 도모 -(1) Indexing (2) Querying, (그 외) Loading, Transforming, Post-Processing 등 추가 지원패키지 다수 존재1. 동작원리: 1) 임베딩 모델에 값 Input [Source Data(이미지, 텍스트 등) -> 임베딩 모델  2) 임베딩 벡터 표현 -> 사전 벡터DB의 데이터 확보를 위한 인덱싱 및 쿼리(검색)작업 수행 -> 결과 전달2. 검색방법:1) 유사도 기반 검색2) ..

스터디/AI 2024.07.04