민서타 81

KLUE: Korean Language Understanding Evaluation

KLUE: 한국어 모델의 자연어 이해 능력을 평가하기 위한 데이터 세트. 업스테이지, 네이버 등 수많은 기업이 협업하여 제뉴스기사, 위키피디아, 위키백과, 발화 데이터셋, 에어비앤비 리뷰 등을 학습주요 내용: 8개의 TASK1. Topic Classification(TC)2. Semantic Textual Similarity(STS)3. Natural Language Inference(NLI)4. Named Entitiy Recognition(NER)5. Relation Extraction(RE)6. Depencency Parsing(DP)7. Machine Reading Comprehension(MRC)8. Dialogue State Tracking(DST)

스터디/논문 2024.07.16

MLOps(1): 파이프라인

1. MLOps 엔지니어링: ML 시스템의 개발과 배포, 운영을 체계화하고 자동화하는 방법론 -1)모델 품질관리 2)데이터 관리 3)비용 최적화 4)모델 모니터링 -Keyword: 모듈화, 자동화, 모니터링2. 파이프라인※모델 학습 실험 파이프라인서비스 파이프라인목적새로운 모델 아키텍처 및 가설 검증기존 모델 형상에 새로운 코드 학습코드아키텍처짧은 주기긴 업데이트 주기결과물모델 평가 리포트서비스에 배포할 모델 가중치, 아티팩트영향도실 서비스에 영향 없음실 서비스에 영향 높음 1)데이터 취득 2)데이터 검증(EDA) 3)데이터 변환(전처리) 4)모델 학습 5)모델 검증 6)모델 최적화 7)모델 등록※모델 배포 및 서빙1)모델 로드 2)서빙 서버 로드 3)테스트 4)서비스 패키징 5)서비스 배포 6)모델 서..

NLP(1): 시스템 파이프라인

NLP: 자연어처리, Natural Language Processing컴퓨터가 인간의 언어를 이해하고 해석하는 분야. 텍스트분석, 번역, 감정 분석 등 다양한 APP에 활용분석 과정1. 텍스트 전처리(정규 표현식을 통한 텍스트 전처리, 토큰화, 표제어 추출 등)# 1-1 정규표헌식 전처리import re# [a-zA-Z]: 모든 알파벳, [0-9] 모든 숫자 [ㄱ-ㅎ가-힣]# re.sub(정규표현식, '', text)로 사용 '': 정규표현식에 없는 문자열을 공백 또는 ''으로 대체text = "Python hello world 시작해봅시다"re.sub('[^ㄱ-ㅎ가-힣]', '', text) # '시작해봅시다'이후 영어의 경우 nltk, 한국어의 경우 konlpy 패키지 등을 활용한다# 1-2 토큰화,..

카테고리 없음 2024.07.08

벡터 DB(1) 튜토리얼

벡터DB더보기텍스트, 이미지, 오디오 등 임베딩 방식으로 나타낸 데이터를 저장, 관리, 검색하는기능을 제공하는 임베딩 벡터 전용 DB -고차원의 공간에 임베디드 벡터를 인덱싱하여 저장 -입력 쿼리와 가장 가까운 이웃을 찾아주는 검색방식, ANN 검색 알고리즘에 기반한 검색 효율성 도모 -(1) Indexing (2) Querying, (그 외) Loading, Transforming, Post-Processing 등 추가 지원패키지 다수 존재1. 동작원리: 1) 임베딩 모델에 값 Input [Source Data(이미지, 텍스트 등) -> 임베딩 모델  2) 임베딩 벡터 표현 -> 사전 벡터DB의 데이터 확보를 위한 인덱싱 및 쿼리(검색)작업 수행 -> 결과 전달2. 검색방법:1) 유사도 기반 검색2) ..

스터디/AI 2024.07.04

밑바닥부터 시작하는 딥러닝(2): RNN

1. 자연어처리 분야에서 주로 사용하는 알고리즘(I, H, O) 입력, 히든스테이트, 출력 시계열, 연속적인 데이터에 주로 사용-Many to one(Text classification), Many to Many(Poos tagging), One to Many(NLG)-과거 정보의 이용 여부를 두고, 양방향 RNN으로도 사용-연속된 시퀀스의 반복 시 장기 기억 손실 문제로 향후 LSTM, GRU 알고리즘 탄생 배경이 됨-모델의 과도한 복잡성 증가(fc layers, relu 등) 시 과적합으로 예측력이 떨어질 수 있음Ex1) Many to Oneclass SimpleRNN(nn.Module): def __init__(self, input_size, hidden_size, output_size): ..

밑바닥부터 시작하는 딥러닝(1): CNN

1. 영상처리 분야에서 주로 사용(N, C, H, W 형태) 배치수, 채널, 높이, 너비매우 빠르고 적은 가중치 파라미터를 보유, 데이터셋의 구성에 따라 자동으로 탐지해야 할 패턴을 추출-고차원 공간의 정보를 저차원에 매핑-맥스풀링과 패딩, 스트라이드 방식을 활용 -> 핵심 피쳐, 정보 손실을 막기 위해Ex1) CNNimport torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transformsimport torch.optim as optim# 기기 설정 (CPU 또는 GPU)device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')# 데이터 로딩 및..

24년, 현재의 회고

직업군인으로 전역 후 1년이 시간이 흘렀다.열심히 살았다고는 할 수 없지만 꾸준히 살았왔던 것 같다. 3주간의 유럽여행, 영화관 아르바이트, 데이터분석 & 인공지능 전문가 부트캠프를 경험했고 지금은 취업을 준비하고 있다. 매일매일 오고 가는 현자타임과 나에 대한 반성. 열심히 살 수 있을까 하는 물음은 공허함만을 남겼다. 빈 시간이 생길 때, 그 공허함은 더 커졌던 것 같다. 현재의 어려움은 사람에 대한 그리움일까, 취업에 대한 욕망일까 SNS 속 멋진 인플루언서의 꿈을 가져본 적이 있을 것이다. 삶은 주체적이라지만 결국 나의 모습을 돌이켜볼 수 있는건 거울에 비친 나의 모습이니까. 대중의 눈은 필수불가결해 보인다. 꾸준히 지속되는 삶 속에서의 긴장감을 느슨하게 잡고 있는 것이 내 삶의 평균이라는 것을 ..

일상 2024.03.08

패스트캠퍼스 AI_6기 과정 종료 회고

이제 Intro가 끝나고, 새롭게 시작(대충 마블 인트로 BGM) -길었던 교육과정의 끝엔 혼자 시작하는 교육이 길었다. 그동안 기초통계부터 인공지능까지. 참 다양한 분야의 지식을 짧은 시간에 배웠다. 처음엔 힘겨웠고 중간엔 즐거웠고 마지막엔 다시 힘겨웠던 것 같다. 긴 시간, 의자에 앉아있는 능력이 생긴 것 부터 다양하 프로젝트를 경험하며 직무 능력을 기르기까지. 이제 조금은 뇌섹남?이 된듯한 기분이 들면서 그래도 포기하지 않았다는 것에 박수를 보낸다. 다양한 사람들과 접하면서, 항상 좋았다고만은 얘기하진 못하지만. 그래도 동료이자 함께하는 구성원으로 좋은 추억이 많았던 것 같다. 내가 잘하는 분들(전공자, 현업자)과 함께할 때는 부족해서 죄송했고, 또 조금 이해가 부족하신(사실 열정이 부족한 것 같다..

국비지원교육 2024.02.10

Fastapi: 프로젝트로 바로 적용하는 학습(1)

개요: 특정 스타트업의 아이템 추천시스템 구축 로직: streamlit 고객 입력(프론트) -> fastapi(백엔드, db쿼리 전달) -> db ->fastapi 모델서빙 -> 스트림릿 FastApi mysql 연결 (local) #sqlalchemy을 통해 파이썬으로 연동 가능 1) 엔진 생성 - 세션생성 - Base 모델 선언(입력 데이터를 json형식, mysql 타입으로 가공하기 위한) - 엔드포인트 설정 나의 경우, 데이터가 이미 쌓여있을 것이라 가정하고, mysql에 user_input 테이블을 미리 만들어두었다. from fastapi import FastAPI from pydantic import BaseModel from sqlalchemy import create_engine, Col..