스터디/천천히 읽는 기술 트렌드

DEVIEW 2018

민서타 2024. 1. 10. 18:21

1. : 인공지능이 인공지능 챗봇을 만든다 CLOVA

1. 말뭉치 데이터 중 주변 단어를 보고 의미를 파악하여 피쳐 추출
2. Vector Representation: 주어진 벡터 스페이스에 각 문장의 임베딩 벡터를 적절하게 배치

AutoML기법 적용
파이프라인: 말뭉치(클러스터링) -> 데이터 클리닝 -> 피쳐 전처리 -> 모델 선택, 파라미터 최적화(모델 튜닝) -> 모델 검증

적용
 1)다양한 문장과 문법 학습(vector representation / N-hot representation)
 2)중요 정보 기억(LSTM) - 전후 문맥(Bi-directional) - 반복학습(highway network) - 정답 위주 feedback(attention)
 3)다양한 모델의 다수결 앙상블
 4)akka를 통한 다양한 서비스에 적용

성능 좋은 챗봇
4점 척도 모델 평가 사용(발화 의도, 발화 소재, 답변 품질을 Y/N으로 라벨링 하여 스코어링)
클러스터링 간 코사인 유사도 / mse로 평가
클러스터링은 K-means로(같은 문장임에도 속한 말뭉치마다 다르게 생성되는 임베딩 벡터의 특징 반영)

최종 모델 Seq2Seq(한국어 학습에 효율적이라 생각하여 사용)

-> 실제 클로바가 탄생하기 이전까지의 화이트 박스 모델 구현 과정. 전반적인 흐름은 이해가 갔지만, 실제 구현을 위해 많은 것이 필요하다는 것을 다시 한 번 느꼈다. 이 과정에서 AutoML이 적용될 수 있다는 것이 새로웠다

레퍼런스: https://tv.naver.com/v/4580108

 

NAVER D2

인공지능이 인공지능 챗봇을 만든다

tv.naver.com

 

2. Deep click prediction: 모델링부터 서빙까지

문제에 대한 접근법

1. 후보 모델(광고 확장성을 향상, 심플한 선호와 유사도를 학습하여 구축)
2. 임베딩(스팔스한 피쳐 스페이스 극복, 엔지니어링 성능 향상)
3. 온라인 서빙을 위해 임베딩이 아닌 분류 예측만 진행, 임베딩은 미리 계산
4. 예측 후보군을 줄이고 사이즈를 줄임(비용 절감을 위해)

-> 광고를 위한 임베딩, 저비용으로 효율적으로 어떻게 해야 할 지 고민해보았던 시간

레퍼런스: https://tv.naver.com/v/4584668

반응형