데이터 분석/추천시스템

RS(4): TF-IDF, 페르소나

민서타 2023. 12. 11. 16:28

1. Term Vector Representation

-TF-IDF: 빈번한게 등장하는 단어는 중요하지 않은 단어, 각 단어에 가중치를 부여해서 키워드 추출 등 활용

-TF: 단어(Word) w가 문서 d에 등장한 빈도수 / DF: 단어 w가 등장한 문서 d의 수 / N: 전체 문서의 수

  • TF(w, d) = 문서 내 단어 w의 수 / 문서 내 모든 단어의 수 --> 해당 단어가 해당 문서에 얼마나 자주 등장하는 지
  • IDF(w) = log(전체 문서 수(N) / 단어 w가 포함된 문서 수 (DF(w)) --> 해당 단어가 다른 문서에 비해 문서에서 특별한지
  • ex) if 단어 w가 포함된 문서 수 = 전체 문서 수, then TF-IDF(w,d) = 0, 단어 w의 정보력은 없음

-문서에서 특정 단어의 등장 -> 문서끼리의 관련 있음을 표현(TF-IDF(w,d) = TF(w,d) x IDF(w)


2. 고객 페르소나

-도메인 별 페르소나

  • ex)온라인 쇼핑몰 페르소나: 출퇴근길에 아이쇼핑하는 직장인, 점심시간에 할인가 쇼핑하는 학생들
  • ex)화장품 브랜드 고객 페르소나: 화장에 관심이 많아 새로운 제품을 적극적으로 시도하는 20대 여성 etc

-고객 특성별 페르소나

리텐션(이탈고객): 한 번 혹은 재구매 후 이용이나 구매를 멈춘 고객 -> 재구매를 유도하기 위한 마케팅 전략 필요
포텐셜(잠재고객): 관심을 보이지만 아직 구매하지 않은 고객 -> 특별한 제안을 통해 실제 구매자로 전환 가능
User Grade(VVIP, VIP etc, 충성고객): 지속적으로 많은 돈을 소비하는 고객
신규 고객: 장기 고객 전환을 위한 훌륭한 첫 고객 경험과 지속적인 마케팅 필요
할인 구매자, 가격 민감형 고객: 할인이 있거나, 가장 저렴한 가격의 제품을 찾고 이를 구매 

 *생성방법

1)도메인 전문가 의견
2)의사 결정자 경험
3)경쟁사 분석: 경쟁사의 고객 만족도, 평가 및 제품 서비스 이용 패턴 리서치, 타겟 고객 세그먼트 파악
4)데이터 클러스터링 분석: K-means, 계층적 클러스터링, DBSCAN 등
5)자연어 처리 활용 분석: LDA(Latent Dirichlet Allocation)과 같은 토픽 모델링 방법 사용, 상퓸 리뷰 등 분석
6)네트워크 분석(소셜): SNS 분석을 통한 패턴, 영향 등을 파악하고 이를 바탕으로 페르소나 생성
7)실험 설계: A/B 테스팅 등 실험을 통해 사용자의 반응 확인

2-1. 고객 페르소나 바탕으로 한 마케팅 전략

1)고객 페르소나 맞춤 정의 2)추천 알고리즘 개발 3)추천 시스템 실행 4)성과 측정 및 개선

반응형