세로형
Link
08-13 09:49
«   2022/08   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
Archives
Today
189
Total
2,363,041
관리 메뉴

꿈 많은 사람의 이야기

추천 시스템 논문 리뷰 - Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network ( VECF ) 본문

추천시스템

추천 시스템 논문 리뷰 - Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network ( VECF )

이수진의 블로그 2022. 6. 13. 08:45

포스팅 개요

이번 포스팅은 추천 시스템(recommender system, recsys) 논문 중 VECF :  Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network 이라는 논문을 리뷰라는 포스팅입니다. VECF는 추천 시스템 방법 중 이미지 정보를 활용하며, 하나의 전체 이미지 중 중요한 region을 고려한다는 개념과 더불어 attention을 활용하는 추천 시스템입니다.  본 포스팅은 해당 논문의 전반적인 내용을 리뷰해봅니다.

 

또한, 본 포스팅은 제가 작성하고 있는 추천 시스템 시리즈 글 입니다. 추천 시스템 시리즈 논문 리뷰는 아래와 같은 순서로 진행할 예정입니다. 오늘은 그 세 번째 포스팅입니다.

 

  1. DeepFM (https://lsjsj92.tistory.com/636)
  2. MAML (https://lsjsj92.tistory.com/637)
  3. VECF
  4. FDSA (https://lsjsj92.tistory.com/639)
  5. PMN (https://lsjsj92.tistory.com/640)
  6. GAU (https://lsjsj92.tistory.com/641)
  7. A3NCF (https://lsjsj92.tistory.com/642)
  8. MIAN
  9. CCANN

본 포스팅에서 참고한 자료는 다음과 같습니다.


포스팅 본문

추천 시스템 논문 VECF :  Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network 논문 리뷰는 다음과 같은 순서로 진행합니다.

 

1. VECF 핵심 요약

2. VECF 논문 리뷰


VECF 핵심 요약

기존의 Fashion Recommendation

하나의 전체 이미지를 fixed-length vector로 변환하여 사용함

이는 아래와 같은 한계가 존재

     • 사람들은 쇼핑을 할 때 이미지의 몇몇 지역 ( 카라, 손목 등 )을 고려함

          • 또한, 이러한 지역은 사용자마다 다름 ( 개개인의 선호도가 있음 )

          • Global image embedding은 이런 점을 고려하기 쉽지 않음

     • 상관없는 image region까지 무분별하게 encoded

          • 이는 많은 노이즈를 일으킴

     • Recommendation explainability

          • 사용자 쇼핑 경험 향상에 중용함

          • 기존 방법은 이러한 사용자 시각적 선호도를 발견하는데 있어 합리적인 시각적 설명을 생성하지 못함

따라서 본 논문은!

User review informationproduct image information을 함께 학습

     • 사용자가 이미지 어느쪽에 흥미를 느끼는지 더 정확한 방법을 사용

     • pre-segmented image region을 사용하며 attention mechanism을 활용

     • 이를 통해 사용자의 시각적 선호도를 반영할 수 있음

     • attention 값을 이용해 visually explain이 가능

     • , 정확한 추천을 제공할 수 있을 뿐만 아니라 시각적 설명을 할 수 있는 모델을 제안!


VECF 논문 리뷰

Introduction

패션 상품을 구매하는 사용자

이미지를 본 후에 구입함

이를 활용하려는 연구도 있었음

 

기존 연구의 한계

사람들은 쇼핑을 할 때 이미지의 몇몇 지역 ( 카라, 손목 등 )을 고려함

     • 또한, 이러한 지역은 사용자마다 다름 ( 개개인의 선호도가 있음 )

     • Global image embedding은 이런 점을 고려하기 쉽지 않음

상관없는 image region까지 무분별하게 encoded

     • 이는 많은 노이즈를 일으킴

Recommendation explainability

     • 사용자 쇼핑 경험 향상에 중용함

     • 기존 방법은 이러한 사용자 시각적 선호도를 발견하는데 있어 합리적인 시각적 설명을 생성하지 못함

 

VECF(Visually Explainable Collaborative Filtering) 모델을 소개함

위와 같은 격차를 해소하기 위해서 더 효과적인 패션 아이템 추천 방법

     • Attention mechanism을 이용해서 valuable image region을 강조하고 noisy 저하

세분화된 사용자 선호도를 발견

     • 편리하고 매력적이며 효율적인 추천 아이템 선정 가능하고 시각적으로 설명이 가능함

 

그러나 다음과 같은 어려움이 있음

1. Less informative supervision signal

     • Signalsparse하고 less informative하게 나타남 ( 사용자 개개인의 선호도 부분이 )

          • , user implicit feedback이 희소하다는 것

2. Difficulties in selecting appropriate image segmentation method

     • 이상적인 방법은 object detection 같은 것을 활용해서 semantically하게 region을 나누는 것 ( 목 부위 등 )

     • 하지만 패션 카테고리에서 이를 label 하는 것은 쉽지 않음

     • 사용자 선호도가 다양하고 변화하기 때문에 통일된 segmentation도 없음

3. Lack of evaluation dataset

     •Publicly하게 나온 평가 데이터 셋이 사실상 없음

 

이런 어려움을 해소하기 위해!

User review information 사용

     • For enhancing the model supervision signal

     • 사용자 의견 등은 powerful한 정보이기 때문

     • LSTM 모델을 태우는데 visual feature word generation process넣어줌

          • Different modalities 효율적으로 결합하기 위해

Image

     • Small grid로 쪼갬

     • 다양한 세부 정보를 얻기 위해

 

이전 연구와 다르게 본 논문은

Improve the recommendation performance

Intuitive visual explanations for the recommended fashion products

 

Problem Formulation

본 논문에서 사용하는 수식입니다.

 

The VECF Model - Fine-grained Visual Preference Modeling

Attentively combining pre-extracted region feature

기존 방법 ( image into a fixed vector )과 다르게 영역 특징을 attentively하게 결합하여 사용

VGG-19conv5 layer 활용해서 feature map을 획득

    • 총 영역 ( h ) = 196( 14 X 14 )

    • 따라서 VGG-19에서 나온 512 이용해 14 X 14 X 512 representation을 얻을 수 있음

Final embedding of item j imagepooling feature matrix(Fj)로 계산

 
Attention weight : 사용자 별로 세분화 된 시각적 선호가 반영 됨!
 

The VECF Model - Review enhanced Model Supervision

Text 형태의 리뷰를 활용

사용자 선호도를 드러내는데 유익함 ( 같은 제품이어도 사용자마다 선호하는 것이 다르기 때문 )

따라서, 사용자마다 다른 선호도를 bias하게 추가 모델링할 수 있음

 

Integrate heterogeneous information가 주된 과제

User review and product image

LSTM Unit을 사용하되 different feature modalities 결합하기 위해

     • Attentive image embedding ( I_ij ) 넣어줌으로써 LSTM을 수정

반응형

The VECF Model - Optimization Objective

최종 likeness score는 아래와 같음
PL-layer neural network

 

Final objective function to be maximized is

전체 사용자를 돌면서 이전에 구입한 item set( ν_+^i )과 구입하지 않은 item set (ν / ν_+^i)으로 likeness 구함

    • 사용자 implicit feedbackmaximize

동시에 current words 예측하는 것과 regularize term을 둠

 

이렇게 함으로써

올바른 아이템을 추천하고 + visual explanation ( attention weights 이용 ) 가능

 

Experiments

4개의 research questionfocusing

1. 다른 SOTA 모델과 비교해서 성능을 향상시킬 수 있는가?

2. hyper-parameter에 따른 성능

3. 다른 모델 컴포넌트의 영향

4. visual explanations이 타당한 결과가 나오는지

 

Dataset

Amazon 데이터를 사용

4개의 subset으로 나눔

Baseline

BPR

VBPR

NRT

NFM++

RQ1 ( Top-N Recommendation )

User reviewproduct image 결합한 VBPR, NRTBPR보다 좋은 성능

    • 추가 콘텐츠를 제공할 수 있는 정보의 효과를 검증

NFM++

    • 좋은 성능 ( 모델 자체가 많은 정보를 이용해 user profilingassist)

그러나 VECF가 더 좋은 성능을 나타내줌

 

RQ2 ( Parameter analysis )

K가 크면 overfitting 경향

β trade off

     •implicit feedbackuser review information

     • βdataset마다 다르게 나타남 ( 도메인 의존 )

     • β too much on review information

     • β 는 성능이 좋지 않음

300x250
 

RQ3 ( Model Ablation Study )

VECF ( 제안 모델 )

VECF(-rev) : remove user review information

VECF(-att) : drop attention mechanism

     • Directly average all the regional features

VECF가 일관성 있게 성능이 좋았음

 

 

RQ4 ( Evaluation of Visual Explanations )

Quantitative Evaluation

     • F1, NDCG 이용한 정량적 평가

     • Image 196region에서 correct하게 나오는지

          • Mregion

          • 55개중 식별된 것이 있는가?

RQ4 ( Evaluation of Visual Explanations ) ~ ing

Qualitative Evaluation

     • 시각적 설명이 잘 나오는지 정성적 평가

     • VECF(-rev)와 비교

     • VECF가 더 정확

          • 그러나 설명이 안 되는 것도 존재

 

Conclusions

결론

Jointly leverage image region feature and user review information for enhancing fashion rec

더 좋은 성능을 이끌어 냈고 visual explanation도 가능함

 


마무리

이번 포스팅은 VECF :  Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network 이라는 추천 시스템 논문을 리뷰하였습니다. 

공부하시는 분들에게 조금이나마 도움이 되기실 바랍니다. 

감사합니다.

반응형
그리드형
0 Comments
댓글쓰기 폼