본문 바로가기

728x90
반응형

전체 글

[RecSys] Item2Vec | Word2Vec | CBOW | Skip-Gram | SGNS | Embedding | Word Embedding 01. 개요 1-1. 임베딩이란? 주어진 데이터를 낮은 차원의 벡터로 만들어서 표현하는 방법 Spare Representation(이진값 벡터)을 Dense Representation(실수값 벡터)으로 표현 1-2. 워드 임베딩이란? 텍스트 분석을 위해 단어(word)를 벡터로 표현하는 방법 벡터로 표현함으로써, 단어간 의미적인 유사도 계산 가능 MF도 user latent vector, item latent vector을 이용한 임베딩이라고 해석할 수 있음 02. Word2Vec 단어를 예측하는 작업을 수행하기 위해서는 자연스럽게 단어 임베딩을 수행하게 됨 → 임베딩에는 단어의 고유 특징이 저장됨 대량의 문자 데이터를 벡터 공간에 투영하여 dense vector로 표현 효율적이고 빠른 학습이 가능함 2.. 더보기
[TIL/2023.04.05] 부캠 23일차 (재밌지만 어려워 🔥 어렵지만 재밌어🔥) TIL (Today I Learn) CTR 예측 문제에 활용될 수 있는 Wide&Deep과 딥러닝을 접목한 DeepFM User Behavior feature를 사용하는 DIN과, DIN에서 발전한 모델인 BST Multi-Armed Bandit(MAB) 의 개념과 대표적인 알고리즘 Greedy, Epsilon-Greedy, UCB 심화된 MAB 알고리즘인 Thompson Sampling과 LinUCB 팀 내 논문리뷰 스터디 정기세션 (강아지팀: BPR, 고양이팀(나는 여기): VBPR) Keep 이번 주 논문 리뷰 세션도 성공적으로 끝냈다! 약간 절은 부분도 있었지만 발표도 잘 한 것 같아서 맘에 든다 희희 2주차에 걸친 RecSys 이론 강의를 완주했다! 아직 제대로 이해 못한 것도 많고, 더 공부하.. 더보기
[Git&GitHub] Git & GitHub 관련 개념 총정리 2탄 - 응용편 본 내용은 부스트캠프의 이고잉님의 Github 특강 내용을 토대로 작성되었습니다 Git 기본 명령어 정리 git config --global alias.l "log --oneline --all --graph” git의 log를 보여주는 명령어를 단축어로 설정하자! 이렇게 설정하면 git l 만 입력해도 상세한 내용을 확인할 수 있음 git status: 커밋하지 않은 수정된 파일이 있는지 확인 빨간색으로 출력 → 아직 stage에 올라가지 않은 파일 초록색으로 출력 → stage에 올라간 파일 (하지만 아직 커밋되지 않음) M: Modified — 파일이 수정되었음 U: Untracked — 한번도 add된 적이 없음 (git이 관리한 적 없음) git add 파일명 : 파일을 stage에 올리기 git.. 더보기
[TIL/2023.04.03] 부캠 21일차 (양은 적어도 난이도는 그렇지 않다..🙃) TIL (Today I Learn) 그리디 알고리즘 코테 1문제 풀이 GNN 기반의 추천 모델인 NGCF와 이를 경량화한 모델인 LightGCN RNN 기반의 추천 모델인 GRU4Rec CAR 모델 중 하나인 FM모델과 이를 발전시킨 FFM 모델 CTR 예측에 효과적이라고 알려진 기법인 GBM 기법 VBPR 논문 내용 정리 (진행중) Keep 코테 문제를 풀었다! 사실 지난 번에 풀려다가 못풀어서, 다른 분들이 어떻게 풀었는지 검색하고 개념적인 것을 기억해놓았었는데, 이 원리를 되새겨서 오늘 다시 풀어봤는데 간신히 아침 코테 1시간 내에 풀 수 있었다! 오늘 목표한 강의 분량인 7강과 8강을 모두 들었다! 지난주에 비해서 강의 자체의 분량은 적었지만, 짧은 시간 내에 소화해야 하는 강의 내용이 너무 많고.. 더보기
[RecSys] Model-based Collaborative Filtering | KNN | SVD | MF | Matrix Factorization | ALS 모델 기반 협업 필터링 (Model-based Collaborative Filtering) Parametric Machine Learning을 사용하여, 데이터에 내재한 패턴을 이용해 추천하는 CF 기법 데이터 정보가 파라미터의 형태로 모델에 압축됨 파라미터 → 데이터의 패턴을 표현 → 최적화로 업데이트 Model-based CF의 장점 모델 학습 및 서빙: 학습된 모델이 압축된 상태로 저장 → 이미 학습된 모델로 추천하기 때문에 서빙 속도가 빠름 Sparsity & Scalability 문제 개선: sparse 한 데이터에서도 좋은 성능을 보임 + 데이터가 늘어나도 좋은 추천 성능을 보임 Overfitting 방지: 전체 데이터의 패턴을 학습하도록 작동 → 특정 주변 이웃에게 크게 영향받지 않음 Lim.. 더보기
[RecSys] 협업 필터링 | Collaborative Filtering | User-based CF | Item-based CF | deviation 협업 필터링 (CF, Collaborative Filtering) 많은 유저들로부터 얻은 기호 정보를 이용해 유저의 관심사를 자동으로 예측하는 방법 (Collborative: 집단적 협업, 다수의 의견 활용) → 많은 유저/ 아이템 데이터가 축적될수록 추천이 정확해질 것이라 가정 협업 필터링의 목적과 원리 주어진 데이터를 활용해 user-item 행렬을 생성 유사도 기준을 정하고, 유저 혹은 아이템 간의 유사도 계산 (user-based vs item-based) 주어진 평점과 유사도를 활용하여, 행렬의 비어있는 값(평점)을 예측 협업 필터링의 분류에 따른 모델 CF 분류 Neighboorhood CF (Memory-based CF) Model-based CF 대표 모델 User-based Item-ba.. 더보기
[RecSys] 컨텐츠 기반 추천 | Content-based Recommendation | TF-IDF | Term Frequency - Inverse Documnet Frequency | 코사인 유사도 | Cosine Similarity 컨텐츠 기반 추천 (Content-based Recommendation) 특정 유저가 과거에 선호한 아이템과 비슷한 아이템을 해당 유저에게 추천해준다! 장점 유저에게 추천을 할 때 다른 유저의 데이터가 필요하지 않음 새로운 아이템 혹은 인기도가 낮은 아이템을 추천할 수 있음 추천 아이템에 대한 설명이 가능함: 왜 이런 추천결과가 나왔는가에 대해서 합리적이고 타당한 근거를 찾을 수 있음 단점 아이템의 적합한 특징을 찾는 것이 어려움 한 분야나 장르의 추천 결과만 계속해서 나올수도 있음 (Overspecializatino) 다른 유저의 데이터를 활용할 수 없음 어떻게 아이템의 특징을 알아낼까? Item Profile: 추천 대상이 되는 아이템을 식별하고 특징이 되는 속성을 구성하는 것 → 다양하게 구성한 속.. 더보기
[RecSys] 연관 분석 | Association Analysis | 장바구니 분석 | 서열 분석 | support | confidence | lift 연관 분석(Association Rule Analysis, Association Rule Minig) 주어진 거래(Transaction) 데이터에 대해서, 하나의 상품이 등장했을 때 다른 상품이 같이 등장하는 규칙을 찾는 알고리즘 장바구니 분석 혹은 서열 분석이라고 하기도 함 빈발 집합(Frequent Itemset)에 대한 이해 k-Itemset: k개의 item으로 이루어진 itemset (k≥1) Support Count: 전체 거래 데이터에서 itemset이 등장하는 횟수 Support (Ratio): itemset이 전체 거래 데이터에서 등장하는 비율 Frequent Itemset: 엔지니어가 지정한 min support 값 이상의 itemset 연관 규칙의 기본 척도 frequent items.. 더보기

728x90
반응형