协同过滤基础

Home > Recommender-System > 协同过滤基础

协同过滤基础

March 16, 2010 superangevil Leave a comment Go to comments

推荐系统中，协同过滤(Collaborative Filtering)技术已经获得了相当广泛的成功，最著名的就是Amazon，这里就不多说了。虽然是互联网上迟到的80后，但我们还是有热情去在互联网的舞台上脚踏实地的去拼搏、去奋斗。说到“脚踏实地”，一直以为CF没啥，现在觉得还是应该踏踏实实把它记录下来，算是对自己的积淀吧。

Web2.0时代都讲求“集体智慧”(collective intelligence)，首先是韩信将兵多多益善，而后再聚合、分类、过滤、预测、推荐、……。CF简单来说就是利用与使用者兴趣(interest)相投、品味(taste)相同的群体的喜好来对使用者产生他所”可能”感兴趣的信息。互联网上一个个个体透过一种合作机制（比如豆瓣的书影音平台）对某特定信息给予相当程度的回应（写书评、影评，评分等），这些信息可以用以帮助他人筛选信息。通常做法是: (1) 对一大群人进行搜索，并从中找出与使用者品味相近的一小群人； (2) 对这小群人喜好的其他内容进行考察，并将它们组合起来构造一个经过排名的推荐列表。CF最大特点是它并不利用content信息，仅仅利用user-item矩阵的链接关系就能产生预测。下面记录一下最基本的两种基于kNN的方法: User-Based CF, Item-Based CF（关于它们之间的比较就不说了，几篇经典的CF论文都讲了）。

0. 数据准备:

阶user-item关系的rating矩阵:

— 行代表user，列代表item

1. User-Based Collaborative Filtering

STEP1. 对user u，计算u与其他每个user v的相似度:

记

为user u和user v都打过分的items集合

表示user u对

中items打分的均值；

表示user v对

中items打分的均值。
此种度量方式实际上是调整后的cosine相似度（还有很多相似度度量方式，比如Euclidean Distance, Pearson Correlation等等，具体选用哪种相似度度量方式，要根据具体应用和数据的具体特点而定）。

STEP2. 这样，对user u，就找到了u与其他用户的相似度度量，根据相似度排序，取top-k个用户(kNN过程—找到了k个最近邻):
为排好序的与user u最近似的k个最近邻，相应的相似度为
此步的一个直接结果就是找到了相似用户。

STEP3. 预测user u对item i的喜欢程度:

记

为对item i打过分的users集合

用相似kNN且对item i打过分的用户对item i评分的加权平均作为user u对item i喜欢程度的预测，这就找到了user u对其未关注过的item i的可能喜欢程度；对u所有未打过分的items都进行一下预测，就找出了一个user u未关注过的items的预测列表，对其按照预测值进行排序，就给出了一个user u可能喜欢的N个items（有序），这就是典型的“您可能喜欢”形态 🙂

2. Item-Based Collaborative Filtering

STEP1. 对任意两个item i, j，计算它们之间的相似度:

记

为对item i和item j都打过分的users集合