当前位置: 首页 > 推荐系统 > 正文

豆瓣推荐系统的长尾推荐机制

1 星2 星3 星4 星5 星 (2 次投票, 评分: 5.00, 总分: 5)
Loading ... Loading ...
baidu_share

豆瓣上的书籍目前有80万种,“我们的数据库和当当、卓越、亚马逊对接,但也可以由用户自己填加一些老书。中国以前不使用国际标准书号ISBN,70年代是中国统一书号,我们也支持,但多半由用户自己填加。”

在杨勃看来,任何一个书店或网站,图书品种达到20万就够了。“其他的书,或者说位于长尾尾部的书,大部分价值不大,比如1982年的水暖工手册,1996年初中升高中地理复习参考资料……当然,其中也偶有精华。比如古籍或者早年翻译过现在没有再版的书。这些书都藏在后面四五十万的垃圾中间。”

杨勃估计,《围城》、《活着》、《挪威的森林》大概是豆瓣里面阅读数最多的。大致统计,将各版本的数字加起来,三书的总阅读人数分别为六千、五千和七千。

“如果你是一个书店,你就有库存限制问题。你没有采购过的书,数据库里就没有。但豆瓣不一样,只要有人看过,就可以填加,而且它的空间没有成本。”杨勃认为,豆瓣的数据比当当、卓越更接近理想化的长尾。

“80年代的书,当当卓越绝对不会有。”他现场演示,找到网友“小小风也”的主页。上面有一本《孤筏重洋》,最早是1981年湖南人民出版社出的,05年重庆出版社再版。海子卧轨自杀时带着这本书。

两种推荐机制
豆瓣的定位,用长尾理论解释,是想做一个合适的过滤器——帮助发现你喜欢的东西。

怎样做到这一点呢?杨勃从现实生活得到启发。“一堆人聊天,你说到一本书,有个同事跳出来,说这个我也看。你们就会聊起来,会谈到别的书。豆瓣的分析思路也一样,都看过这本书的人,他们在阅读其他书时有多少重合。”

杨勃把推荐机制分为两种。一是按内容分类,比如分析一首歌的节奏、配器、频率,然后将与其类似的歌划为一类,著名的Pandora.com就是这样做的。

还有一种是社会性推荐。“前一种方法,即便只有一两个用户,你也可以做起来。而第二种方法,你必须有很多数据积累。到数据足够多的时候,它会更有效。”

其实,这类似早期Yahoo和Google的区别。在创始初期,Yahoo就按内容对不同网站进行分类,但这种方法是自不量力,因为网站生长太快,再多的人手也不够给所有网站做目录。Yahoo后来采用了一些自动方式,比如用软件分析网页词汇,再确定它的类别。

而Google则聪明得多,他不分析网站,而是分析链接。一个链接相当于一票,学术文献也是相互索引,被引用最多的论文价值最高。网页也是如此,被链接最多的网页Pagerank就高。

“这种方法的好处在于,它不用长时间积累用户数据,网站之间的投票一直存在,用机器抓过来就能用。而豆瓣,用的是人对书的投票。它不是自然存在于网络上,必须慢慢积累起来,需要一个过程。”杨勃说。

“本质上,一本书对我来讲,是一个黑盒子。我并不关心它的主题、出版社、作者、内容,只看它和哪本书有关联。这样挖掘出来的东西,可能非常正确,推荐非常有效。”

杨勃发现,推荐光准确是没有用的,还要有效。“我们也做过通过标签分析,这本书和哪本书最像,通过它做推荐,很准,但用处不大。比如你看过《黑客帝国1》,然后它找出《黑客帝国2》给你,这种推荐毫无用处。你看过余华的《活着》,我把《细雨中的呼喊》(余华的早期作品)推荐给你。这通常也没有用。有效的推荐,是你挖掘出来的联系不是表面能看出来的。比如你看《世界是平的》,豆瓣会推荐《长尾理论》,这两个之间其实没有内容上的联系。”

其中的机制其实也不难理解,因为两本书有相同的读者群。喜欢这本书的人也喜欢那本。“就是一种统计方法,喜欢这本书的人中间,比如说百分之四十都喜欢那本书。”

杨勃认为,流行的东西,豆瓣没什么特别用处,因为你从其他媒体也能了解到。豆瓣发挥强大效力的地方是长尾。“你看一本书,在豆瓣看到有10个人看,这样带来的惊喜,比你发现一本书有1万人在看,要强烈得多。而且,这个过程是沿着长尾往下走,散播去,推进到越来越多的人不知道的书。有很多偏僻的书,其实是有天然读者的,只是缺乏一个桥梁把他们连接。缺乏一个传播机制。如果一本很偏的书建立了你们的联系,那么很有可能会有新的发现。”

什么人在看什么书,什么人喜欢什么音乐、电影。豆瓣目前已经积累了上千万条这样的记录。“我们的程序会找出和你兴趣一致的人,然后按一定方法来找你们共同喜欢的东西,推荐给你。大致如此。”

本文固定链接: http://www.chepoo.com/douban-recommended-system-recommendation-mechanism-nagao.html | IT技术精华网

豆瓣推荐系统的长尾推荐机制:等您坐沙发呢!

发表评论