当前位置: 首页 > 算法
  • 文章相似度的实现可以用余弦相似性实现。我们可以把它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。

    阅读全文
    推荐系统 10,740 人阅读 2条评论 , , ,
  • 先来熟悉tf-idf模型。词频(TF)=某个词在文章中出现的次数,词频(TF)=某个词在文章中出现的次数/文章的总词数,TF-IDF=词频(TF)*逆文档率(IDF),TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。本文提供了TF-IDF java实现。

    阅读全文
    推荐系统 8,605 人阅读 3条评论 , , , ,
  • 编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。利用Levenshtein距离,我们可以来计算两个字符串之间的相似度。以下是java的实现版本。

    阅读全文
    搜索 2,463 人阅读 抢沙发 , ,
  • Trie 插入和查询时间复杂度都为 O(k) ,其中 k 为 key 的长度,与 Trie 中保存了多少个元素无关。Hash 表号称是 O(1) 的,但在计算 hash 的时候就肯定会是 O(k) ,而且还有碰撞之类的问题;Trie 的缺点是空间消耗很高。Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。

    阅读全文
    网站开发 714 人阅读 抢沙发 , ,