当前位置: 首页 > solr, 搜索 > 正文

Solr Cell概念

关键字:
1 星2 星3 星4 星5 星 (2 次投票, 评分: 5.00, 总分: 5)
Loading ... Loading ...
baidu_share

早先的 Solr 发行版可以很容易地索引已经存在的 XML 格式的文件,但是索引非 XML 数据,像 二级制文件或者 Office 文档,需要额外的处理。Solr 使用了 Apache Tika 来提供解析框架,该框架中整合了像 Apache PDFBox 和 Apache POI。使用了这个框架,Solr 的 ExtractingRequestHandler 可以使用 Tika 来支持二级制文件的上传,包括了常见的 Word 和 PDF 文件。

当这个框架在开发时,它叫 Solr 内容抽取库 (Solr Content Extraction Library or CEL),后来采用了缩写,取名为 Solr Cell。

在使用 Solr Cell 框架式,需要注意以下几个有用的点:
Tika 会自动尝试解析输入文档(Word、PDF、HTML)的类型,并正确的抽取文本。如果你愿意,你可以使用 St.rema.typ 参数给 Tika 明确设置一个 MIME 类型
Tika 运行时产生一个 XHTML 流提供给 SAX ContentHandler。SAX 是通用的 XML 解析器。
Solr 回应 Tika 的 SAX 事件,然后创建字段给索引库。
Tika 依照像 DubinCore 这样的规格,产生如标题、主题和作者这样的元数据
Tika 添加所有抽取出来的文本放入 content 字段
可以把 Tika 的元数据字段和 Solr 的字段做映射,也可以设置这些字段的 boost。
可以传递一些常量给字段的值
Tika 的 XTML 支持 XPath 表达式,可以通过表达式限制其内容的产生

本文固定链接: http://www.chepoo.com/solr-cell-concept.html | IT技术精华网

【上一篇】
【下一篇】

Solr Cell概念:等您坐沙发呢!

发表评论