当前位置: 首页 > 搜索 > 正文

heritrix-3.1.1 在windows安装

1 星2 星3 星4 星5 星 (3 次投票, 评分: 5.00, 总分: 5)
Loading ... Loading ...
baidu_share

1.下载heritrix 3.1.1

2.解压缩heritrix-3.1.1-src.zip文件,运行mvn命令。

mvn clean eclipse:eclipse

导入到eclipse中。

3.找到Heritrix.java,点击右键,”Run as”,”Run Configuration”,在”Arguments”对话框中输入:

-a admin:admin

4.在浏览器中输入”https://localhost:8443″,进入webUI控制页面。输入创建的job名testJob,点击”create”.进入以下画面。
heritrix

5.点击testjob,在”configuration: .\jobs\testjob\crawler-beans.cxml [edit]“,点击edit。找到bean id=”simpleOverrides”,修改metadata.operatorContactUrl,metadata.jobName,metadata.description。

metadata.operatorContactUrl=http://127.0.0.1
metadata.jobName=testJob
metadata.description=first testJob

找到bean id=”longerOverrides”,修改”seeds.textSource.value”的值。即设定要抓取的url。

        http://www.163.com/

6、点save changes,回到工作页面。点击build,Job Log会显示INFO Job instantiated。在点击“lunch”。再点击”unpause”按钮。抓取工作就开始了。一定要点击”unpause”按钮,不然抓取是不会进行的。

要想删除建立的job,进入heritrix-3.1.1项目,找到job目录,删除掉testjob,就可以了。

crawler-beans.cxml配置介绍:

1.

bean id=simpleOverrides
          class=org.springframework.beans.factory.config.PropertyOverrideConfigurer

字面上的意思为简单的覆盖,的确这里只是简单的覆盖.设置最基本的信息.如抓取任务名字(metadata.jobName),操作URL(metadata.operatorContactUrl),描述信息(metadata.description)
2.

bean id=metadata  class=org.archive.modules.CrawlMetadata

如同simpleOverrides
3.

bean id=seeds  class=org.archive.modules.seeds.TextSeedModule

种子配置,可以从文件中读取种子,也可以直接设置种子
4.

bean id=scope  class=org.archive.modules.deciderules.DecideRuleSequence

URL规则控制,可以决定哪些URL要抓取,哪些URL拒绝,URL抓取深度等

本文固定链接: http://www.chepoo.com/heritrix-3-1-1-installation-in-windows.html | IT技术精华网

heritrix-3.1.1 在windows安装:等您坐沙发呢!

发表评论