当前位置: 首页 > 搜索 > 正文

heritrix3 后台运行job

1 星2 星3 星4 星5 星 (2 次投票, 评分: 5.00, 总分: 5)
Loading ... Loading ...
baidu_share

在实际项目开发中,用heritrix3抓取网页,不可能启动Heritrix类,进入web界面,创建job,launch等操作。在实际开发中,我们要通过程序去实现一个job的创建,运行。

1.根据自己的需求配置好crawler-beans.cxml。

2.通常的job launch后,进入暂停状态,要进入运行状态,需要把属性name=”pauseAtStart” 值改为”false”.

<!-- CRAWLCONTROLLER: Control interface, unifying context -->
 <bean id="crawlController" 
   class="org.archive.crawler.framework.CrawlController">
  <!-- <property name="maxToeThreads" value="25" /> -->
  <!-- <property name="pauseAtStart" value="true" /> -->
  <!-- <property name="runWhileEmpty" value="false" /> -->
  <property name="pauseAtStart" value="false"/>
  <!-- <property name="recorderInBufferBytes" value="524288" /> -->
  <!-- <property name="recorderOutBufferBytes" value="16384" /> -->
  <!-- <property name="scratchDir" value="scratch" /> -->
 </bean>

3.Java示例代码如下:

File cxml = new File("D:\\hq\\workspace\\heritrix-3.1.0-src\\jobs\\testjob\\crawler-beans.cxml");
        CrawlJob cj = new CrawlJob(cxml);
        cj.validateConfiguration();
        cj.launch();

在job运行完成后,程序会自动退出。这样我们可以定时执行job,可以采用spring quartz 或者linux crontab 实现。

本文固定链接: http://www.chepoo.com/heritrix3-job-running-in-the-background.html | IT技术精华网

heritrix3 后台运行job:等您坐沙发呢!

发表评论