`
isiqi
  • 浏览: 16030009 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

windows下nutch0.8初探

阅读更多
前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。

我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant就可以达到效果,脚本如下:
<projectname="nutch-crawl"default="crawl"basedir=".">


<propertyname="lib.dir"location="lib"/>
<propertyname="conf.dir"location="conf"/>
<propertyname="urls.dir"location="urls"/>



<pathid="project.classpath">

<filesetdir="${lib.dir}"/>
<pathelementpath="${conf.dir}"/>
<filesetdir="."includes="nutch-*.jar"/>

</path>


<targetname="crawl">
<echo>crwalingstarting...</echo>
<propertyname="JVM.extra.args"value="-Xmx1000m"/>
<javaclassname="org.apache.nutch.crawl.Crawl"classpathref="project.classpath"fork="true">
<jvmargline="${JVM.extra.args}"/>
<argvalue="${urls.dir}"/>
<argvalue="-dir"/>
<argvalue="e:/xxcrawled20"/>
<argvalue="-depth"/>
<argvalue="2"/>
<argvalue="-threads"/>
<argvalue="10"/>
</java>
<echo>crwalingfinished...</echo>
</target>

</project>


应该注意2点
1)增加一个目录urls,放入一个文件,文件内容填上你要爬的url
2)修改nutch-site.xml,覆盖http.agent.name属性,一定要填入值


还有一点,如果你使用上面的ant脚本,你必须注意类路径的顺序, <pathelementpath="${conf.dir}"/>必须位于
<filesetdir="."includes="nutch-*.jar"/>之前。否则jar中的那个空的nutch-site.xml会取代conf目录下你修改好的nutch-site.xml

至于搜索这个部分没什么好说的
在nutch-site.xml中加入:
<property>
<name>searcher.dir</name>
<value>E:\xxcrawled2</value>
</property>

value部分填入你crwal时设置的目录
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics