下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容,是关于Nutch 新的链接分数算法的说明,有点类似于Google的PageRank,这里有其运行的一个例子http://wiki.apache.org/nutch/NewScoringIndexingExample。
本页面描述了修订723441新的计分(即WebGraph链接分析)Nutch的功能??。 又见新的得分例如。
目录
新的评分功能,可以发现在org.apache.nutch.scoring.webgraph。 这个软件包包含多个程序,建立网络图,执行稳定的收敛链路分析,并更新crawldb那些分数。 这些方案假定提取周期已经完成,现在的用户希望建立一个全球性的webgraph,从这些细分市场执行,webgraph链接分析,以得到一个全球性的相关性得分为每个URL。 建立一个webgraph假设,所有环节都存储在当前要处理的段。 链接不举行了一个加工周期到另一个。 全球链接分析的分数是基于对当前链接和分数的链接结构的webgraph变化会改变。
目前得分作业都没有集成到作为Nutch的脚本命令必须在运行形式斌/ Nutch的org.apache.nutch.scoring.webgraph.XXXX。
WebGraph方案一旦所有的段取出,并准备要处理的,必须运行的第一份工作。 WebGraph发现org.apache.nutch.scoring.webgraph.WebGraph。 下面是一个打印程序的使用。
使用:WebGraph
- help显示此帮助消息
段<segment>段(S)使用
webgraphdb <webgraphdb>的Web