Linux安全网 - Linux操作系统_Linux 命令_Linux教程_Linux黑客

会员投稿 投稿指南 本期推荐:
搜索:
您的位置: Linux安全网 > Linux编程 > » 正文

Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)

来源: 未知 分享至:

 

下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容,是关于Nutch 新的链接分数算法的说明,有点类似于GooglePageRank,这里有其运行的一个例子http://wiki.apache.org/nutch/NewScoringIndexingExample

本页面描述了修订723441新的计分(即WebGraph链接分析)Nutch的功能?? 又见新的得分例如。

目录

  1. 一般资料
  2. WebGraph
  3. 循环
  4. LinkRank
  5. ScoreUpdater
  6. 问题
  7. 如果不忽略内部链接,将LinkRank分数相当于PageRank的分数呢 

    一般资料

    新的评分功能,可以发现在org.apache.nutch.scoring.webgraph 这个软件包包含多个程序,建立网络图,执行稳定的收敛链路分析,并更新crawldb那些分数。 这些方案假定提取周期已经完成,现在的用户希望建立一个全球性的webgraph,从这些细分市场执行,webgraph链接分析,以得到一个全球性的相关性得分为每个URL 建立一个webgraph假设,所有环节都存储在当前要处理的段。 链接不举行了一个加工周期到另一个。 全球链接分析的分数是基于对当前链接和分数的链接结构的webgraph变化会改变。

    目前得分作业都没有集成到作为Nutch的脚本命令必须在运行形式斌/ Nutchorg.apache.nutch.scoring.webgraph.XXXX

    WebGraph

    WebGraph方案一旦所有的段取出,并准备要处理的,必须运行的第一份工作。 WebGraph发现org.apache.nutch.scoring.webgraph.WebGraph 下面是一个打印程序的使用。

    
    使用:WebGraph
    
      - help显示此帮助消息
    							
    
    <segment>段(S)使用
    							
      webgraphdb <webgraphdb>Web
                    
                   
    
    
    
                   
    
                

Tags:
分享至:
最新图文资讯
1 2 3 4 5 6
验证码:点击我更换图片 理智评论文明上网,拒绝恶意谩骂 用户名:
关于我们 - 联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 发展历史