Linux安全网 - Linux操作系统_Linux 命令_Linux教程_Linux黑客

会员投稿 投稿指南 本期推荐:
搜索:
您的位置: Linux安全网 > Linux编程 > » 正文

Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)(5)

来源: 未知 分享至:

  • PageRank是刚刚超过200个,谷歌使用的信号之一(如果他们
    • 仍然使用它),以确定相关性。 即使谷歌仍然使用 它最有可能发生了变化。 链接分析的分数都不错 全球的相关性得分,但链接得分没有一个搜索引擎

      使今天。 哦,我多么希望它是这么简单。 LinkRank是一个很好的 出发点,就是它。

  • 这仅仅是如您已检索的网页数量。 \"
    • 较大抓取段设置更好的成绩获得。
  • 一个环节一个环节,它的内容不可知。 如果你爬百米页
    • 并做了LinkRank上,你将看到所有常用的犯罪嫌疑人 (谷歌的 YouTubeFacebook的),但你也将看到这样的事情 FLASH下载。 LinkRank一个链接是一个链接,它不是特别 在它的内容的可视一块。

关于这一主题的更多信息, 请参阅的NewScoringIndexingExample

 

作者:http://blog.csdn.net/amuseme_lu

 


相关文章阅读及免费下载:

Apache Nutch 1.3 学习笔记目录

Apache Nutch 1.3 学习笔记一

Apache Nutch 1.3 学习笔记二

Apache Nutch 1.3 学习笔记三(Inject)

Apache Nutch 1.3 学习笔记三(Inject CrawlDB Reader)

Apache Nutch 1.3 学习笔记四(Generate)

Apache Nutch 1.3 学习笔记四(SegmentReader分析)

Apache Nutch 1.3 学习笔记五(FetchThread)


Tags:
分享至:
最新图文资讯
1 2 3 4 5 6
验证码:点击我更换图片 理智评论文明上网,拒绝恶意谩骂 用户名:
关于我们 - 联系我们 - 广告服务 - 友情链接 - 网站地图 - 版权声明 - 发展历史