Apache Nutch(Java搜索引擎框架) v2.3.1 官方免费版

Apache Nutch(Java搜索引擎框架)是一个开放源代码的Java搜索引擎框架,它提供了运行自己的搜索引擎所需要的全部工具,包括全文搜索和Web爬虫,使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如Map-Reduce、Hadoop、Plugin等。

Nutch目标:

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

每个月取几十亿网页

为这些网页维护一个索引

对索引文件进行每秒上千次的搜索

提供高质量的搜索结果

Nutch的运行流程:

1.将起始 URL 集合注入到 Nutch 系统之中。

2.生成片段文件,其中包含了将要抓取的 URL 地址。

3.根据URL地址在互联网上抓取相应的内容。

4.解析所抓取到的网页,并分析其中的文本和数据。

5.根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。

6.同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。

1. 本站所有文章及资源来源于用户上传和网络,如有侵权请联系站长处理!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律,否则后果自负!
4. 如有链接无法下载、失效或广告,请联系管理员处理!
5. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!

中国站长社区 » Apache Nutch(Java搜索引擎框架) v2.3.1 官方免费版

发表评论