Hbase的网络爬虫及搜索引擎有什么优点

本篇内容介绍了“Hbase的网络爬虫及搜索引擎有什么优点”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

公司主营业务：网站设计、做网站、移动网站开发等业务。帮助企业客户真正实现互联网宣传，提高企业的竞争能力。创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化，感谢他们对我们的高要求，感谢他们从不同领域给我们带来的挑战，让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。创新互联推出浔阳免费做网站回馈大家。

网络爬虫架构在Nutch+Hadoop之上，是一个典型的分布式离线批量处理架构，有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取，所以，需要一个分布式搜索引擎，用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。

搜索引擎架构在ElasticSearch之上，是一个典型的分布式在线实时交互查询架构，无单点故障，高伸缩、高可用。对大量信息的索引与搜索都可以在近乎实时的情况下完成，能够快速实时搜索数十亿的文件以及PB级的数据，同时提供了全方面的选项，可以对该引擎的几乎每个方面进行定制。支持RESTful 的API，可以使用JSON通过HTTP调用它的各种功能，包括搜索、分析与监控。此外，还为Java、PHP、Perl、Python以及Ruby等各种语言提供了原生的客户端类库。

网络爬虫通过将抓取到的数据进行结构化提取之后提交给搜索引擎进行索引，以供查询分析使用。由于搜索引擎的设计目标在于近乎实时的复杂的交互式查询，所以搜索引擎并不保存索引网页的原始内容，因此，需要一个近乎实时的分布式数据库来存储网页的原始内容。

分布式数据库架构在Hbase+Hadoop之上，是一个典型的分布式在线实时随机读写架构。极强的水平伸缩性，支持数十亿的行和数百万的列，能够对网络爬虫提交的数据进行实时写入，并能配合搜索引擎，根据搜索结果实时获取数据。

网络爬虫、分布式数据库、搜索引擎均运行在普通商业硬件构成的集群上。集群采用分布式架构，能扩展到成千上万台机器，具有容错机制，部分机器节点发生故障不会造成数据丢失也不会导致计算任务失败。不但高可用，当节点发生故障时能迅速进行故障转移，而且高伸缩，只需要简单地增加机器就能水平线性伸缩、提升数据存储容量和计算速度。

网络爬虫、分布式数据库、搜索引擎之间的关系：

1、网络爬虫将抓取到的HTML页面解析完成之后，把解析出的数据加入缓冲区队列，由其他两个线程负责处理数据，一个线程负责将数据保存到分布式数据库，一个线程负责将数据提交到搜索引擎进行索引。

2、搜索引擎处理用户的搜索条件，并将搜索结果返回给用户，如果用户查看网页快照，则从分布式数据库中获取网页的原始内容。

整体架构如下图所示：

Hbase的网络爬虫及搜索引擎有什么优点