网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

从零学习node.js之简易的网络爬虫(四)-创新互联

前言

创新互联专业为企业提供岚县网站建设、岚县做网站、岚县网站设计、岚县网站制作等企业网站建设、网页设计与制作、岚县企业网站模板建站服务,十多年岚县做网站经验,不只是建网站,更提供有价值的思路和整体网络服务。

之前已经介绍了node.js的一些基本知识,下面这篇文章我们的目标是学习完本节课程后,能进行网页简单的分析与抓取,对抓取到的信息进行输出和文本保存。

爬虫的思路很简单:

  1. 确定要抓取的URL;
  2. 对URL进行抓取,获取网页内容;
  3. 对内容进行分析并存储;
  4. 重复第1步

在这节里做爬虫,我们使用到了两个重要的模块:

  • request : 对http进行封装,提供更多、更方便的接口供我们使用,request进行的是异步请求。更多信息可以去这篇文章上进行查看
  • cheerio : 类似于jQuery,可以使用$(), find(), text(), html()等方法提取页面中的元素和数据,不过若仔细比较起来,cheerio中的方法不如jQuery的多。

一、 hello world

说是hello world,其实首先开始的是最简单的抓取。我们就以cnode网站为例(https://cnodejs.org/),这个网站的特点是:

  1. 不需要登录即可访问首页和其他页面
  2. 页面都是同步渲染的,没有异步请求的问题
  3. DOM结构清晰

代码如下:

var request = require('request'),
 cheerio = require('cheerio');

request('https://cnodejs.org/', function(err, response, body){
 if( !err && response.statusCode == 200 ){
 // body为源码
 // 使用 cheerio.load 将字符串转换为 cheerio(jQuery) 对象,
 // 按照jQuery方式操作即可
 var $ = cheerio.load(body);
 
 // 输出导航的html代码
 console.log( $('.nav').html() );
 }
});

另外有需要云服务器可以了解下创新互联建站www.cdcxhl.com,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网站栏目:从零学习node.js之简易的网络爬虫(四)-创新互联
网页地址:http://bjjierui.cn/article/deddgo.html

其他资讯