网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

使用爬虫遇到的一些问题

本博客会记录博主在使用爬虫过程中遇到的问题,不断更新,希望以后再遇到这些问题的时候,可以快速解决。

创新互联是一家集网站建设,麻山企业网站建设,麻山品牌网站建设,网站定制,麻山网站建设报价,网络营销,网络优化,麻山网站推广为一体的创新建站企业,帮助传统企业提升企业形象加强企业竞争力。可充分满足这一群体相比中小企业更为丰富、高端、多元的互联网需求。同时我们时刻保持专业、时尚、前沿,时刻以成就客户成长自我,坚持不断学习、思考、沉淀、净化自己,让我们为更多的企业打造出实用型网站。

1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL,但是复制到浏览器上打开发现一片空白。在抓包工具Raw里发现,有一项Refere,后面将此项加到headers信息里,数据可以正常显示出来了。代码如下:

import urllib.request

url='http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645'

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

此次难点在于不熟悉urllib库是如何添加更多的请求信息到heagers里,在以上代码中,data里还可以添加更加多的请求,比如cookie等信息,记录此次代码的目的在于熟悉urllib.request.Reques的用法


本文名称:使用爬虫遇到的一些问题
本文路径:http://bjjierui.cn/article/pijjed.html

其他资讯