网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

python3爬虫如何获取html内容及各属性值-创新互联

小编给大家分享一下python3爬虫如何获取html内容及各属性值,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

员工经过长期磨合与沉淀,具备了协作精神,得以通过团队的力量开发出优质的产品。创新互联坚持“专注、创新、易用”的产品理念,因为“专注所以专业、创新互联网站所以易用所以简单”。公司专注于为企业提供成都网站制作、网站建设、外贸网站建设、微信公众号开发、电商网站开发,成都微信小程序,软件按需定制网站等一站式互联网企业服务。

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

import urllib.request

然后调用urlopen,读取数据

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

#python3
from bs4 import BeautifulSoup
html='''

 super 哈哈 star


 天下第一帅
 

  是不是
 

''' #用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性 html=BeautifulSoup(html,'html.parser') # 读取title内容 print(html.title) # 读取title属性 attrs=html.title.attrs print(attrs) # 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值 print(attrs['class'][0]) # 读取body print(html.body) 读取数据还可以通过BeautifulSoup的select方法 html.select() #按标签名查找  soup.select('title') soup.select('body') # 按类名查找 soup.select('.sister') # 按id名查找 # p标签中id为link的标签 soup.select('p #link') #取标签里面的值 soup.p.string #取标签里属性值 通过href获取 html['href']

以上是“python3爬虫如何获取html内容及各属性值”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注创新互联成都网站设计公司行业资讯频道!

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


当前文章:python3爬虫如何获取html内容及各属性值-创新互联
网站链接:http://bjjierui.cn/article/ipocd.html

其他资讯