网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

python里bs4的使用方法

python里bs4的使用方法?这个问题可能是我们日常学习或工作经常见到的。希望通过这个问题能让你收获颇深。下面是小编给大家带来的参考内容,让我们一起来看看吧!

创新互联建站是一家专业提供通江企业网站建设,专注与成都网站制作、成都网站建设、外贸营销网站建设H5开发、小程序制作等业务。10年已为通江众多企业、政府机构等服务。创新互联专业的建站公司优惠进行中。

bs4 全名 BeautifulSoup,是编写 python 爬虫常用库之一,主要用来解析 html 标签。

初始化

from bs4 import BeautifulSoup

soup = BeautifulSoup("A Html Text", "html.parser")

两个参数:第一个参数是要解析的html文本,第二个参数是使用那种解析器,对于HTML来讲就是html.parser,这个是bs4自带的解析器。如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的。

python里bs4的使用方法

对象

Beautfiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:tag,NavigableString,BeautifulSoup,Comment。

tag

Tag对象与 xml 或 html 原生文档中的 tag 相同。

soup = BeautifulSoup('Extremely bold')

tag = soup.b

type(tag)

# 

如果不存在,则返回 None,如果存在多个,则返回第一个。

name

每个 tag 都有自己的名字

tag.name
# 'b'

attributes

tag 的属性是一个字典

tag['class']
# 'boldest'

tag.attrs
# {'class': 'boldest'}

type(tag.attrs)
# 

两点注意事项

1、python3不再有urllib2,取而代之的是urllib.request,因此把在Python2中使用urllib2的地方全部替代为urllib.request即可
2、from BeautifulSoup import BeautifulSoup 总是会出错,替换为from bs4 import BeautifulSoup即可

当然,文档的节点不止这些,还有其他很多的节点。

感谢各位的阅读!看完上述内容,你们对python里bs4的使用方法大概了解了吗?希望文章内容对大家有所帮助。如果想了解更多相关文章内容,欢迎关注创新互联行业资讯频道。


当前题目:python里bs4的使用方法
本文地址:http://bjjierui.cn/article/gocdii.html

其他资讯