网页解析之beautifSoap
网页解析详解(三)
通过前面的介绍,我们已经学习了模糊匹配技术re模块,以及怎么用xpath解析网,今天我们来探讨下素有“鸡汤”之称的BeautifulSoap。
1安装、导入、解释器
安装:pipinstallbeautifulsoup4
?导入:frombs4importBeautifulSoup
先看一个实例:
我们不管BeautifulSoup怎么提取tag,先看看bs(cons,"lxml")这里面的“lxml”是什么意思。
其实它是一种解释器。
BeautifulSoup一共有四种解释器,优缺点如下:
解析器使用方法优势劣势Python标准库Beautifulsoap(markup,"html.parser")Python的内置标准库,执行速度适中,文档容错能力强
Python2.7.3or3.2.2)前的版本中文档容错能力差
lxml?
HTML解析器
Beautifulsoap(markup,"lxml")速度快,
文档容错能力强
需要安装C语言库
lxml?
XML解析器
Beautifulsoap(markup,"xml")
速度快,
唯一支持XML的解析器
需要安装C语言库
html5libBeautifulsoap(markup,"html5lib")最好的容错性
以浏览器的方式解析文档生成HTML5格式的文档
速度慢
不依赖外部扩展
2beautifulsoap简介
可能通过上面那个实例,顾名思义,我们大致已经知道bs.find_All()是用来干嘛的了,是用来提取所有标签名是ul,属性是class,属性值是daysclearfix的标签了。
这简直太好用了,直观,明确,简单粗暴,不亏是soap。
转载请注明:http://www.shijichaoguyj.com/wxnr/2442.html