网页解析之beautifSoap

网页解析详解（三）

通过前面的介绍，我们已经学习了模糊匹配技术re模块，以及怎么用xpath解析网，今天我们来探讨下素有“鸡汤”之称的BeautifulSoap。

1安装、导入、解释器

安装：pipinstallbeautifulsoup4

?导入：frombs4importBeautifulSoup

先看一个实例：

我们不管BeautifulSoup怎么提取tag，先看看bs(cons,"lxml")这里面的“lxml”是什么意思。

其实它是一种解释器。

BeautifulSoup一共有四种解释器，优缺点如下：

解析器使用方法优势劣势Python标准库Beautifulsoap(markup,"html.parser")

Python的内置标准库，执行速度适中，文档容错能力强

Python2.7.3or3.2.2)前的版本中文档容错能力差

lxml?

HTML解析器

Beautifulsoap(markup,"lxml")

速度快，

文档容错能力强

需要安装C语言库

lxml?

XML解析器

Beautifulsoap(markup,"xml")

速度快，

唯一支持XML的解析器

需要安装C语言库

html5libBeautifulsoap(markup,"html5lib")

最好的容错性

以浏览器的方式解析文档生成HTML5格式的文档

速度慢

不依赖外部扩展

2beautifulsoap简介

可能通过上面那个实例，顾名思义，我们大致已经知道bs.find_All()是用来干嘛的了，是用来提取所有标签名是ul，属性是class，属性值是daysclearfix的标签了。

这简直太好用了，直观，明确，简单粗暴，不亏是soap。

下一篇文章：没有了