网页解析之beautifSoap

网页解析详解(三)

通过前面的介绍,我们已经学习了模糊匹配技术re模块,以及怎么用xpath解析网,今天我们来探讨下素有“鸡汤”之称的BeautifulSoap。

1安装、导入、解释器

安装:pipinstallbeautifulsoup4

?导入:frombs4importBeautifulSoup

先看一个实例:

我们不管BeautifulSoup怎么提取tag,先看看bs(cons,"lxml")这里面的“lxml”是什么意思。

其实它是一种解释器。

BeautifulSoup一共有四种解释器,优缺点如下:

解析器使用方法优势劣势Python标准库Beautifulsoap(markup,"html.parser")

Python的内置标准库,执行速度适中,文档容错能力强

Python2.7.3or3.2.2)前的版本中文档容错能力差

lxml?

HTML解析器

Beautifulsoap(markup,"lxml")

速度快,

文档容错能力强

需要安装C语言库

lxml?

XML解析器

Beautifulsoap(markup,"xml")

速度快,

唯一支持XML的解析器

需要安装C语言库

html5libBeautifulsoap(markup,"html5lib")

最好的容错性

以浏览器的方式解析文档生成HTML5格式的文档

速度慢

不依赖外部扩展

2beautifulsoap简介

可能通过上面那个实例,顾名思义,我们大致已经知道bs.find_All()是用来干嘛的了,是用来提取所有标签名是ul,属性是class,属性值是daysclearfix的标签了。

这简直太好用了,直观,明确,简单粗暴,不亏是soap。









































治疗白癜风去哪家医院
北京治疗白癜风到什么医院好


转载请注明:http://www.shijichaoguyj.com/wxnr/2442.html

  • 上一篇文章:
  • 下一篇文章: 没有了
  • 网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

    当前时间: