爬虫Day17-解析库Xpath

前言

我们在之前介绍如何解析响应数据时讲到了 BeautifulSoup 这个解析库,传送门: 爬虫Day6-Beautiful介绍

但学习之后我们发现,BeautifulSoup 是依赖解析器的,在实际开发环境中,我们常常遇到一些特殊情况,例如编码格式导致解析时发现页面数据缺失等等情景。

这时候,除了更换解析器这个办法之外,我们还可以使用其他的解析库,例如 Xpath。


Xpath介绍

XPath,全称 XML Path Language,即 XML 路径语言,它是一门在XML文档中查找信息的语言(XML也是一种标签化语言)。XPath 最初设计是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索

Python 标准库中自带了 xml 模块,但是性能不够好,而且缺乏一些人性化的 API,相比之下,第三方库 lxml 是用
Cython 实现的,而且增加了很多实用的功能,可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在
lxml.etree中。


Xpath 常用规则

  • 每一条 / 都表示一层嵌套关系,我们需要对HTML结构进行一定的了解,使用Xpath 才更加得心应手
  • // 匹配的节点好比喻成文件系统的绝对路径,如果有相符的节点名称,那么就会被匹配到
  • @ 这个符号选取属性,我们一般用来获取 URL ,例如:@href

下面列出用法举例:



LXML 库 的使用

读入HTML 文本

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from lxml import etree
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''

html = etree.HTML(text) # 初始化生成一个XPath解析对象
result = etree.tostring(html)
print(type(result)) # bytes类型
print(result.decode('utf-8')) # 将二进制内容解码成str类型的字符串
  • 传入 HTML 文本,会自动修正(补齐缺漏的节点标签)且生成一个XPath解析对象,后续的解析都是根据解析对象来调用xpath方法进行节点选择
  • 由于初始化 HTML 文本返回的结果是bytes类型,我们打印出来时,需要转为utf-8。

读入HTML 纯文件

1
2
3
4
5
6
7
from lxml import etree

html = etree.parse('test.html', etree.HTMLParser())

result = etree.tostring(html) # 解析成字节
# etree.tolist(html) 解析成列表
print(result.decode('utf-8'))
  • test.html是我们创建的html文件,里面存放一些html文本
  • 跟直接读取html文本不同的是,文件读取会多出 DOCTYPE 的声明,但是对内容解析没有影响
  • tostring 方法 可以实现 将 内容结构化打印出来(比较直观)

xpath 选择节点

关于怎么选择节点,除了上面讲的 xpath 常用规则之外,还有一些关于 属性匹配、属性获取的使用方法。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
from lxml import etree
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
# //代表获取子孙节点,*代表获取所有
result = html.xpath('//*')


# 指定节点名称,比如要获取所有li节点
result2 = html.xpath('//li')

# 指定li标签下的直接子节点a
result3 = html.xpath('//li/a')

# @符号的过滤 选取 class 为 item-1的li节点
result5 = html.xpath('//li[@class="item-1"]')

# 获取指定节点父节点的类值
result4 = html.xpath('//a[@href="link4.html"]/../@class')
  • 属性获取:@href 即可获取节点的 href 属性
  • 属性匹配:使用中括号,@属性名 = 值 的方式来限定某个属性



获取文本

用 XPath 中的 text() 方法可以获取节点中的文本

1
2
result6 = html.xpath('//li[@class ="item-0"]/a/text()')   #获取a节点下的内容
result7 = html.xpath('//li[@class ="item-0"]//text()') #获取li下所有子孙节点的内容
  • 这里要注意,text()方法要结合着前面的”/“或“//” 标签看,如果是 “/” 的话,就输出当前子节点的文本;如果是 “//” 的话,就输出当前节点的所有子孙节点的文本



模糊查询

如果 HTML 文本中的 li 节点的 class 属性有两个值 ,例如 “class =li li-first”

遇到这种情况,我们可以用contains()函数或者将多个值写全,才能匹配到该节点。



多属性匹配

如果需要根据多个属性才能确定一个节点,这是就需要同时匹配多个属性才可以,那么这里可以使用运算符 and 来连接(xml还支持其他运算符)

  • and 表示 “与” 的关系,只有同时满足两个属性匹配表达式,该节点才会被选中。



按序选择

有时候我们在选择的时候可能某些属性同时匹配了多个节点,但是我们只想要其中的某个节点,如第二个节点,或者最后一个节点,这时该怎么办呢?

这时可以利用中括号传入索引的方法获取特定次序的节点

类似于列表的切片,不过需要注意:

  • 这里的切片的索引是从1开始的
  • 支持last、position等函数
  • 还支持+-<>的推算

写在最后

这一篇还是干货满满的,哈哈哈,慢慢吸收吧~ 关于节点选择的编写,写熟了自然就会了。

下回见,peace~