爬虫Day17-解析库Xpath

前言

我们在之前介绍如何解析响应数据时讲到了 BeautifulSoup 这个解析库，传送门：爬虫Day6-Beautiful介绍

但学习之后我们发现，BeautifulSoup 是依赖解析器的，在实际开发环境中，我们常常遇到一些特殊情况，例如编码格式导致解析时发现页面数据缺失等等情景。

这时候，除了更换解析器这个办法之外，我们还可以使用其他的解析库，例如 Xpath。

Xpath介绍

XPath，全称 XML Path Language，即 XML 路径语言，它是一门在XML文档中查找信息的语言（XML也是一种标签化语言）。XPath 最初设计是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。

Python 标准库中自带了 xml 模块，但是性能不够好，而且缺乏一些人性化的 API，相比之下，第三方库 lxml 是用
Cython 实现的，而且增加了很多实用的功能，可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在
lxml.etree中。

Xpath 常用规则

每一条 / 都表示一层嵌套关系，我们需要对HTML结构进行一定的了解，使用Xpath 才更加得心应手
// 匹配的节点好比喻成文件系统的绝对路径，如果有相符的节点名称，那么就会被匹配到
@ 这个符号选取属性，我们一般用来获取 URL ，例如：@href

下面列出用法举例：

LXML 库的使用

读入HTML 文本

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''

html = etree.HTML(text)    # 初始化生成一个XPath解析对象
result = etree.tostring(html)
print(type(result))     # bytes类型
print(result.decode('utf-8'))   # 将二进制内容解码成str类型的字符串

传入 HTML 文本，会自动修正（补齐缺漏的节点标签）且生成一个XPath解析对象，后续的解析都是根据解析对象来调用xpath方法进行节点选择
由于初始化 HTML 文本返回的结果是bytes类型，我们打印出来时，需要转为utf-8。

读入HTML 纯文件

from lxml import etree

html = etree.parse('test.html', etree.HTMLParser())

result = etree.tostring(html)   # 解析成字节
#        etree.tolist（html）   解析成列表
print(result.decode('utf-8'))

test.html是我们创建的html文件，里面存放一些html文本
跟直接读取html文本不同的是，文件读取会多出 DOCTYPE 的声明，但是对内容解析没有影响
tostring 方法可以实现将内容结构化打印出来（比较直观）

xpath 选择节点

关于怎么选择节点，除了上面讲的 xpath 常用规则之外，还有一些关于属性匹配、属性获取的使用方法。

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
# //代表获取子孙节点，*代表获取所有
result = html.xpath('//*')  


# 指定节点名称，比如要获取所有li节点
result2 = html.xpath('//li')

# 指定li标签下的直接子节点a
result3 = html.xpath('//li/a')     

# @符号的过滤   选取 class 为 item-1的li节点
result5 = html.xpath('//li[@class="item-1"]')

# 获取指定节点父节点的类值
result4 = html.xpath('//a[@href="link4.html"]/../@class')

属性获取：@href 即可获取节点的 href 属性
属性匹配：使用中括号，@属性名 = 值的方式来限定某个属性

获取文本

用 XPath 中的 text() 方法可以获取节点中的文本

1 2	result6 = html.xpath('//li[@class ="item-0"]/a/text()') #获取a节点下的内容 result7 = html.xpath('//li[@class ="item-0"]//text()') #获取li下所有子孙节点的内容

这里要注意，text（）方法要结合着前面的”/“或“//” 标签看，如果是 “/” 的话，就输出当前子节点的文本；如果是 “//” 的话，就输出当前节点的所有子孙节点的文本

模糊查询

如果 HTML 文本中的 li 节点的 class 属性有两个值，例如 “class =li li-first”

遇到这种情况，我们可以用contains()函数或者将多个值写全，才能匹配到该节点。

多属性匹配

如果需要根据多个属性才能确定一个节点，这是就需要同时匹配多个属性才可以，那么这里可以使用运算符 and 来连接（xml还支持其他运算符）

and 表示 “与” 的关系，只有同时满足两个属性匹配表达式，该节点才会被选中。

按序选择

有时候我们在选择的时候可能某些属性同时匹配了多个节点，但是我们只想要其中的某个节点，如第二个节点，或者最后一个节点，这时该怎么办呢？

这时可以利用中括号传入索引的方法获取特定次序的节点

类似于列表的切片，不过需要注意：

这里的切片的索引是从1开始的
支持last、position等函数
还支持+-<>的推算

写在最后

这一篇还是干货满满的，哈哈哈，慢慢吸收吧~ 关于节点选择的编写，写熟了自然就会了。

下回见，peace~

前言