基础
除了正则表达式之外,还有一些非常好用的信息筛选工具,比如XPath表达式、BeautifulSoup等
- / 逐层提取
- text()提取标签下面的文本
- //标签名**
- //标签名[@属性=’属性值’]提取属性为XX的标签
- @属性名 代表取某个属性值
实例
<html>
<head>
<title>主页</title>
</head>
<body>
<p>abc</p>
<p>bbbvb</p>
<a href="//qd.alibaba.com/go/pcdetail" target="_top">安全推荐</a>
<a href="//qd.alibaba.com/go/pcdetail" target="_top">安全推荐2</a>
<div class="J AsyncDC" data-type="dr">
<div id="official-remind">
明月几时有
</div>
</div>
</body>
XPath表达式 | 提取内容 |
---|---|
/html/head/title/text() | 主页 |
//p/text() | [‘abc’,’bbbvb’] |
//a | 提取所有的a标签 |
//div[@id=’official-remind’]/text() | 明月几时有 |
//a/@href | //qd.alibaba.com/go/pcdetail |
I'm so cute. Please give me money.
- 本文链接:https://wentianhao.github.io/2020/02/19/XPath%E8%A1%A8%E8%BE%BE%E5%BC%8F%E5%9F%BA%E7%A1%80/
- 版权声明:本博客所有文章除特别声明外,均默认采用 许可协议。
若没有本文 Issue,您可以使用 Comment 模版新建。