Dust8 的博客

读书百遍其义自见

0%

xpath总结

怎么调试 xpath 的

不喜欢用正则,感觉用有时用 xpath 简单很多。

用到的一些 xpath 表达式

  • ‘a/text()’ 获取 a 元素的内容
  • ‘//tag[@attr0][@attr1]’

语法

选取节点

  • ‘//a/@href’ 获取所有 a 元素的 href 属性值
  • ‘//a/..’ 所有 a 元素的父元素

谓语

  • ‘//tr/td[1]’ 获取所有 tr 里面的第一个 td 元素,索引从 1 开始
  • ‘//li[@class=”p2”]’ 选择所有类名为 p2 的 li 元素
  • ‘//tr[td[@style]]’ 包含有 style 属性的 td 元素的所有 tr 元素
  • ‘li[a]’ li 元素下有 a 元素的 li 元素

选取若干路径

  • ‘a|h2’ a 元素或者 h2 元素

  • ‘//a/following-sibling::div[1]’ a 元素的第一个 div 兄弟元素
  • ‘//br/preceding-sibling::text()’ br 元素之前的所有同级的 text 节点.有些页面全是 br 元素换行,用它就可以取到和它同级的内容
  • ‘//a/ancestor::div[1]’ a 元素的第一个 div 父元素

运算符

  • ‘li[position() mod 2 = 0]’ 所有偶数位的 li 元素
  • ‘li[position() mod 2 = 1]’ 所有基数位的 li 元素
  • ‘//tr[len(td)>1]’ 获取有 1 个以上 td 元素的所有 tr 元素
  • ‘li[a or h2]’ li 元素下有 a 元素或者 h2 元素的 li 元素
  • ‘a[text()=”下一页”]’ text 为下一页的 a 元素

函数

有关字符串的函数

  • ‘string(.)’ 获取当前元素下面所有的内容
  • ‘string(//a)’ 获取 a 元素的所有文本(只能获取第一个元素的所有文本)
  • ‘//tr[contains(@class,”tr”)]’ 选择所有类名包含 tr 的 tr 元素
  • ‘//div[@id=”pagination”]/span[contains(text(),”共”)]’ 获取包含 ‘共’ 的 span 元素(用 starts-with 更好).我用来获取总页数(共 666 页)
  • ‘//span[starts-with(@class,”title”)]’ css 类名以 title 开头的 span 元素
  • ‘//p[starts-with(a,”亲”)]’ 包含以 ‘亲’ 开头的 a 元素的所有 p 元素
  • ‘//span[ends-with(@class,”title”)]’ css 类名以 title 结尾的 span 元素
  • ‘substring(//span[@class=”bugs-time”]/text(),6)’
  • ‘normalize-space(//td[starts-with(text(),”手”)]/following-sibling::td[1])’
  • ‘//div[normalize-space(string(.))=”工作经历”]’

关于布尔值的函数

  • ‘//ul[not(@class)]’ 选择所有没有类属性的 ul 元素

合计函数

  • ‘count(//a)’ 计算 a 元素的数量.可以用来统计一页有多少条数据
  • ‘//tr[count(td)=4]’ 只有只有 4ge 个 td 元素的 tr 元素

上下文函数

  • ‘//tr[position() > 1]’ 获取除了第一个 tr 元素之外的所有 tr 元素.有时第一个 tr 元素是抬头标签,不是数据
  • ‘//a[last()]’ 最后一个 a 元素.可以用来获取分页里面的最后一页,或者下一页