网页结构不一致
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-5-8 15:41

沙发
shengchengx 金牌会员 发表于 2017-5-8 15:25:36 | 只看该作者
用一个最全的微博做样本页面
举报 使用道具
板凳
黄黄黄辉 初级会员 发表于 2017-5-8 15:25:48 | 只看该作者
shengchengx 发表于 2017-5-8 15:25
用一个最全的微博做样本页面

这个比较难吧。单个还可以,但是你还要翻页。。
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-5-8 15:31:49 | 只看该作者
黄黄黄辉 发表于 2017-5-8 15:25
这个比较难吧。单个还可以,但是你还要翻页。。

你要针对一个列表做规则?
那样可以用自定义xpath,这些没有的内容可以手工写xpath
在整理箱中,把所有抓取内容都创建出来,那些没有的内容,无法直接做内容映射或者直观标注,先把网页上有的一个内容映射给他们,然后给他们写自定义xpath
自定义xpath的定位表达式和内容表达式分开,定位表达式是定义规则的时候用的,内容表达式是DS打数机运行的时候用的




举报 使用道具
5#
Fuller 管理员 发表于 2017-5-8 15:41:03 | 只看该作者
这里是自定义xpath的教程:《怎样自定义xpath

在这个教程基础上,要使用“专用定位”方式。也就是内容表达式和定位表达式不一样
1,抓取内容表达式:这个表达式是DS打数机用来抓内容的,这里可以根据抓取需要编写,即使当前样例没有这个抓取内容,也可以构造一个xpath表达式
2,定位标志表达式:这个xpath表达式是定义规则时用来定位节点的,所以,要指向一个总是存在的节点。如果当前样例没有要抓取的内容,那么这个表达式指向一个别的节点,只要存在就行
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 08:39