规则名:抓取用户_3
就是抓取不到 主贴发布的日期和时间:post_day post_time 都是空的
麻烦帮看,谢谢!

举报
| 回复

共 10 个关于本帖的回复 最后回复于 2017-6-13 11:04

沙发
wangyong 版主 发表于 2017-6-12 17:49:11 | 只看该作者
这里需要自定义xpath解决post day xpath:
  1. .//td[2]
复制代码
post time xpath:
  1. .//td[3]
复制代码


学习xpath参看《自定义xpath》
举报
板凳
Fuller 管理员 发表于 2017-6-12 22:17:46 | 只看该作者


回复数和发帖时间两个td具有相同的class,会因为相同的定位标志引起混淆。如果还手工选择这种引起混淆的class做定位标志映射,就更进一步锁定这个错误了。要避开这个定位标志,可以参看《避免不合适的定位标志对抓取规则的影响》。

我选择了只用id,也可以选择绝对定位。这样的规则的适应性会降低。

为了提高适应性,可以做一个嵌套的整理箱(你这个整理箱已经是嵌套的了,里面还有一层容器节点),在最外边再建立一层容器节点,那么把顶层容器上做的样例复制映射放在第二层容器节点的,那么可以给顶层做一个定位标志映射,把TABLE[@class='topicList']这个定位标志映射给顶层容器,用定位标志划定一个采集范围,这样即使设置成绝对定位,也是在这个范围内进行绝对定位,适应性会大大提高。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
地板
Alexisheee 初级会员 发表于 2017-6-13 09:07:07 | 只看该作者
Fuller 发表于 2017-6-12 22:17
回复数和发帖时间两个td具有相同的class,会因为相同的定位标志引起混淆。如果还手工选择这种引起混淆的c ...

不好意思,没有太明白你的意思。我已经又建了一层整理箱,怎么把你给的这个定位映射过去呢?

举报
5#
Alexisheee 初级会员 发表于 2017-6-13 09:10:09 | 只看该作者
Fuller 发表于 2017-6-12 22:17
回复数和发帖时间两个td具有相同的class,会因为相同的定位标志引起混淆。如果还手工选择这种引起混淆的c ...

而且貌似找不到这个定位?
举报
6#
wangyong 版主 发表于 2017-6-13 10:11:07 | 只看该作者
Alexisheee 发表于 2017-6-13 09:10
而且貌似找不到这个定位?

昨天粉丝和关注数用自定义xpath的方式抓取成功了?
举报
7#
Alexisheee 初级会员 发表于 2017-6-13 10:40:28 | 只看该作者
wangyong 发表于 2017-6-13 10:11
昨天粉丝和关注数用自定义xpath的方式抓取成功了?

是的!可是是你给我的xpath,我自己不知道怎么弄?是用他自己生成的xpath貌似会有问题?
举报
8#
Alexisheee 初级会员 发表于 2017-6-13 10:44:18 | 只看该作者
wangyong 发表于 2017-6-12 17:49
这里需要自定义xpath解决post day xpath:
post time xpath:

啊不对,我以为你说我昨天的另一个帖子,你的第一条回复我没看到。。。试了一下,有一点小问题,td[2]会定位到 回复/点击,但是td[3]一下子日期时间全出来了,谢谢!

举报
9#
wangyong 版主 发表于 2017-6-13 10:45:13 | 只看该作者
自动生成的有时候需要调整,楼上发的两段新的xpath可以解决抓不到day和time的问题


参看《自定义xpath》的教程自己学习也可以找到正确的xpath,先用自动生成为基础,再修改,点击搜索,测试xpath是否符合
举报
10#
wangyong 版主 发表于 2017-6-13 10:52:45 | 只看该作者
Alexisheee 发表于 2017-6-13 10:44
啊不对,我以为你说我昨天的另一个帖子,你的第一条回复我没看到。。。试了一下,有一点小问题,td[2]会 ...


day
  1. .//td[3]/text()[1]
复制代码
time
  1. .//td[3]/text()[2]
复制代码
day和time都在第三个td里,td里有两个text,第一个text就是day,第二个text是time

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-30 11:18