7 14712

更新评论表的抓取问题

DuoRuaiMi 于 2018-12-10 16:30 发表 [复制链接]
抓取网页:https://www.indiegogo.com/projec ... 900174#/updates/all
1.PNG
开始页面显示在story,想抓取updates的内容用什么方法,连续动作吗?
2.PNG
这是点击updates之后的项目更新情况,如何点击see more updates将项目更新加载完成再抓取当前页面信息?

3

3

想通过样例复制抓取页面上项目更新者以及更新时间,xpath路径如何写,我写的定位到的总是6个节点?

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-12-12 18:21

wangyong 版主 发表于 2018-12-10 17:47:35 | 显示全部楼层
本帖最后由 wangyong 于 2018-12-10 17:49 编辑

可以先用连续动作点击动作来点击“See More Updates”
只定位到一个节点的xpath是
  1. //*[@class='campaignBody-horizontal']//*[@class='desktopUpdates']//*[@class='activityUpdate-seeMore ng-scope']/a[contains(text(),'More')]
复制代码


举报 使用道具
DuoRuaiMi 高级会员 发表于 2018-12-11 09:35:29 | 显示全部楼层
wangyong 发表于 2018-12-10 17:47
可以先用连续动作的点击动作来点击“See More Updates”
只定位到一个节点的xpath是

这个定位的是see more updates的,我想定位的是第三张图上面标注1,2的两点
举报 使用道具
Fuller 管理员 发表于 2018-12-11 19:02:28 | 显示全部楼层
DuoRuaiMi 发表于 2018-12-11 09:35
这个定位的是see more updates的,我想定位的是第三张图上面标注1,2的两点

还没有抓到?你的主题名是什么?我帮你加载分析一下
举报 使用道具
DuoRuaiMi 高级会员 发表于 2018-12-11 21:57:03 | 显示全部楼层
第一级:项目更新表
第二级:项目详情
谢谢
举报 使用道具
Fuller 管理员 发表于 2018-12-12 13:34:56 | 显示全部楼层
DuoRuaiMi 发表于 2018-12-11 21:57
第一级:项目更新表
第二级:项目详情
谢谢

其实根本不需要第一级,因为点击update以后得到的网址具有独立的网址,在参数中含有update,给所有要采集的商品网址都加上这个参数就行了
  1. https://www.indiegogo.com/projects/aura-speeds-simplifies-all-your-scanning-needs#/updates/all
复制代码
请看上面的网址。

你做了两级,但是第一级运行完没有执行第二级,是因为在第一级的连续动作工作台上,目标主题名写的不对,没有与第二级对上

SEE MORE UPDATES这个点击应该放在第二级做,就像做翻页一样,翻页是“下一页”作为标志,而这里是“SEE MORE UPDATES”作为翻页标志

举报 使用道具
DuoRuaiMi 高级会员 发表于 2018-12-12 18:12:15 | 显示全部楼层
那样的话是不是每点击一次SEE MORE UPDATES都会采集一遍网页呢,还有我定位的更新者的采集好像也不对
举报 使用道具
Fuller 管理员 发表于 2018-12-12 18:21:31 | 显示全部楼层
DuoRuaiMi 发表于 2018-12-12 18:12
那样的话是不是每点击一次SEE MORE UPDATES都会采集一遍网页呢,还有我定位的更新者的采集好像也不对 ...

每点击一次就会采集一次。“更新者”就是发帖人吗?我认为不用写自定义xpath就能采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 23:56