8 14075

求助

weibeiqinchen 于 2016-6-10 10:01 发表 [复制链接]
http://www.loess.csdb.cn/hyd/user/main.jsp 想抓这里面的数据,有不同站点和不同页数,尝试了爬虫路线和连续动作都不成功,请高手指点,非常感谢
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-6-14 11:14

Fuller 管理员 发表于 2016-6-10 10:26:26 | 显示全部楼层
需要使用相对线索,如图:
相对线索.png

1,先做线索映射,把代表翻页区(黄色背景)的TD做线索映射,相当于划定一个区域

2,在做相对线索映射,分别把代表当前页码和下一页码的节点做映射。也是在DOM上点鼠标右键 线索映射-〉相对映射



举报 使用道具
weibeiqinchen 新手上路 发表于 2016-6-13 10:40:57 | 显示全部楼层
本帖最后由 weibeiqinchen 于 2016-6-13 10:59 编辑
Fuller 发表于 2016-6-10 10:26
需要使用相对线索,如图:

1,先做线索映射,把代表翻页区(黄色背景)的TD做线索映射,相当于划定一个区 ...

非常感谢
页码已经可以自动翻了,但当我加入连续动作(所有站点用selection Xpath作为步骤一,查询处的Input Xpath作为步骤二)尝试将所有站点导出时,却只能导出第一个站的第一页,能麻烦您帮我看下问题出在哪里吗?

再次表示感谢!
举报 使用道具
Fuller 管理员 发表于 2016-6-13 11:26:15 | 显示全部楼层
weibeiqinchen 发表于 2016-6-13 10:40
非常感谢
页码已经可以自动翻了,但当我加入连续动作(所有站点用selection Xpath作为步骤一,查询处的I ...

主题名是什么?
举报 使用道具
weibeiqinchen 新手上路 发表于 2016-6-13 12:30:56 | 显示全部楼层
Fuller 发表于 2016-6-13 11:26
主题名是什么?

Sediment
举报 使用道具
ym 版主 发表于 2016-6-13 14:11:05 | 显示全部楼层

不要把连续动作和翻页同时设置在一个规则里,要拆成先后顺序的两级规则。参考采集流程说明http://www.gooseeker.com/doc/article-261-1.html
举报 使用道具
Fuller 管理员 发表于 2016-6-13 14:54:37 | 显示全部楼层
如果是先输入选择条件,提交后得到结果,再翻页抓取结果,然后又选择另一个条件提交,又一次翻页抓取结果,那么,这是动作后翻页,就要给动作后另定义一个主题名,在这个主题名下定义翻页抓取规则。

如果你现在的主题里面既有翻页,也有连续动作,就完成不了上面的顺序。
所以,你要这样定义规则
1,规则A:定义连续动作,目标主题是规则B
2,规则B:抓取数据,并且做翻页
举报 使用道具
weibeiqinchen 新手上路 发表于 2016-6-14 06:59:17 | 显示全部楼层
ym 发表于 2016-6-13 14:11
不要把连续动作和翻页同时设置在一个规则里,要拆成先后顺序的两级规则。参考采集流程说明http://www.goos ...

设置成两条规则来提取,Pageroll 调用规则 Sediment,但有部分站点的页数不是3,有的是2,有的是4,当进行到这些站点时就循环不停提取这些页面,无法进行下去,请教您这种情况应该怎么办?非常感谢!
举报 使用道具
Fuller 管理员 发表于 2016-6-14 11:14:50 | 显示全部楼层
weibeiqinchen 发表于 2016-6-14 06:59
设置成两条规则来提取,Pageroll 调用规则 Sediment,但有部分站点的页数不是3,有的是2,有的是4,当进 ...

我查看了一下您的规则,在DS打数机的菜单:高级-》终点标志-》重复内容,勾上 重复内容,这种情况就能中断。

如果运行爬虫群模式,需要在会员中心做设置。

如果这种设置不起作用,请反馈给我
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:16