11#
Fuller 管理员 发表于 2020-4-23 15:08:30 | 只看该作者
优亚信息 发表于 2020-4-23 11:09
设置了输入点击动作后,一直爬的是第一页

加载了你的规则 广州-科创产业 ,是加载不成功的,你用哪一级规则做连续动作?
举报 使用道具
12#
优亚信息 高级会员 发表于 2020-4-23 18:23:46 | 只看该作者
Fuller 发表于 2020-4-23 15:08
加载了你的规则 广州-科创产业 ,是加载不成功的,你用哪一级规则做连续动作?
...

之前设置的删掉了,现在是这个主题:广州-科创产业翻页,做得连续动作
举报 使用道具
13#
wangyong 版主 发表于 2020-4-24 11:30:48 | 只看该作者
优亚信息 发表于 2020-4-23 18:23
之前设置的删掉了,现在是这个主题:广州-科创产业翻页,做得连续动作
...

你是不是用用了GSBrowser来做规则,这个网站就直接用集搜客爬虫来做行了
你用这个网址做样本页面重新修改一下规则:http://www.gz.gov.cn/gfxwj/
举报 使用道具
14#
优亚信息 高级会员 发表于 2020-4-24 11:33:31 | 只看该作者
wangyong 发表于 2020-4-24 11:30
你是不是用用了GSBrowser来做规则,这个网站就直接用集搜客爬虫来做行了
你用这个网址做样本页面重新修改 ...

这个网址页面在爬虫那里加载不出来,所以只能在GSBrowser那里加载之后在设置规则。
举报 使用道具
15#
wangyong 版主 发表于 2020-4-24 12:07:33 | 只看该作者
优亚信息 发表于 2020-4-24 11:33
这个网址页面在爬虫那里加载不出来,所以只能在GSBrowser那里加载之后在设置规则。
...

确实翻不了页,需要我们后台检查一下
举报 使用道具
16#
Fuller 管理员 发表于 2020-4-24 18:14:07 | 只看该作者
优亚信息 发表于 2020-4-24 11:33
这个网址页面在爬虫那里加载不出来,所以只能在GSBrowser那里加载之后在设置规则。
...

集搜客采摘浏览器的爬虫功能还比较有限,我们还在开发。针对这个规则,遇到了两个问题:
1,目前采摘浏览器不支持输入操作,所以翻页不能用输入页码的方式,只能在爬虫路线工作台上定义翻页规则
2,我测试了翻页规则,遇到了一个bug,开发人员正在修复
举报 使用道具
17#
Fuller 管理员 发表于 2020-4-25 09:12:33 | 只看该作者
这个网页很特殊,里面有特殊的脚本程序,把浏览器环境参数修改了,这也可能导致老版爬虫软件显示不全网页的原因,在集搜客采摘浏览器里面虽然能显示全,但是修改的参数影响了爬虫程序,这个问题已经解决了,再测试几遍就可以发布出来了
举报 使用道具
18#
优亚信息 高级会员 发表于 2020-4-27 14:38:02 | 只看该作者
Fuller 发表于 2020-4-25 09:12
这个网页很特殊,里面有特殊的脚本程序,把浏览器环境参数修改了,这也可能导致老版爬虫软件显示不全网页的 ...

好的,谢谢

举报 使用道具
19#
优亚信息 高级会员 发表于 2020-4-27 14:38:46 | 只看该作者

那我可以直接按照之前的步骤做吗?还是要重新制定规则
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 21:57