用定位标志法做的规则,已经反复调试过了,还是出错。

MS谋数台测试时正常,DS打数机抓取的时候,界面上显示匹配失败,然后就超时了,没有文件产生,是怎么回事?

规则名称:新浪微博_文章   样本页面:http://blog.sina.com.cn/pinganxinde


求管理员指点,谢谢。
举报 使用道具
| 回复

共 14 个关于本帖的回复 最后回复于 2017-9-26 16:30

沙发
yangwenge 金牌会员 发表于 2017-9-26 15:17:10 | 只看该作者

规则上做了记号线索翻页,而样本页面没有下一页,导致定位不到下一页,所有匹配失败。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
Automobile86 中级会员 发表于 2017-9-26 15:23:45 | 只看该作者
yangwenge 发表于 2017-9-26 15:17
规则上做了记号线索翻页,而样本页面没有下一页,导致定位不到下一页,所有匹配失败。
...

你好。
我这边的样本页面显示有下一页呢。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
wangyong 版主 发表于 2017-9-26 15:27:02 | 只看该作者

只抓标题的话就按照图上的整理箱结构做内容映射和定位标志映射就可以了。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
5#
Automobile86 中级会员 发表于 2017-9-26 15:27:48 | 只看该作者
yangwenge 发表于 2017-9-26 15:17
规则上做了记号线索翻页,而样本页面没有下一页,导致定位不到下一页,所有匹配失败。
...

网页底下的 翻页栏加载速度比较慢。
需要稍微等下1-2秒才会出现。
举报 使用道具
6#
Automobile86 中级会员 发表于 2017-9-26 15:31:17 | 只看该作者
wangyong 发表于 2017-9-26 15:27
只抓标题的话就按照图上的整理箱结构做内容映射和定位标志映射就可以了。
...

你好。
我想抓取的是网页片段,包含整个页面中的10个标题和其对应的链接地址。
举报 使用道具
7#
umsung 高级会员 发表于 2017-9-26 15:32:17 | 只看该作者
本帖最后由 umsung 于 2017-9-26 15:36 编辑
Automobile86 发表于 2017-9-26 15:27
网页底下的 翻页栏加载速度比较慢。
需要稍微等下1-2秒才会出现。

加载你的规则运行没有任何问题,只是页码一直加载不出来所以下一页的数据抓不到。可以把滚屏速度调慢一点,延迟抓取数值调大一点,在打数机的配置中设置。
举报 使用道具
8#
Automobile86 中级会员 发表于 2017-9-26 15:38:21 | 只看该作者
umsung 发表于 2017-9-26 15:32
加载你的规则运行没有任何问题,只是页码一直加载不出来所以下一页的数据抓不到。
...

我把打数机的参数调整了下。目前打数机工作时候的页面显示:底下的页面版块都是能够加载出来的。
但还是抓不到数据,尴尬了。。
举报 使用道具
9#
umsung 高级会员 发表于 2017-9-26 15:42:17 | 只看该作者
第一页数据都没抓到吗?还是在翻页的时候失败了?我这边运行你的规则没问题。
举报 使用道具
10#
Automobile86 中级会员 发表于 2017-9-26 15:47:51 | 只看该作者
umsung 发表于 2017-9-26 15:42
第一页数据都没抓到吗?还是在翻页的时候失败了?我这边运行你的规则没问题。 ...

你好,第一页的数据能够抓到的。
目前的遇到的问题的翻不过第二页,每次到了第二页的底部后,打数机就报错:规则不合适亦或是超时时间设置过短(我已经设置到60秒了)
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-10 16:16