老师,您好,我编制了一个三级的层进采集规则,前两层好像没问题,但第三层进去运行了一会儿就显示超时和错误。我该怎么解决呢?任务名称如下。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2020-2-27 18:42

沙发
maomao 论坛元老 发表于 2020-2-27 16:13:32 | 只看该作者
出错的时候,打数机窗口是怎样的,网页正常加载出来了吗,有没有出验证码之类的?
举报 使用道具
板凳
dolphin_1983 初级会员 发表于 2020-2-27 17:17:05 | 只看该作者
maomao 发表于 2020-2-27 16:13
出错的时候,打数机窗口是怎样的,网页正常加载出来了吗,有没有出验证码之类的? ...



显示是这个样子的。正常来讲是应该抓取的各个地块的交易详情里的,但不知道为什么,抓取页面显示的还是列表的页面。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
dolphin_1983 初级会员 发表于 2020-2-27 17:24:08 | 只看该作者
dolphin_1983 发表于 2020-2-27 17:17
显示是这个样子的。正常来讲是应该抓取的各个地块的交易详情里的,但不知道为什么,抓取页面显示的还是 ...

老师,是否可以帮我加载一下规则试试,看看问题到底出在哪里。
举报 使用道具
5#
月球漫步 中级会员 发表于 2020-2-27 17:53:32 | 只看该作者
dolphin_1983 发表于 2020-2-27 17:24
老师,是否可以帮我加载一下规则试试,看看问题到底出在哪里。

1、层级采集,每个层级的网址链接很重要,这个不能弄错,
注意:第一层级采集到的网址,点击‘下级线索’的弹出框中一定要填第二级的任务名
          第二层级采集到的网址,点击‘下级线索’的弹出框中一定要填第三级的任务名
详细参看这个教程:http://gooseeker.com/doc/article-343-1.html

2、要确保第一级和第二级规则没有出错,检查的的方法是:导出一、二级规则的数据出来查看,需要采集到的字段都采集到没有,采集的下级线索有没有采集正确。

举报 使用道具
6#
Fuller 管理员 发表于 2020-2-27 18:31:03 | 只看该作者
dolphin_1983 发表于 2020-2-27 17:24
老师,是否可以帮我加载一下规则试试,看看问题到底出在哪里。

在你发出来的截图上,能够看到失败线索编号,记住这个编号,打开MS谋数台(一定要MS谋数台,在集搜客浏览器上不行),加载分析失败线索,参考这个文章《加载分析失败线索》。我没有加载你的线索的权限
举报 使用道具
7#
Fuller 管理员 发表于 2020-2-27 18:38:30 | 只看该作者


这样挑着采集数据,成功的可能性很小,每个网页上这些字段的顺序都会不一样。有时候即使采集到了,也可能是错位的。

要想可靠运行,还是要像我上个帖子说的,做样例复制,把每一项都采集下来。导成excel后,把不要的过滤掉

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
8#
dolphin_1983 初级会员 发表于 2020-2-27 18:42:41 | 只看该作者
好的,谢谢老师,我从新编辑一下试试。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-4 04:27