如题,这里是有2000多个线索,但是他不能连续去抓啊。。一个页面呆到超时。怎么办呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
| 回复

共 15 个关于本帖的回复 最后回复于 2017-3-29 14:53

沙发
Fuller 管理员 发表于 2017-3-26 14:32:29 | 只看该作者
点击“单搜”按钮,要求你输入线索数,你输入一个比较大的数字,比如3000,就会连续抓3000个网页。

失败率太高了,说明你做的规则的适应性太差,这样速度会很慢,一遇到不适合的网页,直到等到超时
举报
板凳
lbl631965186 新手上路 发表于 2017-3-28 01:42:14 | 只看该作者
能帮我看一下主题吗?主题名叫 "final003标签层级抓取" 。
时间长有两个原因,第一是因为知乎的答案列表页面本来就很长翻到最下需要时间,第二它翻到最下面就停住了。。很久之后才跳到下一个页面/
举报
地板
lbl631965186 新手上路 发表于 2017-3-28 01:45:20 | 只看该作者
或者请告诉我知乎怎么去抓取问题的标签吧。。。
举报
5#
Fuller 管理员 发表于 2017-3-28 09:19:44 | 只看该作者
标签是指什么?是最上面那几个吗?最好截个图看看,你的规则加载不成功。

如果只是最上面的那几个词,不要让DS打数机滚屏,菜单 配置-》滚屏参数,把滚屏次数设置成0,那么就不需要很长时间了,否则遇到很长很长的问答,有可能把内存都耗光了,程序就闪退了
举报
6#
lbl631965186 新手上路 发表于 2017-3-28 09:40:54 | 只看该作者
Fuller 发表于 2017-3-28 09:19
标签是指什么?是最上面那几个吗?最好截个图看看,你的规则加载不成功。

如果只是最上面的那几个词,不要 ...

对是最上面的那几个
但是翻页参数设置为0它根本就不会自动切换到下一线索啊?怎么办呢?
举报
7#
lbl631965186 新手上路 发表于 2017-3-28 09:43:01 | 只看该作者
lbl631965186 发表于 2017-3-28 09:40
对是最上面的那几个
但是翻页参数设置为0它根本就不会自动切换到下一线索啊?怎么办呢?
...

那我新写规则吧 但是之前捕捉到的线索怎么转移到新编写的规则呢?

或者只是修改这个第二层规则,但是线索会保留吗?以及网页结构变化会不会带来很多麻烦。。。。谢谢你啦

举报
8#
HJLing 版主 发表于 2017-3-28 09:44:28 | 只看该作者
lbl631965186 发表于 2017-3-28 09:43
那我新写规则吧 但是之前捕捉到的线索怎么转移到新编写的规则呢?

或者只是修改这个第二层规则,但是线 ...

加载这个规则后直接修改就好了 不修改主题名 线索还会在的

举报
9#
Fuller 管理员 发表于 2017-3-28 09:54:41 | 只看该作者
lbl631965186 发表于 2017-3-28 09:40
对是最上面的那几个
但是翻页参数设置为0它根本就不会自动切换到下一线索啊?怎么办呢?
...

你的不能切换线索是指什么?主题“final003标签层级抓取”是第二级吧?运行的时候,输入线索数,比如,100,DS打数机没有把100个线索都一口气执行完?
举报
10#
lbl631965186 新手上路 发表于 2017-3-28 14:38:37 | 只看该作者
Fuller 发表于 2017-3-28 09:54
你的不能切换线索是指什么?主题“final003标签层级抓取”是第二级吧?运行的时候,输入线索数,比如,10 ...

对,它就呆在一个页面不换
举报
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反
  • 0%

热门用户

GMT+8, 2025-5-22 02:17