如题,这里是有2000多个线索,但是他不能连续去抓啊。。一个页面呆到超时。怎么办呢?

123123123123.png (83.33 KB, 下载次数: 916)

123123123123.png
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2017-3-29 14:53

沙发
Fuller 管理员 发表于 2017-3-26 14:32:29 | 只看该作者
点击“单搜”按钮,要求你输入线索数,你输入一个比较大的数字,比如3000,就会连续抓3000个网页。

失败率太高了,说明你做的规则的适应性太差,这样速度会很慢,一遇到不适合的网页,直到等到超时
举报 使用道具
板凳
lbl631965186 新手上路 发表于 2017-3-28 01:42:14 | 只看该作者
能帮我看一下主题吗?主题名叫 "final003标签层级抓取" 。
时间长有两个原因,第一是因为知乎的答案列表页面本来就很长翻到最下需要时间,第二它翻到最下面就停住了。。很久之后才跳到下一个页面/
举报 使用道具
地板
lbl631965186 新手上路 发表于 2017-3-28 01:45:20 | 只看该作者
或者请告诉我知乎怎么去抓取问题的标签吧。。。
举报 使用道具
5#
Fuller 管理员 发表于 2017-3-28 09:19:44 | 只看该作者
标签是指什么?是最上面那几个吗?最好截个图看看,你的规则加载不成功。

如果只是最上面的那几个词,不要让DS打数机滚屏,菜单 配置-》滚屏参数,把滚屏次数设置成0,那么就不需要很长时间了,否则遇到很长很长的问答,有可能把内存都耗光了,程序就闪退了
举报 使用道具
6#
lbl631965186 新手上路 发表于 2017-3-28 09:40:54 | 只看该作者
Fuller 发表于 2017-3-28 09:19
标签是指什么?是最上面那几个吗?最好截个图看看,你的规则加载不成功。

如果只是最上面的那几个词,不要 ...

对是最上面的那几个
但是翻页参数设置为0它根本就不会自动切换到下一线索啊?怎么办呢?
举报 使用道具
7#
lbl631965186 新手上路 发表于 2017-3-28 09:43:01 | 只看该作者
lbl631965186 发表于 2017-3-28 09:40
对是最上面的那几个
但是翻页参数设置为0它根本就不会自动切换到下一线索啊?怎么办呢?
...

那我新写规则吧 但是之前捕捉到的线索怎么转移到新编写的规则呢?

或者只是修改这个第二层规则,但是线索会保留吗?以及网页结构变化会不会带来很多麻烦。。。。谢谢你啦

举报 使用道具
8#
HJLing 版主 发表于 2017-3-28 09:44:28 | 只看该作者
lbl631965186 发表于 2017-3-28 09:43
那我新写规则吧 但是之前捕捉到的线索怎么转移到新编写的规则呢?

或者只是修改这个第二层规则,但是线 ...

加载这个规则后直接修改就好了 不修改主题名 线索还会在的

举报 使用道具
9#
Fuller 管理员 发表于 2017-3-28 09:54:41 | 只看该作者
lbl631965186 发表于 2017-3-28 09:40
对是最上面的那几个
但是翻页参数设置为0它根本就不会自动切换到下一线索啊?怎么办呢?
...

你的不能切换线索是指什么?主题“final003标签层级抓取”是第二级吧?运行的时候,输入线索数,比如,100,DS打数机没有把100个线索都一口气执行完?
举报 使用道具
10#
lbl631965186 新手上路 发表于 2017-3-28 14:38:37 | 只看该作者
Fuller 发表于 2017-3-28 09:54
你的不能切换线索是指什么?主题“final003标签层级抓取”是第二级吧?运行的时候,输入线索数,比如,10 ...

对,它就呆在一个页面不换
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 00:17