11#
877994752 中级会员 发表于 2016-8-25 16:27:19 | 只看该作者
Fuller 发表于 2016-8-25 14:46
是的,我都测试过了

线索规则需要改吗?怎么改?是不是手动输入就改了?

28BYXA}FXMZ3C16)$9SFL}C.png (54.49 KB, 下载次数: 926)

这个网址怎么改?

这个网址怎么改?
举报 使用道具
12#
Fuller 管理员 发表于 2016-8-25 17:03:19 | 只看该作者
877994752 发表于 2016-8-25 16:27
线索规则需要改吗?怎么改?是不是手动输入就改了?

不要改这里,在这里改的虽然有效,但是下次修改规则就失效了。

改工作台上那里就永远有效
举报 使用道具
13#
877994752 中级会员 发表于 2016-8-25 17:33:00 | 只看该作者
Fuller 发表于 2016-8-25 17:03
不要改这里,在这里改的虽然有效,但是下次修改规则就失效了。

改工作台上那里就永远有效 ...

我改了 采集到400个.xml文件的时候就卡死了。就采集不动了,怎么办?还有其他方法可以采集这种网址吗? 滚屏加点击?我刚刚试了一下,不知道哪里错了,不行。
举报 使用道具
14#
Fuller 管理员 发表于 2016-8-25 19:15:43 | 只看该作者
877994752 发表于 2016-8-25 17:33
我改了 采集到400个.xml文件的时候就卡死了。就采集不动了,怎么办?还有其他方法可以采集这种网址吗?  ...

可能网速慢的原因,你盯着DS打数机的浏览器观察一下,到400个结果的时候,浏览器显示什么?
举报 使用道具
15#
877994752 中级会员 发表于 2016-8-26 08:55:30 | 只看该作者
Fuller 发表于 2016-8-25 19:15
可能网速慢的原因,你盯着DS打数机的浏览器观察一下,到400个结果的时候,浏览器显示什么? ...

浏览器 显示是全白了!就没有采集了。
举报 使用道具
16#
Fuller 管理员 发表于 2016-8-26 09:08:36 | 只看该作者
877994752 发表于 2016-8-26 08:55
浏览器 显示是全白了!就没有采集了。

翻页抓取会经常遇到这种情况,网速慢的话,很久都不会出现“下一页”按钮,因为通常“下一页”按钮在最下面,这样的话,程序以为没有下一页了,就正常结束了
举报 使用道具
17#
Fuller 管理员 发表于 2016-8-26 09:09:46 | 只看该作者
也可能网站就是这样设计的,因为普通一个人不会连续翻400页。就像淘宝,只有100个翻页。如果是这种情况,你可以选择不同的商品类别,每个小类别包含的商品数量较少
举报 使用道具
18#
877994752 中级会员 发表于 2016-8-26 14:29:25 | 只看该作者
Fuller 发表于 2016-8-26 09:09
也可能网站就是这样设计的,因为普通一个人不会连续翻400页。就像淘宝,只有100个翻页。如果是这种情况,你 ...

但是我们要按国家采集数据。想这种情况就采集不了全部数据了是吧?还有其方法吗?
举报 使用道具
19#
Fuller 管理员 发表于 2016-8-26 15:02:08 | 只看该作者
877994752 发表于 2016-8-26 14:29
但是我们要按国家采集数据。想这种情况就采集不了全部数据了是吧?还有其方法吗? ...

如果像淘宝一样设定了限制,那就没办法了
举报 使用道具
20#
877994752 中级会员 发表于 2016-8-26 15:06:48 | 只看该作者
Fuller 发表于 2016-8-26 15:02
如果像淘宝一样设定了限制,那就没办法了

我怀疑就是滚屏 滚不到底。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-12 19:24