爬虫规则启用爬虫群后每次接近有1/2的数据是空白的(有网址没有内容),但是相同规则使用集搜有很正常,请问是哪里出了什么问题,求教?谢谢
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2017-5-14 00:28

沙发
shenzhenwan10 金牌会员 发表于 2017-5-10 09:07:49 | 只看该作者
主题名是什么, 我们测试一下
举报 使用道具
板凳
Fuller 管理员 发表于 2017-5-10 09:09:39 | 只看该作者
给规则设置调度参数的时候,要记得打开滚屏功能,爬虫群的调度不用DS打数机菜单上的设置,而且全部来自调度参数,漏数据的关键原因:
1,那个数据没有设置关键内容,所以不会等待它
2,设置调度参数中的调度次数,要>0,滚屏有利于放慢采集速度,减少遗漏
举报 使用道具
地板
hhyyq6 初级会员 发表于 2017-5-10 20:50:33 | 只看该作者
shenzhenwan10 发表于 2017-5-10 09:07
主题名是什么, 我们测试一下

规则是“新欧指无竞彩““新欧指”我怀疑是不是我在转为Excel的时候导入的压缩包不对。因为爬虫群会生成很多个压缩包,我都是只导入第一个压缩包。转化出来的数据就很多内容是空白的.前后有网址等,就是没有需要的内容。
举报 使用道具
5#
hhyyq6 初级会员 发表于 2017-5-10 20:50:48 | 只看该作者
Fuller 发表于 2017-5-10 09:09
给规则设置调度参数的时候,要记得打开滚屏功能,爬虫群的调度不用DS打数机菜单上的设置,而且全部来自调度 ...

我怀疑是不是我在转为Excel的时候导入的压缩包不对。因为爬虫群会生成很多个压缩包,我都是只导入第一个压缩包。转化出来的数据就很多内容是空白的.前后有网址等,就是没有需要的内容。
举报 使用道具
6#
Fuller 管理员 发表于 2017-5-10 21:04:06 | 只看该作者
hhyyq6 发表于 2017-5-10 20:50
规则是“新欧指无竞彩““新欧指”我怀疑是不是我在转为Excel的时候导入的压缩包不对。因为爬虫群会生成 ...

第一个规则没有勾选关键内容,抓取过程中肯定会有很多漏掉的,至少给一个抓取内容勾上关键内容
举报 使用道具
7#
Fuller 管理员 发表于 2017-5-10 21:05:37 | 只看该作者
第二个规则也是同样的原因,没有勾关键内容
举报 使用道具
8#
hhyyq6 初级会员 发表于 2017-5-10 21:07:57 | 只看该作者
Fuller 发表于 2017-5-10 21:05
第二个规则也是同样的原因,没有勾关键内容

谢谢...我试试
导入压缩包用第一个可以的吧?

举报 使用道具
9#
hhyyq6 初级会员 发表于 2017-5-10 21:08:46 | 只看该作者
Fuller 发表于 2017-5-10 21:05
第二个规则也是同样的原因,没有勾关键内容

好的...我试试!转换数据只导入第一个压缩包可以的吧?
举报 使用道具
10#
Fuller 管理员 发表于 2017-5-10 21:17:11 | 只看该作者
hhyyq6 发表于 2017-5-10 21:07
谢谢...我试试
导入压缩包用第一个可以的吧?

两个规则互不相关吧?那么就要各自导入各自的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 11:57