11#
hhyyq6 初级会员 发表于 2017-5-10 21:50:29 | 只看该作者
Fuller 发表于 2017-5-10 21:05
第二个规则也是同样的原因,没有勾关键内容

请问这里怎么设置什么参数好呢?不知道各个参数有什么作用?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
12#
hhyyq6 初级会员 发表于 2017-5-10 21:52:06 | 只看该作者
Fuller 发表于 2017-5-10 21:17
两个规则互不相关吧?那么就要各自导入各自的

不相干的规则!每个规则采集完都是导入第一个压缩包就可以了吗?其它压缩包不用导入?

举报 使用道具
13#
shenzhenwan10 金牌会员 发表于 2017-5-11 09:55:27 | 只看该作者
如果是使用爬虫群进行抓取, 并且勾选了"结果入库", 在抓取过程中每抓取一定数量的线索后, 就会把结果文件夹中的结果文件打一个包入到数据仓库
所以不同的自动打包的压缩包里的文件是不同的
举报 使用道具
14#
xandy 论坛元老 发表于 2017-5-11 10:01:20 | 只看该作者
hhyyq6 发表于 2017-5-10 21:50
请问这里怎么设置什么参数好呢?不知道各个参数有什么作用?

你的滚屏次数不能设置为0,设置为0的话就表示不滚屏,可以设置一个2或者其他。滚屏相关解释参看这里:《滚屏参数
举报 使用道具
15#
hhyyq6 初级会员 发表于 2017-5-13 23:37:54 | 只看该作者
shenzhenwan10 发表于 2017-5-11 09:55
如果是使用爬虫群进行抓取, 并且勾选了"结果入库", 在抓取过程中每抓取一定数量的线索后, 就会把结果文件夹 ...

那请问是要把所有的压缩包都导入吗?
举报 使用道具
16#
Fuller 管理员 发表于 2017-5-14 00:28:54 | 只看该作者
hhyyq6 发表于 2017-5-13 23:37
那请问是要把所有的压缩包都导入吗?

是否要给每个主题都导入压缩包,这不一定。比如,在层级采集中,如果第一级只是为第二级生成线索,那就没有必要导入第一级的采集结果。

另外,当前的数据仓库并不自动合并多个主题的采集结果,而是每个主题分别放在不同的数据表中,各自不影响,所以,一个主题的数据是否遗漏,跟是否导入另一个主题没有关系
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 18:55