用集搜客采摘浏览器采集美国法规，为什么有些点击动作执行后没有生成结果文件？

ym

本帖最后由 ym 于 2020-3-4 19:09 编辑

用新版集搜客采摘浏览器把美国法规网页保存成静态网页后，再用集搜客爬虫软件对静态网页做的采集规则，规则如下。
问题：执行第一级规则，按顺序执行点击动作时，有些条目点击后没有生成结果文件，具体查看第二级规则的结果文件夹，前6个条目点击有生成结果文件，第7 8 9 10个条目点击后都没有生成结果文件，接着点击后面的条目又正常生成结果文件，但不是每个点击都能生成结果文件，这种情况要怎么解决？

第一级规则：美国法规-食品安全_1_点title1（设置点击第一层的条目）

第二级规则：美国法规-食品安全_1_点title2（采集展开的第二层条目信息）

采集日志：

ym · 发表于 2020-3-4 19:17:26

另外，执行第一级规则，是要点击50个条目的，但是还没点完，大概点击20多个条目，就会结束了，检查过点击动作的xpath没有问题，会是哪方面的问题呢？

Fuller · 发表于 2020-3-4 20:17:16

ym 发表于 2020-3-4 19:17
另外，执行第一级规则，是要点击50个条目的，但是还没点完，大概点击20多个条目，就会结束了，检查过点击动 ...

这个网页太大了，目前用集搜客采摘浏览器采集这个网页的时候，要为网页生成快照，因为html特别特别大，每存一次快照要花费几十秒。

所以，要把超时时长设置得很长。比如，5分钟

Fuller · 发表于 2020-3-4 20:19:32

另外，这个网页太大，不要期望一次点击完，因为法规文件有好几层目录，第一遍点击只点章这一层，第二遍点击只点某一章的sub chapter这一层，第三遍点击只点某个sub chapter的节这一层

ym · 发表于 2020-3-5 10:29:01

Fuller 发表于 2020-3-4 20:17
这个网页太大了，目前用集搜客采摘浏览器采集这个网页的时候，要为网页生成快照，因为html特别特别大，每 ...

对，超时时长设置成300秒就可以执行完点击动作了，并且每次点击都生成了采集结果文件

Fuller · 发表于 2020-3-5 10:47:07

ym 发表于 2020-3-5 10:29
对，超时时长设置成300秒就可以执行完点击动作了，并且每次点击都生成了采集结果文件
...

点击到最后，可能300秒都不够。那个网页里面的dom节点实在是太多了，处理时间很长。下一个版本，我们会优化一下集搜客采摘软件的性能，目前采摘软件的爬虫引擎和老版爬虫软件的爬虫引擎稍微有些区别，算法应该做一些适应性优化

用集搜客采摘浏览器采集美国法规，为什么有些点击动作执行后没有生成结果文件？

本帖子中包含更多资源

共 5 个关于本帖的回复最后回复于 2020-3-5 10:47

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

用集搜客采摘浏览器采集美国法规，为什么有些点击动作执行后没有生成结果文件？

本帖子中包含更多资源

共 5 个关于本帖的回复 最后回复于 2020-3-5 10:47

推荐板块

精彩推荐

热门话题

热门用户

共 5 个关于本帖的回复最后回复于 2020-3-5 10:47