本帖最后由 ym 于 2020-3-4 19:09 编辑

用新版集搜客采摘浏览器把美国法规网页保存成静态网页后,再用集搜客爬虫软件对静态网页做的采集规则,规则如下。
问题:执行第一级规则,按顺序执行点击动作时,有些条目点击后没有生成结果文件,具体查看第二级规则的结果文件夹,前6个条目点击有生成结果文件,第7 8 9 10个条目点击后都没有生成结果文件,接着点击后面的条目又正常生成结果文件,但不是每个点击都能生成结果文件,这种情况要怎么解决?

第一级规则:美国法规-食品安全_1_点title1(设置点击第一层的条目)


第二级规则:美国法规-食品安全_1_点title2(采集展开的第二层条目信息)


采集日志:



举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-3-5 10:47

沙发
ym 版主 发表于 2020-3-4 19:17:26 | 只看该作者
另外,执行第一级规则,是要点击50个条目的,但是还没点完,大概点击20多个条目,就会结束了,检查过点击动作的xpath没有问题,会是哪方面的问题呢?
举报 使用道具
板凳
Fuller 管理员 发表于 2020-3-4 20:17:16 | 只看该作者
ym 发表于 2020-3-4 19:17
另外,执行第一级规则,是要点击50个条目的,但是还没点完,大概点击20多个条目,就会结束了,检查过点击动 ...

这个网页太大了,目前用集搜客采摘浏览器采集这个网页的时候,要为网页生成快照,因为html特别特别大,每存一次快照要花费几十秒。

所以,要把超时时长设置得很长。比如,5分钟
举报 使用道具
地板
Fuller 管理员 发表于 2020-3-4 20:19:32 | 只看该作者
另外,这个网页太大,不要期望一次点击完,因为法规文件有好几层目录,第一遍点击只点章这一层,第二遍点击只点某一章的sub chapter这一层,第三遍点击只点某个sub chapter的节这一层
举报 使用道具
5#
ym 版主 发表于 2020-3-5 10:29:01 | 只看该作者
Fuller 发表于 2020-3-4 20:17
这个网页太大了,目前用集搜客采摘浏览器采集这个网页的时候,要为网页生成快照,因为html特别特别大,每 ...

对,超时时长设置成300秒就可以执行完点击动作了,并且每次点击都生成了采集结果文件
举报 使用道具
6#
Fuller 管理员 发表于 2020-3-5 10:47:07 | 只看该作者
ym 发表于 2020-3-5 10:29
对,超时时长设置成300秒就可以执行完点击动作了,并且每次点击都生成了采集结果文件
...

点击到最后,可能300秒都不够。那个网页里面的dom节点实在是太多了,处理时间很长。下一个版本,我们会优化一下集搜客采摘软件的性能,目前采摘软件的爬虫引擎和老版爬虫软件的爬虫引擎稍微有些区别,算法应该做一些适应性优化
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 03:13