各位想问下,我在进行规则测试时是成功的,但是为什么正式抓取时抓取的数据项为空呢,请教各位什么原因呢?规则名是  酒店详情1

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-9-7 11:49

沙发
Fuller 管理员 发表于 2018-9-7 11:16:44 | 只看该作者


这些内容,都在网页上很下面的位置上,不滚屏到这个位置,内容就不显示。或者好久才能加载上来,如果采集太快就采集不到。

为了解决这些问题,应该打开网页的自动滚屏。在DS打数机菜单上 配置-》滚屏参数,把滚屏次数设置成>0的数字,比如,2。这个设置适用于单搜和集搜

如果是爬虫群模式,要在会员中心-》规则管理 那里设置调度,调度参数里面也有自动滚屏的设置项

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
gooseeker_influen 新手上路 发表于 2018-9-7 11:25:55 | 只看该作者
谢谢,我刚重新测试了,改了之后有的网页可以采到,但是还是有的网页采不到数据。
举报 使用道具
地板
gooseeker_influen 新手上路 发表于 2018-9-7 11:49:01 | 只看该作者
我改后测试时是一个成功一个不成功,这种情况参数应该设置多少才能全部采集到呢?
举报 使用道具
5#
Fuller 管理员 发表于 2018-9-7 11:49:49 | 只看该作者
gooseeker_influen 发表于 2018-9-7 11:25
谢谢,我刚重新测试了,改了之后有的网页可以采到,但是还是有的网页采不到数据。 ...

个别采集不到的,应该是规则不合适。采取这样的步骤:
1,先把规则加载到工作台上
2,在地址输入栏输入要检查的网址,回车
3,等加载好网页以后,选择菜单 规则-》刷新页面结构
4,选择菜单 规则-》分析页面
5,在 创建规则 工作台上点击“测试”按钮,看看数据能否采集到
6,如果不能采集到,在DOM上分析一下这个网页的DOM跟样本网页有什么不同
7,调整规则,提高适应性,如果普通内容映射不行,要用上定位标志映射,甚至是自定义XPath

定位标志映射教程:https://www.gooseeker.com/doc/article-344-1.html
自定义xpath教程:https://www.gooseeker.com/doc/thread-701-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 18:34