之前我爬过很多,方式方法都是一样的,有的在设置好爬取字段和规则之后,运行发现只抓取到了整个页面的其中一条信息,解决的方法都是采用绝对定位,然后就可以了,这是我第一次遇到使用了绝对定位,也只能定位出一部分的情况,特来咨询一下
http://shop.boqii.com/dog/list-621-0-0-0-0-0.html,这是网站地址。这个页面我本来只需要二级链接也就是标题里面那个href即可,但是我设置好复制规则和翻页规则后,测试发现只能定位到7个链接,剩下的链接无法定位,但是实际上网页显示的都不止。所以这是什么问题呢,希望能帮我解决一下,绝对定位,ID,CLASS我都试过了,一样。

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2019-2-28 12:10

沙发
Fuller 管理员 发表于 2019-2-28 10:42:07 | 只看该作者
我根据 波奇网狗粮* 只能搜索到第二级的,第一级的主题名是什么?
举报 使用道具
板凳
Fuller 管理员 发表于 2019-2-28 10:42:53 | 只看该作者
是这个主题吗? 波奇网主粮爬取
举报 使用道具
地板
cj957866422 初级会员 发表于 2019-2-28 10:43:54 | 只看该作者
Fuller 发表于 2019-2-28 10:42
是这个主题吗? 波奇网主粮爬取

是的
举报 使用道具
5#
cj957866422 初级会员 发表于 2019-2-28 10:44:42 | 只看该作者
Fuller 发表于 2019-2-28 10:42
我根据 波奇网狗粮* 只能搜索到第二级的,第一级的主题名是什么?

这个网址链接不就是第一级的商品页面链接嘛
举报 使用道具
6#
Fuller 管理员 发表于 2019-2-28 10:49:29 | 只看该作者


你看DOM,每个商品都有个唯一性的编号,比如,487,如果规则使用了id作为定位标志,那么就只能采集到1条。所以,要改成偏好class或者只用class,这样就避开含有唯一性数字的id,而是采用class

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
7#
Fuller 管理员 发表于 2019-2-28 10:50:38 | 只看该作者
另外,在第一级,为抓取内容勾上“下级线索”,并且填上下级主题名,这样就能把两级连在一起
举报 使用道具
8#
cj957866422 初级会员 发表于 2019-2-28 11:10:36 | 只看该作者
Fuller 发表于 2019-2-28 10:50
另外,在第一级,为抓取内容勾上“下级线索”,并且填上下级主题名,这样就能把两级连在一起 ...

哦哦,这个问题解决了,还有个翻页的问题,翻页记号都做好了,但是每次翻到第二页就会失败,是怎么回事呢

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
9#
Fuller 管理员 发表于 2019-2-28 11:38:03 | 只看该作者
cj957866422 发表于 2019-2-28 11:10
哦哦,这个问题解决了,还有个翻页的问题,翻页记号都做好了,但是每次翻到第二页就会失败,是怎么回事呢 ...

绝对定位的适应性很差,改成偏好class,到第二页也不会失败
举报 使用道具
10#
cj957866422 初级会员 发表于 2019-2-28 12:05:25 | 只看该作者
Fuller 发表于 2019-2-28 11:38
绝对定位的适应性很差,改成偏好class,到第二页也不会失败

做了,选了你说的这个,然后每个信息都是内容映射和定位映射也都设置了,还是翻不了页
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 23:07