快捷导航
https://www.sogou.com/web?query= ... w=01025001&dr=1

想用层级抓取爬这个网站的新闻链接,使用了样例复制和翻页线索,样例复制是用的同级的div节点复制的,但每页10个新闻链接只能爬下来几个,用打数机单搜也无法翻页,怀疑是定位问题,新闻的每个链接的id和class也没有规律,求解答,非常感谢。

任务名:腾讯华为100新闻0318试验1
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2020-3-19 17:09

wangyong 版主 发表于 2020-3-18 14:49:39 | 显示全部楼层
本帖最后由 wangyong 于 2020-3-18 14:53 编辑

这个页面上的新闻有两种结构,所以每个抓取内容都要写自定义xpath xpath.png

新闻时间:
  1. .//*[contains(@id,'cacheresult_summary')]/span|.//*[@class='gray-color']
复制代码
新闻标题:
  1. ./h3
复制代码
新闻链接:
  1. ./h3/a/@href
复制代码

样例复制2.png

样例复制也要分别选第一条新闻和第二条新闻做映射

举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-3-18 15:45:40 | 显示全部楼层
wangyong 发表于 2020-3-18 14:49
这个页面上的新闻有两种结构,所以每个抓取内容都要写自定义xpath

新闻时间:

非常感谢您的回答,我按您的方法重做了一个任务,可以把第一页的十条新闻采集下来九个了,但是从第二页开始就不行了,在打数机上给该任务添加第三页的线索也是采集不下来,可不可以麻烦您再帮我看看这是什么原因?非常感谢!

任务名:腾讯华为100新闻0318试验2

举报 使用道具
gz51837844 管理员 发表于 2020-3-18 16:04:31 | 显示全部楼层
这个规则里没有做上面帖子里关于样例复制的修改
举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-3-18 16:30:55 | 显示全部楼层
gz51837844 发表于 2020-3-18 16:04
这个规则里没有做上面帖子里关于样例复制的修改

是用第一条新闻和第二条新闻做样例复制吗?这个我改了。主要是为社么换一页就爬不下来了呢?
举报 使用道具
wangyong 版主 发表于 2020-3-18 16:46:22 | 显示全部楼层
你没有修改成功,你加载规则看第二个样例复制对应的定位编号不是第二条新闻
举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-3-18 16:58:29 | 显示全部楼层
wangyong 发表于 2020-3-18 16:46
你没有修改成功,你加载规则看第二个样例复制对应的定位编号不是第二条新闻 ...

刚才确认了下应该是第二条新闻的,只是网页下面定位编号有微小变化,我又重新复制了一下,但还是爬不了第二页,就是翻页到第二页会滚动一遍然后什么什么都没爬下来就结束任务了,请问这是什么原因呢?

任务名:腾讯华为100新闻0318试验2

举报 使用道具
wangyong 版主 发表于 2020-3-18 18:23:29 | 显示全部楼层
wangxiaoshuang 发表于 2020-3-18 16:58
刚才确认了下应该是第二条新闻的,只是网页下面定位编号有微小变化,我又重新复制了一下,但还是爬不了第 ...

list2.png
红框里的才是第二条新闻,对应的定位编号是1988,但是样例复制里第二个样例的定位编号是2148
举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-3-18 18:30:43 | 显示全部楼层
wangyong 发表于 2020-3-18 18:23
红框里的才是第二条新闻,对应的定位编号是1988,但是样例复制里第二个样例的定位编号是2148
...


我这里显示不是的,一直都不是2148,
QQ截图20200318182910.png
举报 使用道具
wangxiaoshuang 初级会员 发表于 2020-3-18 18:32:45 | 显示全部楼层
wangyong 发表于 2020-3-18 18:23
红框里的才是第二条新闻,对应的定位编号是1988,但是样例复制里第二个样例的定位编号是2148
...

可能我们显示不一样把,请问您把第二条新闻复制后可以爬第二页吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 爬网址做层级采集——以京东商品爬虫为例
  • 网络爬虫软件翻页采集列表数据
  • 定义爬虫规则采集网页数据
  • 网络爬虫采集列表数据
  • 集搜客网络爬虫的核心名词

热门用户

GMT+8, 2020-11-28 10:45