使用集搜客怎样采集中国青年网(youth.cn)新闻列表

马涌河畔

我想每天采集中国青年网新闻频道首页的新闻列表(http://news.youth.cn/)，如下图说示，

没有翻页，只是页面下部有个“加载更多”，可以一直点下去。
这种情况做采集规则和每天运行爬虫应该怎么弄？

内容分析应用 · 发表于 2020-7-30 10:09:27

本帖最后由内容分析应用于 2020-7-30 10:17 编辑

这个“加载更多”，就可以当作一个普通的翻页，规则是一样的，参考这篇教程：翻页采集列表
不过有一点要注意：由于每页采集的内容都包含整个列表的新闻，所有最后入库后的数据是有重复的，可以根据title或者网址去重

马涌河畔 · 发表于 2020-7-30 10:10:50

那爬的时候，就一直点“加载更多”？我每天执行点几次就够了

内容分析应用 · 发表于 2020-7-30 10:13:20

用爬虫群窗口采集就可以自定义翻页次数，参考这篇帖子：怎样控制翻页数量？

共 3 个关于本帖的回复最后回复于 2020-7-30 10:13

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页