没有下一页只有加载更多,怎么采集?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-10-17 11:26

沙发
Fuller 管理员 发表于 2016-10-23 16:02:12 | 只看该作者
点击“加载更多”既可以用连续动作的模拟点击,也可以用爬虫路线的模拟点击,各自适应的情况不一样

1)网页上有一个或者多个加载更多,而且点击展开以后就不会再收缩:首选爬虫路线,也可以用连续动作。爬虫路线每次只能点一个,也就是点最前面那个“加载更多”,这样逐个可以把所有的点完
2)网页上有多个加载更多,而且点击展开一个那么前一个再次变成“加载更多”:只能用连续动作,而且定义点击位置的XPath的时候要特别注意,XPath一定要计算出来一个节点集,包含所有点开的和未点开的“加载更多”,一定要包含已经点开的节点,这样,连续动作的顺序才不会乱,DS打数机采知道点击到哪一个了。

总之,连续动作能适应所有情况,只是连续动作的定义过程复杂一点。
举报 使用道具
板凳
塗塗 初级会员 发表于 2018-10-17 11:12:51 | 只看该作者
页面是点击加载更多后会显示一部分内容,后面的内容还是需要重复点加载更多。像这种页面用爬虫路线,模拟点击怎么操作呢?
举报 使用道具
地板
Fuller 管理员 发表于 2018-10-17 11:26:01 | 只看该作者
塗塗 发表于 2018-10-17 11:12
页面是点击加载更多后会显示一部分内容,后面的内容还是需要重复点加载更多。像这种页面用爬虫路线,模拟点 ...

“点击加载更多”跟“下一页”是一样的作用,按照翻页采集做规则就行。参看教程:https://www.gooseeker.com/doc/article-334-1.html

但是有个不同:这种网页会越点越长,而且每次存储的内容是上一次都存过的,也就是是很多重复内容。到时候需要自己过滤一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置

热门用户

GMT+8, 2026-3-25 05:19