请问如果翻页的内容像这样的话,应该怎么设置翻页记号呢?
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2019-10-13 09:47

沙发
Fuller 管理员 发表于 2019-10-11 23:22:17 | 只看该作者
翻页符号是箭头,看这篇教程https://www.gooseeker.com/doc/thread-658-1-1.html
举报 使用道具
板凳
wuxingnan1324 新手上路 发表于 2019-10-12 07:35:19 | 只看该作者
Fuller 发表于 2019-10-11 23:22
翻页符号是箭头,看这篇教程https://www.gooseeker.com/doc/thread-658-1-1.html

太感谢您了
举报 使用道具
地板
wuxingnan1324 新手上路 发表于 2019-10-12 08:20:37 | 只看该作者
Fuller 发表于 2019-10-11 23:22
翻页符号是箭头,看这篇教程https://www.gooseeker.com/doc/thread-658-1-1.html


现在设置之后仍然只能翻一页,是存在什么错误吗?

举报 使用道具
5#
Fuller 管理员 发表于 2019-10-12 09:13:01 | 只看该作者
wuxingnan1324 发表于 2019-10-12 08:20
现在设置之后仍然只能翻一页,是存在什么错误吗?

爱彼迎的翻页很麻烦,这里有两篇讨论帖,最后都把问题解决了,但是费了好大劲:https://www.gooseeker.com/tuto/tutorsearch.html?isSearch=true&pageNum=1&source=2&tutorKey=%E7%88%B1%E5%BD%BC%E8%BF%8E
举报 使用道具
6#
wuxingnan1324 新手上路 发表于 2019-10-12 11:02:53 | 只看该作者
Fuller 发表于 2019-10-12 09:13
爱彼迎的翻页很麻烦,这里有两篇讨论帖,最后都把问题解决了,但是费了好大劲:https://www.gooseeker.co ...

我按照里面的操作步骤操作了,但是每次我先点击【存规则】,然后在【线索规则】的位置把最后一个@class的信息删除掉之后点击保存,再打开的时候删掉的信息就又回来了,然后仍然只能爬取一页数据,这是怎么回事呢?
举报 使用道具
7#
wuxingnan1324 新手上路 发表于 2019-10-12 11:07:26 | 只看该作者
Fuller 发表于 2019-10-12 09:13
爱彼迎的翻页很麻烦,这里有两篇讨论帖,最后都把问题解决了,但是费了好大劲:https://www.gooseeker.co ...


先点击了【保存修改】,显示保存成功

关掉MS工作台之后,最后一个@class又回来了

举报 使用道具
8#
Fuller 管理员 发表于 2019-10-12 12:17:05 | 只看该作者
wuxingnan1324 发表于 2019-10-12 11:02
我按照里面的操作步骤操作了,但是每次我先点击【存规则】,然后在【线索规则】的位置把最后一个@class的 ...

再次打开,点击查看规则按钮,又是自动生成的规则,也就是说看不到上一次手工编写的。所以,步骤顺序要严格的 存规则-》保存修改 ,然后就用DS打数机去测试,如果成功了,就不加载分析了,光使用就行了。
举报 使用道具
9#
wuxingnan1324 新手上路 发表于 2019-10-12 15:23:07 | 只看该作者
Fuller 发表于 2019-10-12 12:17
再次打开,点击查看规则按钮,又是自动生成的规则,也就是说看不到上一次手工编写的。所以,步骤顺序要严 ...


通过帖子,评论的前25页抓取出来了,但是后面还有32页没有抓取,我根据您的回复尝试了几遍,出现了和帖子类似的问题,但是您后面的回复不太懂。
再就是第六条这里的【重新做内容映射】,指的是要重新设置标签、做样例复制映射、翻页区映射和翻页记号映射吗?我这都做好之后,根据之前的做法去做只能得到第26页的内容,这是怎么回事呢?

举报 使用道具
10#
Fuller 管理员 发表于 2019-10-12 15:41:26 | 只看该作者
wuxingnan1324 发表于 2019-10-12 15:23
通过帖子,评论的前25页抓取出来了,但是后面还有32页没有抓取,我根据您的回复尝试了几遍,出现了和帖 ...

采集这个网站挺头疼的,因为翻几页以后,网页结构变了。应对这种情况,需要在同一个主题名下定义多个规则,有几种变化就定义几个规则,他们的主题名相同,规则编号不一样。

为了定义第二个规则,你把网页翻页到出现变化的那一页,开始定义规则。

我那个帖子说要刷新页面结构,那是假设DOM结构已经显示出来了,再手工进行翻页,DOM结构并不跟着自动刷新,等翻到要定义规则的那一页以后,要手工刷新一些页面结构,这样DOM结构就能体现这个页面了。如果不刷新,点击网页上的内容,会弹框说定位不到DOM节点。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 08:55