7 9061

第二页抓不到内容怎么办?

Fuller 于 2015-12-12 21:12 发表 [复制链接]
问:第二页抓不到内容怎么办?可以滚屏,但是没有数据,就第一页有


答:原因可能是没有设置 关键内容。
关键内容_设置.png

问:我都试了,加上关键内容,第二页就不动了


答:那就是规则不合适,抓取ajax,一定要设置关键内容。很可能是第一页和第二页的内容所用的id=xxx不一样,你的规则只能用于第一页,要调整



问:设置了关键内容,就不翻页了。不设置翻页,但是没有数据



答:关键内容一定要,不翻页的原因要找出来,可以这样找

1)把规则加载到MS谋数台

2)加载完成后,内容定位 不要勾选
内容定位不勾选.png

3)在浏览器中翻页

4)看到下一页内容以后,再次勾上 内容定位
5)选择菜单:文件-〉刷新网页结构,然后再选择 分析页面
也就是用当前的规则分析一下 下一页的内容,你就能看到报错,就能知道哪个抓取内容不适合

举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-1-3 17:28

dearsunlight 初级会员 发表于 2015-12-31 14:12:28 | 显示全部楼层
您好,我按照您上边说的过程操作了一下并没有报错出现。


我现在想做的是抓取某一主题所有的百度新闻标题。

现在的操作有:1.先对第一个新闻的标题、时间、链接分别进行了映射,并对该页的所有新闻进行了样例复制。2.新建记号线索,进行翻页规则设置。
在前两步操作不能抓取到下一页的内容后,进行了第三步操作,按照教程进行自动翻页规则设置。
但是这几步都没有帮我实现对余下几页内容的抓取,所以想请教一下是什么原因导致的呢?


还有个问题想麻烦您解答一下,就是我的DS打数机检索不到我设置的规则,但在我集搜客的账号里可以找到这些规则。我现在都是通过在集搜客账号里点击对应规则后的运行进行抓取的。请问这个是我的操作问题吗?

非常感谢解答!
举报 使用道具
Fuller 管理员 发表于 2015-12-31 16:21:17 | 显示全部楼层
dearsunlight 发表于 2015-12-31 14:12
您好,我按照您上边说的过程操作了一下并没有报错出现。

把主题名帖出来我们看一下。

我怀疑是输入主题名的时候,敲了什么键,输入了一个看不见的字符,造成DS打数机上也看不到,翻页的时候,两个主题名看起来是一样,其实有个看不见的字符。

这类问题发生过,还在进一步查找原因。你把主题名发出来我们研究一下
举报 使用道具
dearsunlight 初级会员 发表于 2015-12-31 16:26:04 | 显示全部楼层
Fuller 发表于 2015-12-31 16:21
把主题名帖出来我们看一下。

我怀疑是输入主题名的时候,敲了什么键,输入了一个看不见的字符,造成DS打 ...

嗯,好的,谢谢~
不过弱弱的问一句,怎么贴出来啊?我是新手~~是把那个规则给发布了吗?
举报 使用道具
Fuller 管理员 发表于 2015-12-31 17:19:39 | 显示全部楼层
dearsunlight 发表于 2015-12-31 16:26
嗯,好的,谢谢~
不过弱弱的问一句,怎么贴出来啊?我是新手~~是把那个规则给发布了吗? ...

主题名是什么?把这个说出来,有管理权限的技术人员就能做检查,不用发布
举报 使用道具
dearsunlight 初级会员 发表于 2016-1-1 22:14:31 | 显示全部楼层
Fuller 发表于 2015-12-31 17:19
主题名是什么?把这个说出来,有管理权限的技术人员就能做检查,不用发布 ...

主题名:北京理工大学管理与经济学院。谢谢~
举报 使用道具
Fuller 管理员 发表于 2016-1-1 22:36:08 | 显示全部楼层
dearsunlight 发表于 2016-1-1 22:14
主题名:北京理工大学管理与经济学院。谢谢~

我查看了您的抓取规则,问题在于
1,翻页的主题名应该与当前主题名一样,翻页不是下一级,因为当前网页的结构与翻页以后的网页结构是相同。所以,这是同一级,相当于多个网址用同一个规则进行抓取。勾选“连贯抓取”的时候,翻页用的主题名会自动填上的。连贯抓取的意思是指DS打数机不停顿,一口气把所有页翻完
2,如果“创建规则”工作台上,为您定义的抓取内容“link”勾选“下级线索”,这才是两级抓取,就需要进入“爬虫路线”工作台为这个线索起个主题名,通常不与当前主题名相同
举报 使用道具
dearsunlight 初级会员 发表于 2016-1-3 17:28:41 | 显示全部楼层
Fuller 发表于 2016-1-1 22:36
我查看了您的抓取规则,问题在于
1,翻页的主题名应该与当前主题名一样,翻页不是下一级,因为当前网页的 ...

恩恩,我再研究一下,非常感谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 20:52