做了两级规则,第一规则爬取天涯论坛的有关北京房价的帖子列表,第二级规则根据第一级的链接爬取帖子的正文。运行了三遍规则,第一次是并行的;后两次并行不可以;第三次第一级规则翻页爬取出现抓取失败超时,但是第一次没有失败。这是什么原因?请教高手,我琢磨了半天,看不出规则哪里做的不合适?请高手看看,主题名:天涯一级帖子列表爬取,天涯二级帖子列表爬取。


举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-6-22 23:19

沙发
Fuller 管理员 发表于 2016-6-21 23:14:03 | 只看该作者
1,线索运行一遍以后,要重新激活才能抓第二遍
2,第一级抓取规则,有两个地方调整一下就能提高适应性:
a,在 创建规则 工作台的右边有个按钮“定位”,选择偏好class,这样选择以后,在“数据规则”输出窗口就能看到生成的抓取规则xpath是有变化的,选用了class作为定位标志,让xpath变短,提高适应性
b,在 爬虫路线 工作台上,按钮名字叫“定位选项”,同样设置,就会发现翻页的xpath也变短了,也能提高适应性

你说的并行是指“集搜”吗?你说“并行不可以”是什么现象?有提示吗?DS打数机底部的日志窗口显示什么?
举报 使用道具
板凳
liqiuyi 初级会员 发表于 2016-6-22 10:46:22 | 只看该作者
我说的并行,先“集搜”第一级规则,在第一级规则跑了一会,在点击第二级规则的“集搜”,出现“抓取网页”对话框让输入抓取的网页数,线索数,但是“抓取网页对话框”一闪而过,还没有出现第二级规则的DS打数机窗口,没反应;只有,第一级规则跑完,第二级规则才能运行,
举报 使用道具
地板
Fuller 管理员 发表于 2016-6-22 13:55:33 | 只看该作者
DS打数机菜单 配置-〉关闭弹窗  是不是被打开了?打开的话会自动关闭弹窗
举报 使用道具
5#
liqiuyi 初级会员 发表于 2016-6-22 18:51:10 | 只看该作者
Fuller 发表于 2016-6-22 13:55
DS打数机菜单 配置-〉关闭弹窗  是不是被打开了?打开的话会自动关闭弹窗

是这样的,我设置了关闭弹窗,关闭弹窗不是不是关闭的采集网页上的弹窗么?
举报 使用道具
6#
liqiuyi 初级会员 发表于 2016-6-22 18:55:59 | 只看该作者
还要麻烦你一下,我有个问题,就是我想采集天涯论坛的不同的帖子的评论列表,问题是有的帖子的评论列表自带翻页,有的帖子它没有评论,就没有评论就没有翻页这个节点,那我做规则该怎么做呢?
举报 使用道具
7#
liqiuyi 初级会员 发表于 2016-6-22 19:01:19 | 只看该作者
如同这个链接下的帖子没有评论列表,就没有翻页
http://bbs.tianya.cn/post-house-661423-1.shtml

另一个链接下的帖子有100页的评论列表,有数字和下页的翻页标志
http://bbs.tianya.cn/post-house-280880-1.shtml

举报 使用道具
8#
Fuller 管理员 发表于 2016-6-22 23:16:36 | 只看该作者
liqiuyi 发表于 2016-6-22 18:55
还要麻烦你一下,我有个问题,就是我想采集天涯论坛的不同的帖子的评论列表,问题是有的帖子的评论列表自带 ...

用一个评论比较多的帖子做样本页面做抓取规则。当抓取没有翻页的就不会翻页。
举报 使用道具
9#
Fuller 管理员 发表于 2016-6-22 23:19:20 | 只看该作者
liqiuyi 发表于 2016-6-22 19:01
如同这个链接下的帖子没有评论列表,就没有翻页
另一个链接下的帖子有100页的评论列表,有数字和下页的翻页 ...

要抓取每一楼,做一个样例复制
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 20:45