本帖最后由 goo_seeker 于 2016-12-8 16:09 编辑

列表页:http://www.airitilibrary.cn/Sear ... econdID=C006&page=1
线索是右侧的列表,现在遇到有两个问题:
1:使用url:http://www.airitilibrary.cn/Publ ... licationID=1018189X  做的详情页规则,
做的两层样例复制,但是只能抓取到第一个2016里面的两期内容,后面的2015,2014.。。都抓不到,图在下面,规则在附件里



QQ图片20161208160503.png (32.93 KB, 下载次数: 474)

QQ图片20161208160503.png

test_12.rar

783 Bytes, 下载次数: 0

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-12-9 16:14

沙发
goo_seeker 初级会员 发表于 2016-12-8 16:05:59 | 只看该作者
要做样例复制的结构

QQ图片20161208160503.png (32.93 KB, 下载次数: 471)

QQ图片20161208160503.png
举报 使用道具
板凳
goo_seeker 初级会员 发表于 2016-12-8 16:11:53 | 只看该作者
第二个问题:2:使用上述制作的规则进行爬数据时,抓不到数据,显示匹配失败,报错如下:
15:57:6 8/12        4        278303199        ValidateDelayedPage        抓取失败(超时),抓取规则不合适或者超时时间设置太短
test_11是列表页规则,可以抓到10条数据,test_12是详情页规则,一条数据也抓不到。
问题有点多,烦请大神指教,先表示感谢
举报 使用道具
地板
ym 版主 发表于 2016-12-8 16:25:01 | 只看该作者
本帖最后由 ym 于 2016-12-8 16:26 编辑
goo_seeker 发表于 2016-12-8 16:11
第二个问题:2:使用上述制作的规则进行爬数据时,抓不到数据,显示匹配失败,报错如下:
15:57:6 8/12        4        2 ...

1、第一级规则没有做翻页线索,所以,只能采到第一页的数据,所以,你做上翻页线索就好了,操作参考《设置翻页采集
2、第二级规则加载失败,说明自动生成的规则不合适,所以采集失败。你要做上定位标志,可以精确到某个采集范围,参考《定位标志精确采集范围》。
3、第二级规则左侧的年份要做嵌套样例复制,操作参考《多层嵌套样例复制

举报 使用道具
5#
goo_seeker 初级会员 发表于 2016-12-9 09:14:04 | 只看该作者
ym 发表于 2016-12-8 16:25
1、第一级规则没有做翻页线索,所以,只能采到第一页的数据,所以,你做上翻页线索就好了,操作参考《设置 ...

首先感谢版主的回复,那个嵌套样例复制我已经做了,但是还是抓不到,


举报 使用道具
6#
ym 版主 发表于 2016-12-9 10:03:44 | 只看该作者
本帖最后由 ym 于 2016-12-9 10:06 编辑
goo_seeker 发表于 2016-12-9 09:14
首先感谢版主的回复,那个嵌套样例复制我已经做了,但是还是抓不到,

第二级规则加载失败,说明自动生成的规则不合适,所以采集失败。你要对整理箱做上定位标志,特别是顶节点,要选择能框住整个页面的标志值做定位映射,可以精确到某个采集范围,就不会定位失败。参考《定位标志精确采集范围》。
举报 使用道具
7#
goo_seeker 初级会员 发表于 2016-12-9 16:14:00 | 只看该作者
ym 发表于 2016-12-9 10:03
第二级规则加载失败,说明自动生成的规则不合适,所以采集失败。你要对整理箱做上定位标志,特别是顶节点 ...

我这个页面里面找不到id,class字段,做不了定位映射,我直接在数据规则那一栏改成我写的规则,然后点击整理箱上的测试按钮,可以正常抓到完全的数据了,但是我点击爬数据按钮还是抓不到数据,提示匹配失败,哎

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 21:59