我的一级规则名称是 浙数文化
二级规则名称是 浙数文化文章评论详情

目前一级规则可以抓取,设置页数爬虫
但是二级规则测试正常 但是抓取数据不行
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2021-6-8 16:51

沙发
yinjingClass 新手上路 发表于 2021-6-8 13:44:03 | 只看该作者
举报 使用道具
板凳
wangyong 版主 发表于 2021-6-8 14:29:10 | 只看该作者

从这个截图看,是采集的网址有问题,不是正常的网址,你把第二级网址确认是可以打开的后,再添加到规则中采集
举报 使用道具
地板
yinjingClass 新手上路 发表于 2021-6-8 14:34:24 | 只看该作者
wangyong 发表于 2021-6-8 14:29
从这个截图看,是采集的网址有问题,不是正常的网址,你把第二级网址确认是可以打开的后,再添加到规则中 ...

在一级规则中,勾选了补全网址,下级网址选的是二级规则的名称其中一级规则抓取的网址是完整的
举报 使用道具
5#
wangyong 版主 发表于 2021-6-8 15:02:59 | 只看该作者
yinjingClass 发表于 2021-6-8 14:34
在一级规则中,勾选了补全网址,下级网址选的是二级规则的名称其中一级规则抓取的网址是完整的
...


第一级规则中只需要对文章链接勾下级线索,发表时间不需要勾选

把第二级规则中的线索全部删除,然后重新运行第一规则采集,新一轮第一级规则采集完成后,再重新采集第二级规则

删除全部线索

举报 使用道具
6#
yinjingClass 新手上路 发表于 2021-6-8 15:21:57 | 只看该作者
wangyong 发表于 2021-6-8 15:02
第一级规则中只需要对文章链接勾下级线索,发表时间不需要勾选

把第二级规则中的线索全部删除,然后重 ...

执行失败
举报 使用道具
7#
yinjingClass 新手上路 发表于 2021-6-8 15:31:11 | 只看该作者
wangyong 发表于 2021-6-8 15:02
第一级规则中只需要对文章链接勾下级线索,发表时间不需要勾选

把第二级规则中的线索全部删除,然后重 ...

导出失败
举报 使用道具
8#
wangyong 版主 发表于 2021-6-8 16:51:37 | 只看该作者

导出失败的原因是在数据导出之前你把规则删除了,这样就导不出来了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 06:45