本帖最后由 zhaosilei 于 2016-10-24 14:00 编辑

主题名:测试40_zhao

获取第一列的数据后,把第一列删掉,在获取第二列的数据,再把第二列删掉,依次,当最后一列被删除,没有内容,就匹配失败,怎么解决“匹配失败”,就是当最后一列被删除后,停止连续动作,怎么弄?并且列数是不固定的
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2016-10-24 19:49

沙发
scraper 论坛元老 发表于 2016-10-24 14:38:16 | 只看该作者
测试了你的规则 最后一列并没有点击删除 没有出现匹配失败的错误
举报 使用道具
板凳
zhaosilei 初级会员 发表于 2016-10-24 14:44:40 | 只看该作者
scraper 发表于 2016-10-24 14:38
测试了你的规则 最后一列并没有点击删除 没有出现匹配失败的错误

我刚才改了一下,用的合用表达式,停止了删除,但停不下来,又设置了终点标志,重复停止,最后出来的数据每次都多了两条,怎么把多的重复的两条删掉呢
举报 使用道具
地板
scraper 论坛元老 发表于 2016-10-24 14:54:58 | 只看该作者
zhaosilei 发表于 2016-10-24 14:44
我刚才改了一下,用的合用表达式,停止了删除,但停不下来,又设置了终点标志,重复停止,最后出来的数据 ...

可以把数据转换成excel,在excel去重
举报 使用道具
5#
zhaosilei 初级会员 发表于 2016-10-24 17:33:18 | 只看该作者
scraper 发表于 2016-10-24 14:54
可以把数据转换成excel,在excel去重

可以麻烦你再看一下,测试40_zhao的规则,无线循环,我不想用重复内容停止动作,但stop mark 不会用,看网上说的把href后面的写进去,但我这href看着都不像
举报 使用道具
6#
scraper 论坛元老 发表于 2016-10-24 18:06:47 | 只看该作者
zhaosilei 发表于 2016-10-24 17:33
可以麻烦你再看一下,测试40_zhao的规则,无线循环,我不想用重复内容停止动作,但stop mark 不会用,看 ...

目前版本不适用你这种情况 后续版本会完善自定义终点标志的适用情况

举报 使用道具
7#
zhaosilei 初级会员 发表于 2016-10-24 18:34:26 | 只看该作者
本帖最后由 zhaosilei 于 2016-10-24 18:41 编辑
scraper 发表于 2016-10-24 18:06
目前版本不适用你这种情况 后续版本会完善自定义终点标志的适用情况

再问一个问题,如果匹配失败了一条数据,可以跳过这条,匹配下一条数据吗。遇到的问题是:三个页面,点击第一个页面的按钮,给个下级线索映射到第二个网页,第二个网页也给个下级线索,映射到第三个网页。
开始爬虫,假设总共十条,但是第五条的第二个网页的下级线索没有网址,就会匹配失败,并且停止了。可不可以跳过第五条。
举报 使用道具
8#
Fuller 管理员 发表于 2016-10-24 19:24:27 | 只看该作者
zhaosilei 发表于 2016-10-24 18:34
再问一个问题,如果匹配失败了一条数据,可以跳过这条,匹配下一条数据吗。遇到的问题是:三个页面,点击 ...

第五条失败了不会中断爬虫,爬虫会接下来执行第六条
举报 使用道具
9#
zhaosilei 初级会员 发表于 2016-10-24 19:28:31 | 只看该作者
本帖最后由 zhaosilei 于 2016-10-24 19:32 编辑
Fuller 发表于 2016-10-24 19:24
第五条失败了不会中断爬虫,爬虫会接下来执行第六条

但是我的一直停留在匹配失败的界面

举报 使用道具
10#
zhaosilei 初级会员 发表于 2016-10-24 19:32:50 | 只看该作者
zhaosilei 发表于 2016-10-24 19:28
但是我的一直停留在匹配失败的界面

不好意思啊,等一会就跳过去了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 11:20