Lucky嗨嗨 初级会员 发表于 2017-10-13 10:01:51 | 显示全部楼层
Fuller 发表于 2017-10-12 22:19
针对那个缺失的摘要,看看xpath有什么特别在自定义xpath在增加一个 | 式子
...

我还想问一下,问什么我最后导出来的excel的前十个和后面十个是重复的?而且第一个和第二个也是重复的,第一个是原网址,第二个是爬出来的网址……

3.png
举报 使用道具
ali369 初级会员 发表于 2017-10-13 10:22:06 | 显示全部楼层
Lucky嗨嗨 发表于 2017-10-13 10:01
我还想问一下,问什么我最后导出来的excel的前十个和后面十个是重复的?而且第一个和第二个也是重复的, ...

检查一下爬下来的数据是不是你想要的,可以做去重复处理,出现这种情况应该是规则问题吧。
举报 使用道具
Lucky嗨嗨 初级会员 发表于 2017-10-13 12:50:34 | 显示全部楼层
ali369 发表于 2017-10-13 10:22
检查一下爬下来的数据是不是你想要的,可以做去重复处理,出现这种情况应该是规则问题吧。
...

怎么做重复处理?有网址吗?就前十条有问题,其他几百条都没问题啊,也是规则问题吗?

举报 使用道具
ali369 初级会员 发表于 2017-10-13 14:26:33 | 显示全部楼层
Lucky嗨嗨 发表于 2017-10-13 12:50
怎么做重复处理?有网址吗?就前十条有问题,其他几百条都没问题啊,也是规则问题吗?

...

可以上百度查一下,excel有去重复数据的功能,前十条有问题就单独处理就可以了,反正数据量不大。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 09:39