21#
Lucky嗨嗨 初级会员 发表于 2017-10-13 10:01:51 | 只看该作者
Fuller 发表于 2017-10-12 22:19
针对那个缺失的摘要,看看xpath有什么特别在自定义xpath在增加一个 | 式子
...

我还想问一下,问什么我最后导出来的excel的前十个和后面十个是重复的?而且第一个和第二个也是重复的,第一个是原网址,第二个是爬出来的网址……

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
22#
ali369 初级会员 发表于 2017-10-13 10:22:06 | 只看该作者
Lucky嗨嗨 发表于 2017-10-13 10:01
我还想问一下,问什么我最后导出来的excel的前十个和后面十个是重复的?而且第一个和第二个也是重复的, ...

检查一下爬下来的数据是不是你想要的,可以做去重复处理,出现这种情况应该是规则问题吧。
举报 使用道具
23#
Lucky嗨嗨 初级会员 发表于 2017-10-13 12:50:34 | 只看该作者
ali369 发表于 2017-10-13 10:22
检查一下爬下来的数据是不是你想要的,可以做去重复处理,出现这种情况应该是规则问题吧。
...

怎么做重复处理?有网址吗?就前十条有问题,其他几百条都没问题啊,也是规则问题吗?

举报 使用道具
24#
ali369 初级会员 发表于 2017-10-13 14:26:33 | 只看该作者
Lucky嗨嗨 发表于 2017-10-13 12:50
怎么做重复处理?有网址吗?就前十条有问题,其他几百条都没问题啊,也是规则问题吗?

...

可以上百度查一下,excel有去重复数据的功能,前十条有问题就单独处理就可以了,反正数据量不大。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-13 22:16