导出的excel里面的数据重复的

酱紫

用excel打开时这样的。

网页里面看，没有问题。

quyixuan · 发表于 2016-12-5 14:51:45

之前没见过这种问题，你把主题名贴出来，我们测试看一下

zhudii · 发表于 2018-12-21 22:16:57

quyixuan 发表于 2016-12-5 14:51
之前没见过这种问题，你把主题名贴出来，我们测试看一下

我也遇到了这种情况，网页里面看是好的，但是导出来就全是重复的

Fuller · 发表于 2018-12-22 09:26:47

zhudii 发表于 2018-12-21 22:16
我也遇到了这种情况，网页里面看是好的，但是导出来就全是重复的

你定义个规则的整理箱结构截个图出来看看？

如果在一个整理箱中，有嵌套的子箱子，子箱子也是样例复制，那么上一层的信息一定会内容相同。

观察一下，对比两个excel行，如果每个字段都一样，那才是重复的，如果其中有不同的字段，就不是重复的

zhudii · 发表于 2018-12-24 21:37:39

Fuller 发表于 2018-12-22 09:26
你定义个规则的整理箱结构截个图出来看看？

如果在一个整理箱中，有嵌套的子箱子，子箱子也是样例复制， ...

嗯嗯，不好意思，我发现这个问题了，一直迭代前面的内容都是重复的，最新最大的那个才是比较完整的，只看生成的最后一个就可以了。

另外还有个想请教的问题就是，我用你们开发的微博采集工具采集评论，不能够采集所有的评论，比如微博下面“共XXX条回复”那种。

我也自己试着改xpath,改成//*[contains(text(),'共') and contains(text(),'条回复') ] ，但好像还是不行。

另外我也结合使用了连续动作，但我发现，他是先执行的翻页(就是每一页的那个"查看更多")，再回来执行那个连续动作，就是点击“共XXX条回复”，但最后爬取的内容还是没有下面的更多回复，我试了好久好多天，这么简单的问题也没能解决呢，所以想问问你们，这个到底要怎么弄比较好y吖，麻烦啦~

Fuller · 发表于 2018-12-25 08:50:06

zhudii 发表于 2018-12-24 21:37
嗯嗯，不好意思，我发现这个问题了，一直迭代前面的内容都是重复的，最新最大的那个才是比较完整的，只看 ...

连续动作是这样的：
1，做一轮动作
2，执行目标主题的抓取规则
3，回来做下一轮动作
4，执行目标主题的抓取规则
......
就这样循环.

你说的问题不应该存在，连续动作的目标主题名还是当前主题名，就可以用来循环点击加载更多

Fuller · 发表于 2018-12-25 08:52:05

你想采集回复数？xpath基本上没有问题，通常自定义xpath不用//开头，而是用.//开头，但是一个网页上只想抓取一个内容，而不是样例复制中的内容，用//开头也可以

导出的excel里面的数据重复的

本帖子中包含更多资源

共 6 个关于本帖的回复最后回复于 2018-12-25 08:52

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

导出的excel里面的数据重复的

本帖子中包含更多资源

共 6 个关于本帖的回复 最后回复于 2018-12-25 08:52

推荐板块

精彩推荐

热门话题

热门用户

共 6 个关于本帖的回复最后回复于 2018-12-25 08:52