抓取网页数据重复

e69300

求大神指导，从网页抓数据生成xml，每一页有2份xml，最后一页1份。抓了339页，677份文件。怎么解决。

ym · 发表于 2015-12-17 09:42:18

抓重复的话，可以把数据导入到excel里过滤重复的数据，想要从根源上解决的话就得从规则入手，整理箱里要勾上关键内容（挑必然显示的信息勾上），还可以点击整理箱的测试按钮，然后观察一下数据规则，可能是xpath的路径造成抓重复了

Fuller · 发表于 2015-12-17 10:01:59

可以把主题名告诉我，可以跟帖发出来，一个人是看不了别人的抓取规则的，管理员可以看。也可以站内私信发给我。

共 2 个关于本帖的回复最后回复于 2015-12-17 10:01

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页