11#
fluffy 初级会员 发表于 2019-5-17 17:07:14 | 只看该作者
Fuller 发表于 2019-5-16 19:42
因为连续点击的时候会下载多个结果文件,首先文件与文件之间的重复是不可避免的。但是,同一个文件内部的 ...

就是有文件和文件会重复,这个要自己手动删除吗。那xpath的定位有问题吗?就这种不能每个都点开的情况
举报 使用道具
12#
fluffy 初级会员 发表于 2019-5-17 17:21:33 | 只看该作者
Fuller 发表于 2019-5-16 19:42
因为连续点击的时候会下载多个结果文件,首先文件与文件之间的重复是不可避免的。但是,同一个文件内部的 ...

有没有办法设置每一次翻页只点击一次更多,因为我发现就点一次这个页面上所有评论完整版就都会跳出来
举报 使用道具
13#
Fuller 管理员 发表于 2019-5-17 17:24:08 | 只看该作者
fluffy 发表于 2019-5-17 17:07
就是有文件和文件会重复,这个要自己手动删除吗。那xpath的定位有问题吗?就这种不能每个都点开的情况
...

文件与文件之间一定会有重复,1,导出数据以后,在excel中可以把重复内容标记出来,首先可以根据内容列进行标记
2,然后进行排序,这样就能把重复内容排在一起,排在一起方便删除重复的。
3,再做一次重复内容标记,但是不是根据内容,而是根据别的内容,比如,评论人+评论时间
4,然后进行排序,这样就能把重复内容排在一起,排在一起方便删除重复的。这个时候要判断一下。如果一条内容点击查看到了更多内容,那么重复信息中的第一行的内容是点击前的,内容更少,第二行或者更多重复行是点击后的,内容更多。就把内容少的删除。

用多列组合在一起判断重复项可能不太准确,那么就先把多列合成一列,就像这个教程说的《Excel多列标记重复项小技巧


举报 使用道具
14#
Fuller 管理员 发表于 2019-5-17 17:26:39 | 只看该作者
fluffy 发表于 2019-5-17 17:21
有没有办法设置每一次翻页只点击一次更多,因为我发现就点一次这个页面上所有评论完整版就都会跳出来
...

xpath中增加一个条件  (你写的xpath)[1],这样就只定位到1个节点,你可以试试,把xpath写好以后,放在这里测试


举报 使用道具
15#
fluffy 初级会员 发表于 2019-5-18 00:36:01 | 只看该作者
Fuller 发表于 2019-5-17 17:26
xpath中增加一个条件  (你写的xpath)[1],这样就只定位到1个节点,你可以试试,把xpath写好以后,放在这 ...

恩恩,我用了你的第二个方法可以了。所有的详细内容都能展开!谢啦
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 05:49