样例网址:https://www.indiegogo.com/projec ... reworkout#/comments
要抓这个项目的评论信息,但是有的评论的回复不止一个,所以应该要用模拟点击,然后对整个评论做翻页,但是按照这样做的话,没有多个回复的评论的回复就抓不下来,这该怎么弄?

举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2017-1-4 09:57

沙发
Fuller 管理员 发表于 2016-12-30 10:27:48 | 只看该作者

是这种吗?动作前的抓取规则中也定义整理箱,是不是就不怕漏抓了?
举报 使用道具
板凳
saly123 中级会员 发表于 2016-12-30 14:04:35 | 只看该作者
Fuller 发表于 2016-12-30 10:27
是这种吗?动作前的抓取规则中也定义整理箱,是不是就不怕漏抓了?

是连续动作之前也抓评论和回复,连续动作之后也抓评论和回复,是这个意思吗?
举报 使用道具
地板
Fuller 管理员 发表于 2016-12-30 20:34:47 | 只看该作者
saly123 发表于 2016-12-30 14:04
是连续动作之前也抓评论和回复,连续动作之后也抓评论和回复,是这个意思吗?
...

是这个意思
举报 使用道具
5#
saly123 中级会员 发表于 2017-1-3 14:13:05 | 只看该作者

但是连续动作之前抓评论和回复的话,就抓不全了。因为多余的回复需要点击展开后才能继续抓。还是说两边都抓,然后拼一下,但是这样的话会错开,不一一对应了。
举报 使用道具
6#
Fuller 管理员 发表于 2017-1-3 14:54:28 | 只看该作者
saly123 发表于 2017-1-3 14:13
但是连续动作之前抓评论和回复的话,就抓不全了。因为多余的回复需要点击展开后才能继续抓。还是说两边都 ...

两边都抓,拼在一起,根据发布时间把他们的先后顺序排列出来
举报 使用道具
7#
saly123 中级会员 发表于 2017-1-3 15:41:01 | 只看该作者
Fuller 发表于 2017-1-3 14:54
两边都抓,拼在一起,根据发布时间把他们的先后顺序排列出来

两边都抓,内容有重复的。
举报 使用道具
8#
saly123 中级会员 发表于 2017-1-3 15:42:33 | 只看该作者
saly123 发表于 2017-1-3 15:41
两边都抓,内容有重复的。

还有,发布时间指的是什么时间,是数据抓下来的时间还是生成的XML文件

举报 使用道具
9#
Fuller 管理员 发表于 2017-1-3 17:36:00 | 只看该作者
saly123 发表于 2017-1-3 15:42
还有,发布时间指的是什么时间,是数据抓下来的时间还是生成的XML文件

...

重复过滤比较好做,在excel中,根据内容排一下序,把相同的内容删除。如果存入数据库,就更容易实现了。

时间是指发布时间,比如 1 month ago,这样的时间,这个网站的时间不是 2015-12-18 00:00:00 这样的格式,要排序确实有些麻烦。但是,抓取过程中无法避免重复,只有依靠数据处理阶段做一些数据清洗工作
举报 使用道具
10#
saly123 中级会员 发表于 2017-1-4 09:31:59 | 只看该作者
Fuller 发表于 2017-1-3 17:36
重复过滤比较好做,在excel中,根据内容排一下序,把相同的内容删除。如果存入数据库,就更容易实现了。
...

怎么将抓取的数据存入数据库?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 09:30