15751778365 初级会员 发表于 2022-2-17 23:38:49 | 显示全部楼层
之前用过这个快捷方式采集顺利完成,但是刚才使用时提示采集完成后打包数据后界面显示已采集0条数据。重复了好几次都是这个结果,输入的网址商品下是有评论的。
举报 使用道具
Fuller 管理员 发表于 2022-2-18 09:04:24 | 显示全部楼层
15751778365 发表于 2022-2-17 23:38
之前用过这个快捷方式采集顺利完成,但是刚才使用时提示采集完成后打包数据后界面显示已采集0条数据。重复 ...

1. 阿里系列的网站反爬很严重,首先要在爬虫浏览器中预先登录天猫
2. 爬虫窗口要尽量放大到最大,动态内容跟窗口大小很有关系
3. 要观察一下爬虫浏览器,页面是否加载出来了,有没有看到采集评论时自动翻页

你要采集的网址是什么?发出来我测试一下
举报 使用道具
谢蜜胖 初级会员 发表于 2022-5-23 13:58:32 | 显示全部楼层
会啥会停止采集的
举报 使用道具
Fuller 管理员 发表于 2022-5-23 15:36:05 | 显示全部楼层
谢蜜胖 发表于 2022-5-23 13:58
会啥会停止采集的

淘宝和天猫是很难采的,采集几条以后会出验证码。为了能采集多一些,采集之前先在爬虫浏览器上登录淘宝/天猫,登录好再采集。

如果采集页数多一点,就会出验证码,如果当时瞅着屏幕看到了,刚快拉一下滑块,如果没有看到,就采集停止了
举报 使用道具
15131629441 新手上路 发表于 2022-9-21 13:16:33 | 显示全部楼层
这样的网址链接是不是就不能采集评论了?https://detail.tmall.com/item.htm?abbucket=2&id=625653110403&ns=1&spm=a230r.1.14.19.5e176dbcCOIOLd
举报 使用道具
gz51837844 管理员 发表于 2022-9-21 15:03:39 | 显示全部楼层
15131629441 发表于 2022-9-21 13:16
这样的网址链接是不是就不能采集评论了?https://detail.tmall.com/item.htm?abbucket=2&id=625653110403&n ...

目前的天猫评论快捷采集规则确实不支持这条网址,需要修改采集规则。
修改完成后,我们会在这里跟帖通知。
举报 使用道具
gz51837844 管理员 发表于 2022-9-21 16:53:05 | 显示全部楼层
15131629441 发表于 2022-9-21 13:16
这样的网址链接是不是就不能采集评论了?https://detail.tmall.com/item.htm?abbucket=2&id=625653110403&n ...

这种天猫商品页面的评论可以采集了,不过由于页面上没有提供翻页功能,只能采集当前页。
QQ截图20220921165131.png
举报 使用道具
wen2019 新手上路 发表于 2023-1-13 16:31:52 | 显示全部楼层
为什么打包出来的数据根本打不开
举报 使用道具
wen2019 新手上路 发表于 2023-1-13 16:37:09 | 显示全部楼层
wen2019 发表于 2023-1-13 16:31
为什么打包出来的数据根本打不开

下载了之后打开显示文件损坏

举报 使用道具
gz51837844 管理员 发表于 2023-1-13 16:48:53 | 显示全部楼层
wen2019 发表于 2023-1-13 16:37
下载了之后打开显示文件损坏

正常情况下,下载后是zip格式的压缩文件,解压后可以看到目录下的excel格式的文件,使用微软office或者wps office都可以打开。
如果你的电脑上提示文件损坏,则可能的原因如下:
1. 电脑上运行的安全卫士之类的软件因为误判而拦截了文件的下载,造成文件下载不全。
这种情况可以关闭安全卫士之后再尝试下载。
2. 可以试试换一个浏览器,在其它浏览器上登录后下载文件
如果以上2点尝试后问题没有得到解决,请加入技术支持QQ群:661795153, 连续管理员协助解决。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 19:36