gz51837844 管理员 发表于 2017-7-31 21:02:44 | 显示全部楼层
没有做翻页部分, 需要用python去自己实现
举报 使用道具
gilmechen 中级会员 发表于 2017-12-1 16:22:20 | 显示全部楼层
怎么把爬虫路线的xslt加入到py脚本中呢,我需要实现翻页抓取lazyload的动态网页。现在在MS用滚屏动作和DS的延迟抓取都没有办法抓到网页上的所有条目,考虑写py脚本来实现。可以帮我看一下吗?示例网址:https://www.mercari.com/jp/searc ... mp;status_on_sale=1
举报 使用道具
umsung 高级会员 发表于 2017-12-1 16:34:07 | 显示全部楼层
本帖最后由 umsung 于 2017-12-1 16:44 编辑
gilmechen 发表于 2017-12-1 16:22
怎么把爬虫路线的xslt加入到py脚本中呢,我需要实现翻页抓取lazyload的动态网页。现在在MS用滚屏动作和DS的 ...

不需要用py脚本来实现,直接用爬虫软件制作规则就可以实现翻页抓取,需要用到样例复制翻页,采集的时候在ds打数机内开启滚屏设置,采集的时候就会加载出动态页面。在ds打数机中-配置-》滚屏参数中设置,把次数设置大于0就会滚屏 ,把滚屏速度调慢一点。
举报 使用道具
gilmechen 中级会员 发表于 2017-12-1 18:03:10 | 显示全部楼层
umsung 发表于 2017-12-1 16:34
不需要用py脚本来实现,直接用爬虫软件制作规则就可以实现翻页抓取,需要用到样例复制和翻页,采集的时候 ...

我把滚屏速度设成0(应该是最慢了吧)还是只能抓到十几条数据
举报 使用道具
wangyong 版主 发表于 2017-12-1 18:05:01 | 显示全部楼层
gilmechen 发表于 2017-12-1 18:03
我把滚屏速度设成0(应该是最慢了吧)还是只能抓到十几条数据

这种情况是要把滚屏次数设大,数字越大滚屏滚的越多
举报 使用道具
gilmechen 中级会员 发表于 2017-12-1 18:05:09 | 显示全部楼层
gilmechen 发表于 2017-12-1 18:03
我把滚屏速度设成0(应该是最慢了吧)还是只能抓到十几条数据

翻页我可以用集搜客实现,但是因为页面信息抓不全所以才考虑用python,然而用python的话又要写代码实现其他细节
举报 使用道具
gilmechen 中级会员 发表于 2017-12-1 18:07:48 | 显示全部楼层
wangyong 发表于 2017-12-1 18:05
这种情况是要把滚屏次数设大,数字越大滚屏滚的越多

滚屏次数设成50也没有明显效果
举报 使用道具
umsung 高级会员 发表于 2017-12-1 18:13:38 | 显示全部楼层
本帖最后由 umsung 于 2017-12-1 18:21 编辑

1,滚屏速度可以设置为可正可负的整数,-1、0和1相同,表示不变速。< -1 表示降低速度,> 1 表示提高速度。
2,把打数机-》配置中把延迟抓取和超时时长设置大一些
3,观察抓取不全的原因是因为滚屏动态加载而采集不全还是规则设置有问题,这种网页一般只要规则做对了,把滚屏次数设置大一些,滚屏速度设置慢一点就可以采集全。

4,因为这种动态加载页面是延迟加载的,要滚屏到那里才会加载,才能采集的到。所以在MS谋数台定义规则的时候,要先手工滚屏到底,看到内容节点都加载出来了,选择菜单 规则-》刷新页面结构,再开始做规则,点击测试的时候才能看到是否能采集完全。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-16 16:53