这个网页:https://sf-item.taobao.com/sf_it ... qq-pf-to=pcqq.group
这个网页没有办法获取网页结构
没有办法进行二级爬虫了
这个是第一级 [img]file:///C:\Users\work\AppData\Roaming\Tencent\TIM\Temp\[5UQ[BL(6~BS2JV6W}N6[%S.png[/img]https://sf.taobao.com/item_list.htm?spm=a213w.7398504.filter.90.1e1d12e09a5Bfz&auction_source=0&city=%D5%D8%C7%EC&sorder=2&st_param=-1&auction_start_seg=-1

这个是第二级 [img]file:///C:\Users\work\AppData\Roaming\Tencent\TIM\Temp\[5UQ[BL(6~BS2JV6W}N6[%S.png[/img]https://sf-item.taobao.com/sf_item/586680783686.htm?spm=a213w.7398504.paiList.3.187612e0olKpHb

网页结构一直显示不了
加载20190215111445.jpg




举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2019-2-15 11:29

Fuller 管理员 发表于 2019-2-15 11:24:12 | 显示全部楼层
如果遇到这种情况,可以不用等待
关闭20190215111704.png
点击这个X号,关闭,就不用等待,但是要手工刷新显示DOM。方法是使用菜单:规则-》刷新页面结构。做了这个操作以后,就能定义规则了。

这种网页,上面有js脚本不断执行,所以爬虫会等待很久,DS打数机会等到1分钟超时了才抓取。但是,可以用不等待方式,DS打数机菜单 配置-》定时器触发,勾上,就不等待

举报 使用道具
汽车论坛 中级会员 发表于 2019-2-15 11:25:11 | 显示全部楼层
Fuller 发表于 2019-2-15 11:24
如果遇到这种情况,可以不用等待

点击这个X号,关闭,就不用等待,但是要手工刷新显示DOM。方法是使用菜单 ...

规则中的关键内容还要不要勾?我发现勾关键内容,就会停止 不勾关键 就是爬空白
举报 使用道具
Fuller 管理员 发表于 2019-2-15 11:29:10 | 显示全部楼层
汽车论坛 发表于 2019-2-15 11:25
规则中的关键内容还要不要勾?我发现勾关键内容,就会停止 不勾关键 就是爬空白
...

关键内容还是要设置的,防止漏数据

前面说了,对这种网页还要设置定时器触发,这就是不再等待,做了强制中断,也许会漏数据,那么可以根据网速情况增加额外延迟,一种方法是用开启自动滚屏,另一种方法,用菜单 配置-》延迟抓取,人工添加几秒钟的等待

还有一点要注意,是做规则的时候:
这种网页上的js脚本是连续运行的,有可能会持续不断地修改DOM结构,如果被修改的部分刚好是你要采集的内容,那么要禁止在做规则的时候做修改,使用菜单 规则-》冻结页面,就禁止了动态修改。做完规则以后可以重新解除冻结

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:50