问:模拟点击与层级设置分别适用于什么时候呢?感觉很相似啊

答:两个完全不同的概念,层级抓取就是一层层深入进去抓取内容,比如,先抓类别,再抓列表,再抓详情,再抓评论。各层可以各自独立运行DS打数机,相互之间没有前后约束。但是你可能说:没有抓列表的时候,详情就没有线索可用。虽然事实是这样,但是,两级分别运行也没有错,顶多是详情那一级在等着。
模拟点击就不一样了,一定要点了上一级就进入下一级。模拟点击是不符合爬虫的普通爬行原则的,但是动态网页也无法分开爬,只能用模拟点击。

问:模拟点击是只需要运行第一级规则就可以了么?然后层级是从一个界面到下一级界面?
我的理解是,比如说抓取淘宝商品详情里头的评论,要先点击“评论”之后页面才会跳到评论列表,原来默认的是图文详情,点击的这个过程就叫模拟点击。

答:是的,淘宝采用了动态技术,只有采用模拟点击才能看到评论。评论列表没有自己独立的网址,只能用模拟点击,从一级直接跳到二级。如果有自己的独立网址,用层级比较好,灵活,可以分布在爬虫群上快速抓取,参看:http://www.gooseeker.com/doc/article-197-1.html

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-12-16 23:40

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:39