:如何让翻页抓取和分层抓取同时运行呢?

:用集搜按钮,或者用crontab.xml(参看:http://www.gooseeker.com/doc/article-112-1.html

:翻页只能抓去到游记的题目,但是还需要题目下的游记内容和游记评论
both_paging_level.jpg

:集搜介绍:http://www.gooseeker.com/doc/article-70-1.html
做了两级抓取没有? 参考:http://www.gooseeker.com/doc/article-75-1.html
什么是多级抓取,参考这个:http://www.gooseeker.com/cn/node ... v4/multilayers.html



:还没做 但是明白 多级抓取是在一个页面上吧?还要翻页怎么办呢


:翻页是第一级做的事情,那时候不会抓取第二级的内容,只是把第二级的网址抓下来。第二级要单独启动,不会自动从第一级过渡到第二级


:那怎么办呢?是不是就不要再翻页了,就手动每一页做多级抓取?


:不考虑第二级,只有翻页,做过没有?

:如果做多级抓取的同时不能翻页,那我就不需要做翻页了呀。您的意思是先把翻页做好了再来请教是吧?


:这些基本抓取能力GooSeeker都有,你不用担心,只需要一步步去尝试更多能力。做好翻页,测试好了,在第一级加上第二级只是勾一个checkbox设置一下就可以了。
大型的网络爬虫,都是各级分开的,可以运行在不同的计算机上,甚至可以放在不同地方,不会一口气从第一级爬到第二级,他们是分开的,第一级只是给第二级准备网址。第二级在哪运行,什么时候运行,第一级是管不到的

举报 使用道具
| 回复

共 0 个关于本帖的回复 最后回复于 2015-10-12 00:07

您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 08:52