集搜客怎样爬取同一网站上不同网页上的内容?这些网页结构类似。
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2017-3-29 14:58

沙发
xandy 论坛元老 发表于 2017-3-29 14:10:31 | 只看该作者
举报 使用道具
板凳
南桥几经秋 新手上路 发表于 2017-3-29 14:38:58 | 只看该作者
xandy 发表于 2017-3-29 14:10
参考教程:《怎么在同一个主题名下建立多个规则》

那如果爬取的网页数量很多呢,类似于爬职位招聘信息的那种?谢谢!
举报 使用道具
地板
Fuller 管理员 发表于 2017-3-29 14:51:11 | 只看该作者
南桥几经秋 发表于 2017-3-29 14:38
那如果爬取的网页数量很多呢,类似于爬职位招聘信息的那种?谢谢!

首先,你应该想办法用一个抓取规则就能抓取所有网页,这样是最省事的。把其他网址加入这个规则的方法是在会员中心里面做。参看《如何管理规则的线索

你先用一个规则做实验,如果遇到DS打数机报告说超时,那就是这个规则的适应性不够,再调整。
举报 使用道具
5#
Fuller 管理员 发表于 2017-3-29 14:52:54 | 只看该作者
如果有失败的,按照这个教程《加载和分析失败线索》,就能看到在哪个字段失败了,想办法微调规则,比如定位偏好,让适应性更高。

如果遇到解决不了的问题,就发帖问
举报 使用道具
6#
南桥几经秋 新手上路 发表于 2017-3-29 14:58:28 | 只看该作者
Fuller 发表于 2017-3-29 14:52
如果有失败的,按照这个教程《加载和分析失败线索》,就能看到在哪个字段失败了,想办法微调规则,比如定位 ...

好,谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 03:22