http://www.cuaa.net/paihang,这个网页怎么抓取历年的所有排行榜啊?不知道该咋做规则

举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2019-5-6 12:28

沙发
Fuller 管理员 发表于 2019-5-6 12:28:58 | 只看该作者
要采集这个网站,要做好多层规则,参看《采集网址做层级采集》,我看到每个省份,每个专业类别,都能点进去,要用层级采集规则。

而在一个网页上要采集一个列表,应该参看《采集列表数据》。

这个网站规则可能会比较难做,因为这个网站不像京东这样有结构的,这个网站上的表格都是自由嵌入文字间的,看起来很标准,实际上会有结构上的不同,规则就不好做
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 14:36