假如我需要抓取的页面地址为:

www.baidu.com/1
www.baidu.com/2
www.baidu.com/3
www.baidu.com/4
www.baidu.com/5
……
www.baidu.com/9999
www.baidu.com/10000


那么我可以添加
www.baidu.com/(*)

这样的线索吗??还是我必须一行一个?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-1-22 15:45

沙发
Fuller 管理员 发表于 2017-1-22 15:31:14 | 只看该作者
在excel中,添加一行http://www.baidu.com/1 ,然后往下复制,就能自动增加后面数字,等把所有网址构造好以后,在会员中心找到这个规则,添加线索,把这个excel导入
举报 使用道具
板凳
448016097 初级会员 发表于 2017-1-22 15:41:11 | 只看该作者
Fuller 发表于 2017-1-22 15:31
在excel中,添加一行http://www.baidu.com/1 ,然后往下复制,就能自动增加后面数字,等把所有网址构造好以 ...

嗯嗯  好的谢谢  我就是这样添加的  只不过我觉得 www.baidu.com/(*)    定义*的范围为1-10000可能会更方便些

举报 使用道具
地板
Fuller 管理员 发表于 2017-1-22 15:45:47 | 只看该作者
448016097 发表于 2017-1-22 15:41
嗯嗯  好的谢谢  我就是这样添加的  只不过我觉得 www.baidu.com/(*)    定义*的范围为1-10000可能会更方 ...

目前我们没有专门的地址生成工具,对于一些复杂的网址,比如,中间某个参数变化,需要在excel中做拼接。目前都是依赖于excel的功能和函数
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-3 21:24