本帖最后由 huang3878221 于 2018-5-4 10:39 编辑

页面类似如下:http://www.syfc.com.cn/work/xjlp/door_list.jsp?houseid=465089
使用了“样例复制映射”的方式进行抓取,但是依然抓取不全。是我挑选的样例不全,还是网页本身无法实现样例复制映射?
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2018-8-31 22:15

沙发
huang3878221 中级会员 发表于 2018-5-4 11:13:56 | 只看该作者
已解决!!!
举报 使用道具
板凳
gjface 新手上路 发表于 2018-8-31 21:06:13 | 只看该作者
楼主是如何解决的,最近在爬去公共资源交易中心的内容,求问
举报 使用道具
地板
Fuller 管理员 发表于 2018-8-31 22:15:50 | 只看该作者
gjface 发表于 2018-8-31 21:06
楼主是如何解决的,最近在爬去公共资源交易中心的内容,求问

集搜客网络爬虫可以抓取网页某个指定区域中的所有网址,生成下级线索。也就是说,目的是用来生成下级线索,而不是当成内容进行抓取。

生成下级线索的规则是在“爬虫路线”工作台上定义的,这类线索称为“样式线索”



点击“样式线索”以后,在下面空白区域点击鼠标右键,可以创建很多样式输入框。其中“网址样式”应该填入网址的前部,用于做匹配的。假设网页上的网址都像这样:http://www.syfc.com.cn/work/xjlp/door_list.jsp?houseid=465089 ,那么,如果网址样式填写 http://www.syfc.com.cn/work/ ,那么,就能把所有 http://www.syfc.com.cn/work/xxx  样子的网址都采集到,用于生成下级线索。

指定“抓网址提取区”和填写网址样式,都可以在DOM树上选择合适的DOM节点,点击鼠标右键,用菜单做映射


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 17:33