本帖最后由 jiayuqin 于 2017-9-4 13:56 编辑

像这样的网址我要采集二级目录,但是我无法找到二级网址的节点,我应该怎么去做采集采集二级目录呢?求指教
http://www.xuzhoucredit.gov.cn/x ... xzcfList.do?deptid=
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-9-4 17:32

沙发
环境监测 中级会员 发表于 2017-9-4 14:11:33 | 只看该作者
1,如果页面有独立网址可以用层级采集抓取二级页面的数据,参考《如何深入多层级网页采集数据》
2,如果没有网址,就需要用连续动作去点击进入二级页面,从而抓取二级页面的数据,连续点击动作参考连续动作参考《连续动作》
举报 使用道具
板凳
jiayuqin 高级会员 发表于 2017-9-4 14:25:47 | 只看该作者
采集的网址是onclick  只是网址中的一个片段
举报 使用道具
地板
环境监测 中级会员 发表于 2017-9-4 14:43:32 | 只看该作者
属性里面只有onclick,没有href属性,说明没有独立网址,这种是抓不到网址了。采集方法是用飞掠模式,需要购买旗舰版后才可以使用,它主要是用于采集没有独立网址的弹窗网页,参考《飞掠模式:追踪弹窗采集数据》
1,通过在第一级规则的连续动作里设置点击动作,
2,第二级规则采集点击后的页面信息,最后通过运行第一级规则,就会自动点击并采集弹出页面的信息,采完会关闭窗口再继续点击第二个,从而逐个点击完成二级页面的数据采集。
举报 使用道具
5#
jiayuqin 高级会员 发表于 2017-9-4 14:46:57 | 只看该作者
不是弹窗,只是采集下来的网址是完整网址的一个片段加上前面的域名就是完整网址
举报 使用道具
6#
环境监测 中级会员 发表于 2017-9-4 14:50:34 | 只看该作者

1、如果网址是作为内容采集的话,是原样采集的。在这种情况下,可以通过在规则写xpath采集绝对地址,也可以后期excel中处理。

2、如果是作为下级线索,可以直接用,爬虫生成下级线索的时候会把网址补齐。
举报 使用道具
7#
jiayuqin 高级会员 发表于 2017-9-4 15:14:22 | 只看该作者
现在遇到的问题就是作为内容采集这个我可以采集下来处理,但是作为下级线索,爬虫的时候会报错,因为没有把网址补齐
举报 使用道具
8#
bowieD 金牌会员 发表于 2017-9-4 15:17:59 | 只看该作者
本帖最后由 bowieD 于 2017-9-4 15:24 编辑

因为网页属性里面只有onclick,没有href属性,不能用层级采集去抓取第二级数据。
1,可以用连续动作,上面有介绍到,参考《连续点击动作》
2,,如果连续动作规则不好做,也可以自己构造网址,只要把onclick的内容抓下来,在excel中很容易构造网址,然后用会员中心的添加线索功能,把构造的网址成批添加到下层规则中。也就是说,当前这个抓取规则不要设置 下层线索《如何构造网址?》


举报 使用道具
9#
jiayuqin 高级会员 发表于 2017-9-4 16:38:18 | 只看该作者
我想问下,我已经把onclick的内容抓下来了,并且网址页构造出来,那么我用添加线索功能添加到下层规则中,不需要对下层页就是二级目录做规则了吗,那网址导进去添加到下层怎么知道采集下层网址的哪些内容呢,还是爬虫自动识别下层采集所有数据吗
举报 使用道具
10#
环境监测 中级会员 发表于 2017-9-4 16:42:04 | 只看该作者
在二级规则需要映射想要抓取的内容,运行爬虫就会自动抓取每一条线索中要抓取的内容
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-11 00:00