采集http://www.jszb.com.cn/jszb/YW_i ... spx?categoryNum=012 网站的信息,二级线索为0,我个人认为可能我一级线索的下级线索处设置问题,我检查了几次,应该没问题啊,唯一的就是二级目录点开来是一个独立的网址,然后我做标注的,步骤页对,就是不知道哪里出问题了。主题名:省建设工程1,二级规则:省建设工程2,请指教

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
| 回复

共 6 个关于本帖的回复 最后回复于 2017-7-18 14:08

沙发
shenzhenwan10 金牌会员 发表于 2017-7-17 18:29:52 | 只看该作者
你抓取什么内容做为第二级的线索?
如下图:

href属性里没有放真实的网址, onclick里可以拼接出网址
你可以用以下方法中的一种:
1. 用连续动作点击, 采集弹出的窗口中内容
2. 用自定义xpath从onclick里拼出网址, 作为第二级的线索


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报
板凳
jiangsuxincheng 初级会员 发表于 2017-7-18 11:36:34 | 只看该作者
请问有没有类似这种的教程案例了
举报
地板
shengchengx 金牌会员 发表于 2017-7-18 11:53:46 | 只看该作者
jiangsuxincheng 发表于 2017-7-18 11:36
请问有没有类似这种的教程案例了

onclick网址链接获取问题
可以看下这个,跟你的问题差不多。也可以用连续动作来做的

举报
5#
wangyong 版主 发表于 2017-7-18 11:57:44 | 只看该作者
举报
6#
jiangsuxincheng 初级会员 发表于 2017-7-18 13:14:48 | 只看该作者
这种的我用连续动作怎么做了,比如我第一级规则省建设工程1,我对采集的标题日期等做了映射,翻页,然后我做了@href 网址的映射,做连续动作的话是直接在这个规则里做个点击的动作吗,然后再做二级规则里面的标注映射吗?   或者说还是直接去掉@href网址的映射,直接在一级规则里面做连续动作点击。
如果这么做的话最终爬虫二级网址的数据也是随着一级规则的采集,自动采集吗
举报
7#
shengchengx 金牌会员 发表于 2017-7-18 14:08:18 | 只看该作者
jiangsuxincheng 发表于 2017-7-18 13:14
这种的我用连续动作怎么做了,比如我第一级规则省建设工程1,我对采集的标题日期等做了映射,翻页,然后我 ...

直接在一级规则中连续动作,二级规则会随着一级规则一起运行的。

举报
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-16 23:15