我是才进门的集搜客,想实现以下功能,请教如何设计每个层级的和规则?第一层是代码列表页面,代码都链接到第二层页面。第二层页面是过渡页,只要点击其中的“财务分析”,找到第三层页面中的数据。问题是第一页的每个代码下都只点击“财务分析”。进入第层中抓取其中的数据。请求各位大侠指点!抱歉,图片无法贴上。
举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2016-9-25 20:04

沙发
lyuyong 初级会员 发表于 2016-9-25 12:33:31 | 只看该作者

举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-25 12:42:03 | 只看该作者
要做这样的实验:
1)点击第一层的代码,会不会弹出新的窗口来显示第二级?
2)在第一层,每个代码有没有独立的网址,就是HTML A元素下有没有href

如果在第一层的代码没有独立的网址,而且还在弹出窗口中显示第二级,就得用飞掠模式抓弹窗内容:http://www.gooseeker.com/doc/thread-2221-1-1.html

如果代码都有独立的网址,那就好办了,不用管是否弹窗,就用个普通的层级抓取就可以了。http://www.gooseeker.com/doc/article-75-1.html
举报 使用道具
地板
lyuyong 初级会员 发表于 2016-9-25 14:45:57 | 只看该作者
第二层级抓取财务分析得到这个地址
http://f10.eastmoney.com/f10_v2/FinanceAnalysis.aspx?code=sh600722
是不是用这个做下级线索,编第三级规则?
举报 使用道具
5#
Fuller 管理员 发表于 2016-9-25 14:49:59 | 只看该作者
lyuyong 发表于 2016-9-25 14:45
第二层级抓取财务分析得到这个地址
http://f10.eastmoney.com/f10_v2/FinanceAnalysis.aspx?code=sh600722
...

是的

关键是第二级有没有独立网址?能不能用第一级抓到?
举报 使用道具
6#
lyuyong 初级会员 发表于 2016-9-25 14:56:16 | 只看该作者
第一级抓到的是第二级是独立网址
600908
http://quote.eastmoney.com/sh600908.html
600722
http://quote.eastmoney.com/sh600722.html
603843
http://quote.eastmoney.com/sh603843.html
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-25 14:59:34 | 只看该作者
lyuyong 发表于 2016-9-25 14:56
第一级抓到的是第二级是独立网址
600908
http://quote.eastmoney.com/sh600908.html

这样很好,做普通的三级抓取

而且网址使用了代码,可以直接构造下级网址
举报 使用道具
8#
lyuyong 初级会员 发表于 2016-9-25 15:14:30 | 只看该作者
第三有只抓到下面一个代码的数据组,打数机就提示”匹配失败“了,哪里出问题了?
列表
http://f10.eastmoney.com/f10_v2/FinanceAnalysis.aspx?code=sh600908
成长能力指标16-06-3016-03-3115-12-3115-06-3014-12-3113-12-3112-12-3111-12-3109-12-31
归属净利润同比增长(%)10.50---9.97--0.036.9819.01----
扣非净利润同比增长(%)3.87--0.86---2.594.8716.75----
归属净利润滚动环比增长(%)5.390.00-9.970.000.036.98------
扣非净利润滚动环比增长(%)------------------
毛利率(%)------------------
举报 使用道具
9#
lyuyong 初级会员 发表于 2016-9-25 15:15:11 | 只看该作者
第三有只抓到下面一个代码的数据组,打数机就提示”匹配失败“了,哪里出问题了?
列表
http://f10.eastmoney.com/f10_v2/FinanceAnalysis.aspx?code=sh600908
成长能力指标16-06-3016-03-3115-12-3115-06-3014-12-3113-12-3112-12-3111-12-3109-12-31
归属净利润同比增长(%)10.50---9.97--0.036.9819.01----
扣非净利润同比增长(%)3.87--0.86---2.594.8716.75----
归属净利润滚动环比增长(%)5.390.00-9.970.000.036.98------
扣非净利润滚动环比增长(%)------------------
毛利率(%)------------------
举报 使用道具
10#
lyuyong 初级会员 发表于 2016-9-25 15:18:29 | 只看该作者

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 18:01