管理员好!我的主题名是stock_price,规则中做了层级抓取,调用下级主题stock_revenue。之前是正常的。后来在两级主题中都补充了一些规则,记得没有做别的。现在使用stock_price抓取时,下级主题stock_revenue不能生成线索,没找到原因,麻烦帮看下,谢谢!
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-12-22 10:30

沙发
xandy 论坛元老 发表于 2016-12-21 14:22:22 | 只看该作者
本帖最后由 xandy 于 2016-12-21 14:42 编辑

该规则和其他规则之间的层级关系一定好先捋清,然后爬虫路线线索的主题名那边要写对了。
测试了下你的规则,提示是没有找到上级节点,你的规则不应该给price做stockName的定位,很显然income_url就不在这个范围里头。要么不做这个定位,要么做过一个合适的。

另外,income_url的xpath你是这样写的:
  1. preceding-sibling::div[position()=1]/div/div/div/ul[position()=6]/li[position()=5]/a[contains(./text(),'综合损益表')]/@href
复制代码
搜索xpath,根本定位不到。
可以这样修改:
  1. //*[@class='stockLinks']/ul[position()=6]/li[position()=5]/a/@href
复制代码
举报 使用道具
板凳
xandy 论坛元老 发表于 2016-12-21 14:34:19 | 只看该作者
还有一些细碎的问题:
1、不用给每个字段都勾选关键内容,company_code、stockPrice和income_url都不用勾成关键内容,关键内容的作用你可以到教程版块搜索该关键词了解;
2、”沪深股市股票页面标志“这个不用自定义xpath,正常做内容映射就行了,这个标志不懂你自己定的是什么规则,所以这里不做修改。
按上面修改之后,测试结果恢复正常。
举报 使用道具
地板
jfstip 初级会员 发表于 2016-12-22 10:03:23 | 只看该作者
xandy 发表于 2016-12-21 14:22
该规则和其他规则之间的层级关系一定好先捋清,然后爬虫路线线索的主题名那边要写对了。
测试了下你的规则 ...

把定位标志去掉了就好了,请问如果在整理箱的最顶端加定位标志,整理箱内所有的抓取内容都必须在定位标志对应的节点内是吗?
举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-22 10:05:55 | 只看该作者
jfstip 发表于 2016-12-22 10:03
把定位标志去掉了就好了,请问如果在整理箱的最顶端加定位标志,整理箱内所有的抓取内容都必须在定位标志 ...

是,以它为基准点。
参看教程:《xpath基础知识
举报 使用道具
6#
jfstip 初级会员 发表于 2016-12-22 10:30:40 | 只看该作者
xandy 发表于 2016-12-22 10:05
是,以它为基准点。
参看教程:《xpath基础知识》

谢谢!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 02:59