11#
xandy 论坛元老 发表于 2017-4-9 18:13:44 | 只看该作者
本帖最后由 xandy 于 2017-4-9 18:17 编辑
ovna123 发表于 2017-4-9 17:50
"以板块的名称作为标志"是什么意思?

先看看自定义xpath的教程,可以通过版块的关键词的进行定位,自定义xpath能够精确定位到你要抓取的版块。
例如:
  1. //*[class='xxx'][contains(.//text(),'变更记录')]
复制代码


举报 使用道具
12#
maomao 论坛元老 发表于 2017-4-9 18:35:39 | 只看该作者
ovna123 发表于 2017-4-9 16:54
企业信息终版change

这个规则我加载成功了。

其他板块也像这个变更记录一样做法,每个板块一个整理箱。所谓的板块名字就是“基本信息”,“企业关系”,“主要人员”,为了能够定位准确,在每个整理箱中专门增加一个抓取内容,用自定义Xpath,把板块名字用上,就像Xandy说的方法。专门用这个抓取内容为整理箱定位,就不会搞混各个板块
举报 使用道具
13#
ovna123 金牌会员 发表于 2017-4-9 19:01:35 | 只看该作者
嵌套容器中中间某个容器节点能不能用专用定位,为什么信息1选了专用定位,重新加载发现自动弃用了。
举报 使用道具
14#
ovna123 金牌会员 发表于 2017-4-9 21:30:52 | 只看该作者
为什么“企业信息终版change“测试只能抓到一条记录?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 05:01