本帖最后由 kartik 于 2018-5-27 22:24 编辑

如下:




规则名:qichacha_gd    下级线索:qichacha_gd_detail

测试数据:深圳市华侨(康桥)书院、 深圳市福田区新都文具
问题:点击测试按钮,是正常的,生成xml文件的时候数据有误。

谢谢大家~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2018-5-27 23:01

沙发
shenzhenwan10 金牌会员 发表于 2018-5-27 09:27:23 | 只看该作者

加载你的规则,规则样本页面无法显示,暂时不能分析规则

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
板凳
kartik 初级会员 发表于 2018-5-27 09:32:36 | 只看该作者
shenzhenwan10 发表于 2018-5-27 09:27
加载你的规则,规则样本页面无法显示,暂时不能分析规则

他可能是用了首页的cookie,您先访问加载qichacha.com,再访问我的链接就可以了。
举报 使用道具
地板
Fuller 管理员 发表于 2018-5-27 10:57:40 | 只看该作者
kartik 发表于 2018-5-27 09:32
他可能是用了首页的cookie,您先访问加载qichacha.com,再访问我的链接就可以了。
...

我加载你的规则看了,规则加载没有问题,你遇到什么问题了?
举报 使用道具
5#
kartik 初级会员 发表于 2018-5-27 22:08:52 | 只看该作者
Fuller 发表于 2018-5-27 10:57
我加载你的规则看了,规则加载没有问题,你遇到什么问题了?

你好,爬取表格里的数据不对。不知道用什么定位比较好?
举报 使用道具
6#
kartik 初级会员 发表于 2018-5-27 22:23:33 | 只看该作者
Fuller 发表于 2018-5-27 10:57
我加载你的规则看了,规则加载没有问题,你遇到什么问题了?

点击测试按钮,是正常的,生成xml文件的时候数据有误。
举报 使用道具
7#
shenzhenwan10 金牌会员 发表于 2018-5-27 22:36:36 | 只看该作者
kartik 发表于 2018-5-27 22:23
点击测试按钮,是正常的,生成xml文件的时候数据有误。

这个详情页面,要准确的抓取每个字段的内容,可以用自定义xpath
比如: //*[@class='tb' and contains(./text(),'注册资本:')]/following-sibling::td[1]  就可以抓取到"注册资本"的实际内容
其它字段可以举一反三

举报 使用道具
8#
kartik 初级会员 发表于 2018-5-27 23:01:28 | 只看该作者
shenzhenwan10 发表于 2018-5-27 22:36
这个详情页面,要准确的抓取每个字段的内容,可以用自定义xpath
比如: //*[@class='tb' and contains(./ ...

非常感谢哥们
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-14 04:16