集搜客GooSeeker网络爬虫

标题: 请问动态表格的数据如何抓取？ [打印本页]

作者: kartik 时间: 2018-5-27 09:20
标题: 请问动态表格的数据如何抓取？
本帖最后由 kartik 于 2018-5-27 22:24 编辑

如下：
[attach]9468[/attach]

[attach]9467[/attach]

规则名：qichacha_gd 下级线索：qichacha_gd_detail

测试数据：深圳市华侨（康桥）书院、深圳市福田区新都文具
问题：点击测试按钮，是正常的，生成xml文件的时候数据有误。

谢谢大家~

作者: shenzhenwan10 时间: 2018-5-27 09:27
[attach]9469[/attach]
加载你的规则，规则样本页面无法显示，暂时不能分析规则

作者: kartik 时间: 2018-5-27 09:32

shenzhenwan10 发表于 2018-5-27 09:27
加载你的规则，规则样本页面无法显示，暂时不能分析规则

他可能是用了首页的cookie，您先访问加载qichacha.com，再访问我的链接就可以了。

作者: Fuller 时间: 2018-5-27 10:57

kartik 发表于 2018-5-27 09:32
他可能是用了首页的cookie，您先访问加载qichacha.com，再访问我的链接就可以了。
...

我加载你的规则看了，规则加载没有问题，你遇到什么问题了？

作者: kartik 时间: 2018-5-27 22:08

Fuller 发表于 2018-5-27 10:57
我加载你的规则看了，规则加载没有问题，你遇到什么问题了？

你好，爬取表格里的数据不对。不知道用什么定位比较好？

作者: kartik 时间: 2018-5-27 22:23

Fuller 发表于 2018-5-27 10:57
我加载你的规则看了，规则加载没有问题，你遇到什么问题了？

点击测试按钮，是正常的，生成xml文件的时候数据有误。

作者: shenzhenwan10 时间: 2018-5-27 22:36

kartik 发表于 2018-5-27 22:23
点击测试按钮，是正常的，生成xml文件的时候数据有误。

这个详情页面，要准确的抓取每个字段的内容，可以用自定义xpath
比如： //*[@class='tb' and contains(./text(),'注册资本：')]/following-sibling::td[1] 就可以抓取到"注册资本"的实际内容
其它字段可以举一反三

作者: kartik 时间: 2018-5-27 23:01

shenzhenwan10 发表于 2018-5-27 22:36
这个详情页面，要准确的抓取每个字段的内容，可以用自定义xpath
比如： //*[@class='tb' and contains(./ ...

非常感谢哥们

欢迎光临集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/)