集搜客GooSeeker网络爬虫

标题: 请问动态表格的数据如何抓取? [打印本页]

作者: kartik    时间: 2018-5-27 09:20
标题: 请问动态表格的数据如何抓取?
本帖最后由 kartik 于 2018-5-27 22:24 编辑

如下:
[attach]9468[/attach]

[attach]9467[/attach]

规则名:qichacha_gd    下级线索:qichacha_gd_detail

测试数据:深圳市华侨(康桥)书院、 深圳市福田区新都文具
问题:点击测试按钮,是正常的,生成xml文件的时候数据有误。

谢谢大家~


作者: shenzhenwan10    时间: 2018-5-27 09:27
[attach]9469[/attach]
加载你的规则,规则样本页面无法显示,暂时不能分析规则

作者: kartik    时间: 2018-5-27 09:32
shenzhenwan10 发表于 2018-5-27 09:27
加载你的规则,规则样本页面无法显示,暂时不能分析规则

他可能是用了首页的cookie,您先访问加载qichacha.com,再访问我的链接就可以了。

作者: Fuller    时间: 2018-5-27 10:57
kartik 发表于 2018-5-27 09:32
他可能是用了首页的cookie,您先访问加载qichacha.com,再访问我的链接就可以了。
...

我加载你的规则看了,规则加载没有问题,你遇到什么问题了?

作者: kartik    时间: 2018-5-27 22:08
Fuller 发表于 2018-5-27 10:57
我加载你的规则看了,规则加载没有问题,你遇到什么问题了?

你好,爬取表格里的数据不对。不知道用什么定位比较好?

作者: kartik    时间: 2018-5-27 22:23
Fuller 发表于 2018-5-27 10:57
我加载你的规则看了,规则加载没有问题,你遇到什么问题了?

点击测试按钮,是正常的,生成xml文件的时候数据有误。

作者: shenzhenwan10    时间: 2018-5-27 22:36
kartik 发表于 2018-5-27 22:23
点击测试按钮,是正常的,生成xml文件的时候数据有误。

这个详情页面,要准确的抓取每个字段的内容,可以用自定义xpath
比如: //*[@class='tb' and contains(./text(),'注册资本:')]/following-sibling::td[1]  就可以抓取到"注册资本"的实际内容
其它字段可以举一反三


作者: kartik    时间: 2018-5-27 23:01
shenzhenwan10 发表于 2018-5-27 22:36
这个详情页面,要准确的抓取每个字段的内容,可以用自定义xpath
比如: //*[@class='tb' and contains(./ ...

非常感谢哥们




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2