GooSeeker
产品
资源
教程
视频教程
使用交流
资讯
开启辅助访问
切换风格
登录
|
注册
快捷导航
搜索
搜索
本版
文章
帖子
用户
资讯
常见问题
使用交流
python交流
视频教程
资源发布公告
数学建模交流
论坛
›
搜客社区
›
使用交流
2
210
福州市政府文件标题、日期等信息抓取问题?
郭小凯gxk
于 2019-10-21 15:17
发表
[复制链接]
郭小凯gxk
积分
65
精华
0
威望
26
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
如图,对索引号、发布机构、文号等内容进行内容映射,但是测试出来的结果和页面没对上。
如何准确抓取呢?
举报
使用道具
|
回复
共 2 个关于本帖的回复 最后回复于 2019-10-21 15:32
lan_1985
积分
485
精华
0
威望
212
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
lan_1985
中级会员
发表于 2019-10-21 15:26:27
|
显示全部楼层
1、通过数据对应网页节点的分析,没有唯一的class值对应每一个数据
2、用xpath来定位精确抓取。
方法如下图。
找到div这个有唯一class值的定位表达式。
接着写这个xpath的定位表达式,并在白框内搜索,检查能不能定位到索引号这个 text文本节点
举报
使用道具
回复
支持
反对
lan_1985
积分
485
精华
0
威望
212
金钱
2
最后登录 1970-1-1
加为好友
发送消息
访问家园
个人资料
主题列表
发消息
lan_1985
中级会员
发表于 2019-10-21 15:32:30
|
显示全部楼层
3、然后把这个xpath定位表达式,填写到规则中
4、其他的字段一次套用这个定位表达是如下,改变p节点的位置
举报
使用道具
回复
支持
反对
返回列表
B
Color
Image
Link
Quote
Code
Smilies
高级模式
您需要登录后才可以回帖
登录
|
立即注册
发表回复
回帖后跳转到最后一页
回复
推荐板块
使用交流
常见问题
数学建模交流
python交流
视频教程
精彩推荐
网络爬虫采集html片段时无法生成结果文件怎
网络爬虫占满了c盘怎么清理
为什么采集速卖通用户评论翻页不了
多级规则执行连续动作而输入动作不在第一级
特征工程入门介绍
热门话题
1
【集微库】微博采集工具箱使用常见问题
2
有没有办法采集机场的出租车信息?
3
【求助】关于采集阿里巴巴国际站访客详情分
4
新浪微博_博主主页
5
集搜客文本分词标注工具(V1版)
6
集搜客GooSeeker 网络爬虫版本发布公告
7
线索是什么意思?
8
R语言资料,好东西要一起分享
9
关键词 热点微博 搜索不全
10
新浪微博_评论抓取规则发布了,欢迎下载使
热门用户
Fuller
帖子:7253
访问主页>>
wangyong
帖子:1025
访问主页>>
ym
帖子:1486
访问主页>>
GMT+8, 2019-12-9 21:32
快速回复
快速发帖
返回顶部
返回列表
共 2 个关于本帖的回复 最后回复于 2019-10-21 15:32