抓取表格数据 发现抓取结果有错误 1 有少抓一行的情况,也有单个格 抓串行的 , 怎么解决 。 谢谢

举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2017-3-29 14:20

沙发
liusw02 新手上路 发表于 2017-3-23 12:47:33 | 只看该作者
一些单元格 大小是不一样的。
举报 使用道具
板凳
liusw02 新手上路 发表于 2017-3-23 13:07:05 | 只看该作者
表格结构是不一样的

第一列表格 每个单元格都在TD→ attributes→#text

第二列表格 每个单元格都在TD→SPAN→#text

第三列表格 每个单元格都在TD→SPAN→#text

抓取结果 少抓取了一行 第二第三列抓的不对 ,要么串列,要么串行
举报 使用道具
地板
ym 版主 发表于 2017-3-23 14:31:07 | 只看该作者
liusw02 发表于 2017-3-23 13:07
表格结构是不一样的

第一列表格 每个单元格都在TD→ attributes→#text

自定义xpath解决,可以兼容两种结构,参考教程《自定义xpath:精确采集》
举报 使用道具
5#
liusw02 新手上路 发表于 2017-3-24 08:53:08 | 只看该作者
谢谢, 我学习学习, 有什么不明白的地方我再请教你。
举报 使用道具
6#
liusw02 新手上路 发表于 2017-3-24 09:27:01 | 只看该作者
ym 发表于 2017-3-23 14:31
自定义xpath解决,可以兼容两种结构,参考教程《自定义xpath:精确采集》
...

谢谢, 我学习学习, 有什么不明白的地方我再请教你。
举报 使用道具
7#
liusw02 新手上路 发表于 2017-3-28 09:17:47 | 只看该作者
ym 发表于 2017-3-23 14:31
自定义xpath解决,可以兼容两种结构,参考教程《自定义xpath:精确采集》
...

规则中  class 是一样的
<收盘价>
<xsl:value-of select="*//*[@class='cGreen']"/>
<xsl:value-of select="*[@class='cGreen']"/>
</收盘价>
<涨跌幅_百分比>
<xsl:value-of select="*//*[@class='cGreen']"/>
<xsl:value-of select="*[@class='cGreen']"/>
</涨跌幅_百分比>

在 网页标签 后面那个id 选项里是空白的  抓取结果
        <收盘价>3.60</收盘价>
        <涨跌幅_百分比>3.60</涨跌幅_百分比>

怎么定义抓取哪个class

举报 使用道具
8#
Fuller 管理员 发表于 2017-3-28 09:26:31 | 只看该作者
liusw02 发表于 2017-3-28 09:17
规则中  class 是一样的

这个是常见问题,也不用自定义xpath,只要想办法避免多个列的相同@class值造成的影响就行了。可以参照这一篇《避免不合适的定位标志影响抓取规则》。除了绝对定位以外,还有很多技巧,比如,人工做定位标志映射,跳过不合适的标志。
举报 使用道具
9#
Fuller 管理员 发表于 2017-3-28 09:26:49 | 只看该作者
你可以把你的主题名贴出来,跟你指导一下
举报 使用道具
10#
liusw02 新手上路 发表于 2017-3-29 12:51:40 | 只看该作者
主题名贴 是什么 ?     设置定位首选项,弃用定位标志 ,定位首选项 没有反应?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 11:44