求教大神,我爬 百度MOTA 应用排行数据,遇到问题,困扰我
网站 http://mota.baidu.com/index.php/page/industry/apprank/inst
爬排名、应用名称 分类
单个表格测试没有问题

做样例复制有了问题

问题,排名和分类是一个数据,我分析了网页结构,TD的class一样,
如:<分类>
<xsl:value-of select="*[@class='tc']/text()"/>
</分类>
<排名>
<xsl:value-of select="*[@class='tc']/text()"/>
</排名>
为此,我取消了定位标志映射,也没有解决问题
请大神指点,谢谢


举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-12-14 17:56

沙发
popper 初级会员 发表于 2016-12-14 17:37:12 | 只看该作者
不知道有没有人理睬我,
举报 使用道具
板凳
popper 初级会员 发表于 2016-12-14 17:40:42 | 只看该作者
单个测试

QQ截图20161214173806.jpg (101.75 KB, 下载次数: 518)

单个测试

单个测试

QQ截图20161214173852.jpg (113.18 KB, 下载次数: 492)

样例测试发现问题

样例测试发现问题
举报 使用道具
地板
popper 初级会员 发表于 2016-12-14 17:42:17 | 只看该作者
您看样例复制,排名和分类的都是一个数字,我多方调试无解
举报 使用道具
5#
xandy 论坛元老 发表于 2016-12-14 17:43:17 | 只看该作者
popper 发表于 2016-12-14 17:42
您看样例复制,排名和分类的都是一个数字,我多方调试无解

这里要给排名加上xpath,这样就可以避免class和其他采集字段的class一样而导致的定位不准的问题了。
启用样例复制,分别将列表中的第一个TR和第二个TR作为样例1和样例2,排名的xpath可以这样加——

举报 使用道具
6#
xandy 论坛元老 发表于 2016-12-14 17:45:21 | 只看该作者
xandy 发表于 2016-12-14 17:43
这里要给排名加上xpath,这样就可以避免class和其他采集字段的class一样而导致的定位不准的问题了。
启用 ...

这样修改后,测试结果就正常了。
举报 使用道具
7#
popper 初级会员 发表于 2016-12-14 17:51:04 | 只看该作者
解决了,谢谢您,我的大神
举报 使用道具
8#
xandy 论坛元老 发表于 2016-12-14 17:56:48 | 只看该作者
popper 发表于 2016-12-14 17:51
解决了,谢谢您,我的大神

以后碰到比较复杂的网页还是要掌握xpath,xpath可以参看这些《自定义xpath
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 05:03