网页结构不一致
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2017-5-8 15:41

沙发
shengchengx 金牌会员 发表于 2017-5-8 15:25:36 | 只看该作者
用一个最全的微博做样本页面
举报 使用道具
板凳
黄黄黄辉 初级会员 发表于 2017-5-8 15:25:48 | 只看该作者
shengchengx 发表于 2017-5-8 15:25
用一个最全的微博做样本页面

这个比较难吧。单个还可以,但是你还要翻页。。
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-5-8 15:31:49 | 只看该作者
黄黄黄辉 发表于 2017-5-8 15:25
这个比较难吧。单个还可以,但是你还要翻页。。

你要针对一个列表做规则?
那样可以用自定义xpath,这些没有的内容可以手工写xpath
在整理箱中,把所有抓取内容都创建出来,那些没有的内容,无法直接做内容映射或者直观标注,先把网页上有的一个内容映射给他们,然后给他们写自定义xpath
自定义xpath的定位表达式和内容表达式分开,定位表达式是定义规则的时候用的,内容表达式是DS打数机运行的时候用的




举报 使用道具
5#
Fuller 管理员 发表于 2017-5-8 15:41:03 | 只看该作者
这里是自定义xpath的教程:《怎样自定义xpath

在这个教程基础上,要使用“专用定位”方式。也就是内容表达式和定位表达式不一样
1,抓取内容表达式:这个表达式是DS打数机用来抓内容的,这里可以根据抓取需要编写,即使当前样例没有这个抓取内容,也可以构造一个xpath表达式
2,定位标志表达式:这个xpath表达式是定义规则时用来定位节点的,所以,要指向一个总是存在的节点。如果当前样例没有要抓取的内容,那么这个表达式指向一个别的节点,只要存在就行
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-18 22:19