本帖最后由 ym 于 2016-2-1 16:40 编辑

常见问题 > 制作规则—常见问题导航 > 翻页采集 >  翻页失败怎样自定义xpath修改规则

现对于这样的页码 翻页,我按照教程里所说,用相对线索 只能搜索到前两页,怎么做可以连续搜索?



举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2016-4-28 18:09

沙发
xandy 论坛元老 发表于 2016-1-6 16:23:29 | 只看该作者
不适用相对线索、记号线索的情况,就要写翻页的xpath才能成功。
举报 使用道具
板凳
blanche881 新手上路 发表于 2016-1-19 15:22:40 | 只看该作者
xandy 发表于 2016-1-6 16:23
不适用相对线索、记号线索的情况,就要写翻页的xpath才能成功。

翻页的xpath怎么写啊?
举报 使用道具
地板
Fuller 管理员 发表于 2016-1-19 21:53:17 | 只看该作者
blanche881 发表于 2016-1-19 15:22
翻页的xpath怎么写啊?

是否需要手工编写XPath,这要具体分析。
1)绝大多数情况下,MS谋数台自动生成的抓取规则就够了

2)MS谋数台自动生成抓取规则的时候,会自动选择网页上的@class或者@id,因为这样的XPath比较短,适应性很强
3)有时候自动选择的@class和@id不是最好的,那么使用MS谋数台菜单 配置-〉线索定位 ,可以干预MS选择@class和@id的偏好
4)微博这样的网页,虽然你看到只有一个“下一页”,但是,有时候网页上有三个翻页区块,另两个没有显示出来。MS谋数台自动生成的规则只选择第一个,可能不是最好的,那么就需要手工修改自动生成的规则。过程是这样的


第一步:定义好规则,点击 “存规则”按钮,把规则保存一次
第二步:在“爬虫路线”工作台,点击“查看”按钮,在下面的“线索规则”窗口看到生成的规则,找到用于翻页的那个xpath
第三步:直接在这个窗口中修改xpath
第四步:点击右边的“保存”按钮,把手工修改的内容存起来
第五步:运行爬虫

注意:下次再点击“存规则”的话,手工修改的就被冲掉了。一定要 存自动生成的规则,再保存手工修改的内容
举报 使用道具
5#
Fuller 管理员 发表于 2016-1-19 22:15:35 | 只看该作者
这篇文章讲的很详细:http://www.gooseeker.com/cn/node ... v4/manualrules.html
请注意,这篇文章是V4.x版本的,专有名词变化很大:
MetaStudio:现在是MS谋数台
DataScraper:现在是DS打数机
工作台的名字现在都变了
Bucket Editor:现在是 抓取规则
Clue Editor:现在是 爬虫路线
举报 使用道具
6#
blanche881 新手上路 发表于 2016-1-20 15:12:19 | 只看该作者
Fuller 发表于 2016-1-19 21:53
是否需要手工编写XPath,这要具体分析。
1)绝大多数情况下,MS谋数台自动生成的抓取规则就够了

好的!谢谢啦!
举报 使用道具
7#
azzxccv 中级会员 发表于 2016-4-28 16:22:33 | 只看该作者

请问最后翻页的XPATH怎么写的啊?求教
举报 使用道具
8#
Fuller 管理员 发表于 2016-4-28 16:50:44 | 只看该作者
azzxccv 发表于 2016-4-28 16:22
请问最后翻页的XPATH怎么写的啊?求教

只有自动生成的xpath不合用才手工编写xpath,你的规则真的需要手工编写吗?

在爬虫路线工作台上点击“查看规则”按钮,在MS谋数台的下部输出窗口就能看到生成的翻页规则,
  1. <theme>打印虎_fuller</theme>
  2. <scope>
  3. <from>HTML</from>
  4. <path-type>a</path-type>
  5. <path>
  6. //*[@class='pagination']//a[.//text()="»"]

  7. </path>
  8. <clue-type>inthread</clue-type>
复制代码
path那段就是翻页xpath,在这里可以手工修改,然后点击右边的“保存修改”按钮就能把手工修改的规则保存到服务器上。但是,一定要注意操作顺序:
1,定义规则
2,点击工具条上的“存规则”
3,手工修改翻页规则
4,点击“保存修改"

如果第4步放到第2步之前做,那么手工修改的内容就被冲掉了
举报 使用道具
9#
azzxccv 中级会员 发表于 2016-4-28 17:01:46 | 只看该作者
Fuller 发表于 2016-4-28 16:50
只有自动生成的xpath不合用才手工编写xpath,你的规则真的需要手工编写吗?

在爬虫路线工作台上点击“查 ...

微博里的评论翻页,用相对线索定位,执行爬虫群翻几页就白板了。
用记号线索翻不了页
举报 使用道具
10#
Fuller 管理员 发表于 2016-4-28 18:09:25 | 只看该作者
azzxccv 发表于 2016-4-28 17:01
微博里的评论翻页,用相对线索定位,执行爬虫群翻几页就白板了。
用记号线索翻不了页
...

我以前给微博评论做规则的时候,发现翻页标志其实在网页上有3个,前两个点击了也无效,如果这种情况,MS谋数台自动生成的翻页规则只使用第一个,就会失败。可能是这个原因,你先检查一下,在MS谋数台上有节点搜索功能


另外,为什么要自己写规则?有现成的微博采集工具箱,不满足你的需求吗?http://www.gooseeker.com/land/weibo.html

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 23:04