集搜客GooSeeker网络爬虫

标题: 采集树状目录,但是节点的深度不一样,怎么成功通过样例复制呢 [打印本页]

作者: YummyLee2    时间: 2017-3-15 18:42
标题: 采集树状目录,但是节点的深度不一样,怎么成功通过样例复制呢
[attach]5835[/attach]
(1) ①这里只有一个子节点,但是②这里有两个。①这里没办法用样例复制,但是②可以,这样子的话,规则就出现了问题。
(2)这个树状结构有的部分有一层,有的部分有两层,这样的话兄弟节点不完全一样。样例复制的办法也会失败。


作者: xandy    时间: 2017-3-15 19:07
主题名是什么
作者: YummyLee2    时间: 2017-3-15 19:43
xandy 发表于 2017-3-15 19:07
主题名是什么

菁优数据_0315_测试1

作者: Fuller    时间: 2017-3-15 21:17
根据你的主题名加载了规则,看到的页面和你截图的不一样,我看到你的规则能把整个树状目录都采集下来
作者: xandy    时间: 2017-3-15 21:19
本帖最后由 xandy 于 2017-3-15 21:21 编辑
YummyLee2 发表于 2017-3-15 19:43
菁优数据_0315_测试1

1,只要最上面的三级目录是两个或两个以上的,那就对齐做样例复制,后面三级就算只有一个或者没有都没关系,不要勾选关键内容
2,兄弟节点数是不是一致无所谓,只要做样例的是全的就行了,同理1
ps:没看出你规则有啥问题,另外,检索方式i“按章节”和“按考点”的目录树不是一样的,你的样本网址是按考点的,找不到你截图的目录树!


作者: Fuller    时间: 2017-3-15 21:37
我看到了,按照章节就是你截图的那种。用一个最全的分支做样例复制,测试成功以后,按照顺序执行以下步骤
1,点击“存规则”按钮
2,点击“测试”按钮3,找到“数据规则”页签
4,修改数据规则,每个容器节点都有配对的apply-template和template,里面都有类似position()>=5这样的表达式,如果你选择的样例不是第一个和第二个,那么这个数字就不是>=1,要手工修改成>=1
5,点击测试单箱,
6,如果测试满意了,点击“保存修改”

保存修改以后就不能再用“存规则”了,否则你的修改就会被冲掉

[attach]5841[/attach]

作者: YummyLee2    时间: 2017-3-16 14:50
Fuller 发表于 2017-3-15 21:37
我看到了,按照章节就是你截图的那种。用一个最全的分支做样例复制,测试成功以后,按照顺序执行以下步骤
1 ...

好的。非常感谢!我试过了,方法很好。
另外一个问题是,如果不点击“存规则”的话,是不是就无法重复使用这个规则,之后如果每次都要用的话,是不是要每次都得重新修改

作者: YummyLee2    时间: 2017-3-16 14:51
xandy 发表于 2017-3-15 21:19
1,只要最上面的三级目录是两个或两个以上的,那就对齐做样例复制,后面三级就算只有一个或者没有都没关系 ...

谢谢,方法已试。很好的办法。另外加了另一位的方法,解决了问题





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2