集搜客GooSeeker网络爬虫

标题: “爬虫路线”中的“线索1”如何删除? [打印本页]

作者: tttr2_    时间: 2016-5-9 22:38
标题: “爬虫路线”中的“线索1”如何删除?
rt


作者: Fuller    时间: 2016-5-9 23:28
这是一个下级线索,你的截图不全,下面还有一行,显示哪个整理箱的哪个抓取内容,格式是  整理箱名.抓取内容名 ,那么,你转到 创建规则 工作台,找到这个整理箱和抓取内容,把“下级线索”那个勾去掉,就删除了
作者: tttr2_    时间: 2016-5-10 00:19
Fuller 发表于 2016-5-9 23:28
这是一个下级线索,你的截图不全,下面还有一行,显示哪个整理箱的哪个抓取内容,格式是  整理箱名.抓取内 ...

原来是这样Σ(っ °Д °;)っ,,,已经删掉了 蟹蟹~
作者: tttr2_    时间: 2016-5-10 00:52
Fuller 发表于 2016-5-9 23:28
这是一个下级线索,你的截图不全,下面还有一行,显示哪个整理箱的哪个抓取内容,格式是  整理箱名.抓取内 ...

还有个问题,,,我按视频讲解来做翻页,却总是error,不懂提示的是什么意思。。

作者: ym    时间: 2016-5-10 09:47
tttr2_ 发表于 2016-5-10 00:52
还有个问题,,,我按视频讲解来做翻页,却总是error,不懂提示的是什么意思。。
...

微博是js动态网页,网页结构会变的,做规则前要点击文件菜单->冻结页面->刷新网页结构,这样网页结构就不会变化,然后再来做规则映射。
作者: tttr2_    时间: 2016-5-10 14:23
ym 发表于 2016-5-10 09:47
微博是js动态网页,网页结构会变的,做规则前要点击文件菜单->冻结页面->刷新网页结构,这样网页结构就不 ...

恩恩,这么操作之后不会总出现这个error了 ヾ(o◕∀◕)ノヾ;不过做完下一页记号线索在爬数据的时候页面并没有反应诶,能帮忙看下哪里粗问题了嚒……
作者: Fuller    时间: 2016-5-10 14:34
tttr2_ 发表于 2016-5-10 14:23
恩恩,这么操作之后不会总出现这个error了 ヾ(o◕∀◕)ノヾ;不过做完下一页记号线索在爬数据的时候页面 ...

看着挺好,翻页规则名一般要与当前规则名一样,因为翻页的话,网页结构是不变的。你检查一下是否一样
作者: tttr2_    时间: 2016-5-10 14:53
Fuller 发表于 2016-5-10 14:34
看着挺好,翻页规则名一般要与当前规则名一样,因为翻页的话,网页结构是不变的。你检查一下是否一样 ...

一样的哦?……

作者: ym    时间: 2016-5-10 15:35
做完爬虫路线的映射,就可以保存规则了,然后点击爬数据,就知道规则是否能成功抓到数据,如果不成功说明规则没做好,要重新映射规则再做采集测试




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2