集搜客GooSeeker网络爬虫

标题: 搜索页面的网址复制到谋数台就变了 [打印本页]

作者: 森神君    时间: 2016-12-15 14:28
标题: 搜索页面的网址复制到谋数台就变了
搜索页面的网址复制到谋数台就变了,怎么解决啊

作者: ym    时间: 2016-12-15 14:36
你这种情况,应该是搜索结果没有独立网址,搜索前后的网页地址都是同一个,所以,你搜索之后拷贝的网址打开还是刚开始的页面。
要采集没有独立网址的网页,就要做连续动作。像你这种搜索页面,就要做两级规则,第一级规则设置输入动作、点击动作,模拟人的输入关键词和点击搜索的操作,第二级规则就是对搜索结果页面做采集,操作可以参考《连续动作实战:自动输入查询条件抓取微信公众号》
作者: 森神君    时间: 2016-12-15 14:37
哦哦,但是第二级规则要对搜索后的页面做采集,问题是如何进入到搜索页面再做规则啊,我就是不懂这里呀
作者: ym    时间: 2016-12-15 14:43
1、如果你用的是GS爬虫浏览器,把网址拷贝到浏览器里访问,输入关键词获取到搜索结果后,再点击“定义规则”,就可以开始定义采集规则。
2、如果你用的是火狐插件版爬虫,把网址拷贝到MS谋数台后,先取消勾“内容定位”,就会恢复到普通网页模式,你再输入关键词搜索,再勾上“内容定位”,点击“规则”菜单->“刷新网页结构”,就可以开始做规则。
作者: 森神君    时间: 2016-12-15 14:44
好的,谢谢




欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2