本帖最后由 ym 于 2015-9-7 12:54 编辑

新手在一开始,多少会犯一点错误,不过没关系,犯错也是学习的必经阶段,毕竟连高手也是无可避免地会犯错,只要吸取经验,就能掌握到方法。下面会列出一些常见错误,虽然不是很全面,但希望大家能一起补充,为新手菜鸟减少学习障碍。

图1说明规则保存失败,原因可能有:
1. 主题名已经被占用,可以点击“命名主题”窗口的“查重“按钮来判断是否被占用,如果是被占用的话,换一个新的主题名就可以保存规则了。
2. 如果是多层级规则,可能是下级规则的主题名被占用了,换一个下级主题名就可以保存了。
3. 服务器连接中断,看看连接状态是否变成了红色,只有绿色才是连接正常,才能保存规则,关于连接中断的解决方法可以参考http://www.gooseeker.com/doc/thread-259-1-1.html
报错4.png
图1 规则保存失败

图2的错误是指线索无效,原因是爬虫路线中的线索没有映射范围,估计是新建了线索但是忘了做映射,做完线索映射就可以了。
报错3.png
图2 线索无效

造成图3的原因是对抓取内容既做内容映射,又做定位标志映射时,选择的网页节点不是在同一个dom树结构,就会提示这样的错误,这种情况就要对抓取内容清除定位标志映射,再找准目标信息对应的网页节点和选择合适的定位标志来重新映射,这样就能用好定位标志了。
报错1.png
图3 内容映射和标志映射不一致

图4的原因是做了定位标志映射,但是没有勾上高级设置,就会报这样的错误;实际上,对抓取内容作定位标志映射都会自动勾上高级设置,并且默认抓取文本内容,这种报错可能是用户因为误操作而取消了高级设置导致的,只要重新勾上高级设置和选择文本内容就可以了。
报错2.png
图4 要做高级设置
举报 使用道具
| 回复

共 2 个关于本帖的回复 最后回复于 2015-9-22 09:53

ym 版主 发表于 2015-8-31 12:51:02 | 显示全部楼层
图5是网页紊乱造成火狐崩溃,出现这个提示会导致火狐窗口关闭。
QQ图片20150831123827.png
图5

图6是无法定位到网页节点,原因是有些网页的内容不断动态变化,有些内容会消失了,就出现这个问题。如果出现这种问题,在定义抓取规则前,要先在文件菜单中“冻结页面 ”,再“刷新网页结构”,就可以重新定位了。
QQ图片20150831123856.png
图6 无法定位节点

举报 使用道具
ym 版主 发表于 2015-9-22 09:53:42 | 显示全部楼层
当样本网页改变了,就会报下面的错误
QQ图片20150921101428.png
图7 样本网页改变

做规则的时候,网址不能变,样本页面这里要保持绿色;如果内容定位没有勾,点击超链接的时候,网页就变了,就能定义规则了,如果要换样本页面,可以在网址框输入新的网址,再去文件菜单里点击刷新网页结构,然后点击后续分析,就可以用当前规则了。
QQ图片20150921101440.png

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:59