测试的网址是:http://tiku.21cnjy.com
是不是这个网页无法抓取?
求解答
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2016-9-26 15:39

沙发
TonyJiang 高级会员 发表于 2016-9-26 15:20:57 | 只看该作者
你说的加载中是在你的浏览器还是在集搜客的爬虫浏览器还是在哪啊
举报 使用道具
板凳
Fuller 管理员 发表于 2016-9-26 15:38:38 | 只看该作者


你可能是说这个状态。在MS谋数台中,加载网页的时候,一直处于这个状态,DOM树显示不出来,如果时间较长,你可以关闭这个红框所示的图标。此时,没有DOM树,那么就要手工刷新出来,选择菜单 文件(新版叫“规则”)-》刷新网页结构。

请注意,有些网页特别慢,你这样做了以后,它还会加载,很可能会冲掉你手工刷新出来的结构。为了防止它冲掉你正在做的抓取规则,请选择菜单 文件(新版叫“规则”)-》冻结页面

然后,就可以放心做规则了
举报 使用道具
地板
Fuller 管理员 发表于 2016-9-26 15:39:39 | 只看该作者
如果直接用GS浏览器的定义规则功能,是看不到这个加载状态的,其实,网页内容很可能也会在某个时候被改变了,所以,为了保险,可以冻结页面再做规则
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 05:36