11#
gz51837844 管理员 发表于 2016-5-6 14:43:04 | 只看该作者
目前没有把翻页的内容写到一个文件的选项
你可以用官网的数据管理功能,或者用资源页的xml导入excel工具,都可以做到把同一规则的抓取结果合到一个excel里
举报 使用道具
12#
llssyy 初级会员 发表于 2016-5-7 14:32:28 | 只看该作者
gz51837844 发表于 2016-5-6 14:43
目前没有把翻页的内容写到一个文件的选项
你可以用官网的数据管理功能,或者用资源页的xml导入excel工具, ...

哦哦,谢谢
举报 使用道具
13#
llssyy 初级会员 发表于 2016-5-7 14:35:25 | 只看该作者
gz51837844 发表于 2016-5-6 14:43
目前没有把翻页的内容写到一个文件的选项
你可以用官网的数据管理功能,或者用资源页的xml导入excel工具, ...

我制作的规则 zol手机主题用户 中很多线索链接都打不开,打开就是主页而不是用户的页面,这种是不是网站原因,如果这种可以设置爬虫直接跳过么,因为每次抓取数据的时候遇到很多这种界面,并且爬虫会在这里停顿很久
举报 使用道具
14#
Fuller 管理员 发表于 2016-5-7 15:57:09 | 只看该作者
llssyy 发表于 2016-5-7 14:35
我制作的规则 zol手机主题用户 中很多线索链接都打不开,打开就是主页而不是用户的页面,这种是不是网站 ...

很有可能是上一级抓取规则不合适,抓到不想要的网址。如果网址不是很多,可以到会员中心-〉爬虫管理那里,找到这个规则,把它的线索都看一遍,手工删除不想要的
举报 使用道具
15#
llssyy 初级会员 发表于 2016-5-7 21:38:04 | 只看该作者
Fuller 发表于 2016-5-7 15:57
很有可能是上一级抓取规则不合适,抓到不想要的网址。如果网址不是很多,可以到会员中心-〉爬虫管理那里 ...

并不是网址的问题,我独立打开相应的网站也是打不开的,本应该跳转用户主页的网址,结果变成了主页。比如http://ask.zol.com.cn/me/hocok/这个用户,有时候打开就是用户界面,有时候打开就直接跳转主页
举报 使用道具
16#
Fuller 管理员 发表于 2016-5-7 22:09:49 | 只看该作者
llssyy 发表于 2016-5-7 21:38
并不是网址的问题,我独立打开相应的网站也是打不开的,本应该跳转用户主页的网址,结果变成了主页。比如 ...

这种比较麻烦,也许是这个网站的特殊导流策略
举报 使用道具
17#
llssyy 初级会员 发表于 2016-5-8 09:34:03 | 只看该作者
Fuller 发表于 2016-5-7 22:09
这种比较麻烦,也许是这个网站的特殊导流策略

那可以怎么处理呢,能不能对跳转主页的情况直接设定为抓取失败或者跳过。
举报 使用道具
18#
Fuller 管理员 发表于 2016-5-8 09:40:47 | 只看该作者
llssyy 发表于 2016-5-8 09:34
那可以怎么处理呢,能不能对跳转主页的情况直接设定为抓取失败或者跳过。 ...

用主页作为样本页面做一个抓取规则,主题名要跟正常的那个相同,规则编号不一样,DS会自动去判断,那么遇到这种情况,DS就成功抓主页,不用等超时。

一定要注意一个程序bug:
假设做了两个抓取规则,为了跳过去的那个规则叫B,没有爬虫路线规则,而正常的那个叫A,有爬虫路线规则,那么一定要在创建了B以后再次保存A,否则,A的爬虫路线也不执行。也就是说,规则最多的那个规则一定要最后保存一次
举报 使用道具
19#
Fuller 管理员 发表于 2016-5-8 09:53:58 | 只看该作者
刚才A和B说反了,现在修正过来了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 16:32