我需要采集知乎某独立问题下的所有回答,大约有几千条吧,可是每次都是大概刚开始采集了几条就无法进行下去了,程序出现错误。我是程序小白,大神们可以教教我应该怎么解决吗?
举报 使用道具
| 回复

共 26 个关于本帖的回复 最后回复于 2017-4-28 22:05

沙发
Fuller 管理员 发表于 2017-4-26 10:28:20 | 只看该作者
有没有截图?程序错误表现出什么现象?

你用的规则是自定义的?还是数据DIY的
举报 使用道具
板凳
聂思宇 初级会员 发表于 2017-4-26 10:42:30 | 只看该作者
本帖最后由 聂思宇 于 2017-4-26 10:43 编辑
Fuller 发表于 2017-4-26 10:28
有没有截图?程序错误表现出什么现象?

你用的规则是自定义的?还是数据DIY的 ...

首先,我使用的是首页的“数据获取”,并且直接点击进行采集。

随后,跳出两个ds窗口,一个是运行中的。

那个在运行中的窗口每次到页面底部的“更多”时就显示匹配失败了,具体好像是“剩余线索”后有“匹配失败”几个字样。



举报 使用道具
地板
scraper 论坛元老 发表于 2017-4-26 10:58:13 | 只看该作者
聂思宇 发表于 2017-4-26 10:42
首先,我使用的是首页的“数据获取”,并且直接点击进行采集。

随后,跳出两个ds窗口,一个是运行中的。

你用的是火狐浏览器版爬虫还是GS浏览器版?

举报 使用道具
5#
聂思宇 初级会员 发表于 2017-4-26 10:58:40 | 只看该作者
Fuller 发表于 2017-4-26 10:28
有没有截图?程序错误表现出什么现象?

你用的规则是自定义的?还是数据DIY的 ...

而且,我还发现我每次采集的同一独立话题下的精华内容,后一次总要比前一次多近100条,我实在不清楚这是为什么........现在处于很懵圈的状态......
举报 使用道具
6#
聂思宇 初级会员 发表于 2017-4-26 11:05:55 | 只看该作者
scraper 发表于 2017-4-26 10:58
你用的是火狐浏览器版爬虫还是GS浏览器版?

就是GS浏览器版
举报 使用道具
7#
HJLing 版主 发表于 2017-4-26 11:07:39 | 只看该作者

DIY的规则是基于火狐版爬虫做的
GS浏览器打开的页面和火狐版不同
我们这边修改下规则先

举报 使用道具
8#
聂思宇 初级会员 发表于 2017-4-26 11:11:02 | 只看该作者
HJLing 发表于 2017-4-26 11:07
DIY的规则是基于火狐版爬虫做的
GS浏览器打开的页面和火狐版不同
我们这边修改下规则先

那么我现在应该等一下吗?
举报 使用道具
9#
HJLing 版主 发表于 2017-4-26 11:13:31 | 只看该作者
聂思宇 发表于 2017-4-26 11:11
那么我现在应该等一下吗?

是 改好了测试没问题再告知您

举报 使用道具
10#
聂思宇 初级会员 发表于 2017-4-26 11:21:37 | 只看该作者
HJLing 发表于 2017-4-26 11:13
是 改好了测试没问题再告知您

好的好的,非常感谢!

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-17 12:14