如题,这个情况以前就遇到过,不经常出现,不知道是否是我个人的原因~

crontab,关闭了定制触发器,滚屏速度和滚屏次数分别是,4,20(-1,20也尝试过)

测试主题:m_sales
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-3-28 16:37

沙发
ym 版主 发表于 2016-3-23 09:30:18 | 只看该作者
把crontab的参数设置成与DS打数机配置菜单上的一样,再试试
举报 使用道具
板凳
Fuller 管理员 发表于 2016-3-23 09:32:38 | 只看该作者
额外滚屏数=5,滚屏速度=2

定时器触发应该是主要原因,可能crontab里面的没有关闭
举报 使用道具
地板
cxw20141011 金牌会员 发表于 2016-3-28 10:02:57 | 只看该作者
ym 发表于 2016-3-23 09:30
把crontab的参数设置成与DS打数机配置菜单上的一样,再试试

测试过乐,DS打数机上没有勾选出 定时触发器。  配置文件里面也是FLASE,结果还是这样。

就是遇到这个问题比较奇怪。

举报 使用道具
5#
cxw20141011 金牌会员 发表于 2016-3-28 10:32:42 | 只看该作者
本帖最后由 cxw20141011 于 2016-3-28 10:35 编辑
Fuller 发表于 2016-3-23 09:32
额外滚屏数=5,滚屏速度=2

定时器触发应该是主要原因,可能crontab里面的没有关闭 ...

这个问题暂时没有解决,换成最新的版本也是一样。还没有查清楚。

有个建议不知道可不可行 , 规则我是理解为特定采集规则 和通用采集规则。

特定采集规则,基本是一次性针对某个网站的数据采集,后面使用频率很低。
通用采集规则,是指针对同一个网站做相同数据采集,并且要求数据可以区分出来。

我的建议就是,是否可以在添加线索的时候,可以人工打标签。这样抓出来的数据XML里面有标签名称。这样数据合并好就可以很快速的分开。    而不是需要复制N个规则来抓取数据,同时万一网站结构变化,只需要修改一个规则即可,方便维护。

打标签主要是在添加第一层线索的时候(翻页):第一层规则,添加的线索量很少。 所以这里每个链接后面都可以有标签,手动输入内容,缺省则没有。
标签是可以往下传递的,这样就能第二层规则、第三层规则的数据也有这个标签。


第二层打标签也是可以的, 每次批量添加都有一个标签可以选择。
举报 使用道具
6#
Fuller 管理员 发表于 2016-3-28 14:40:20 | 只看该作者
cxw20141011 发表于 2016-3-28 10:32
这个问题暂时没有解决,换成最新的版本也是一样。还没有查清楚。

有个建议不知道可不可行 , 规则我是理解 ...

您这个建议,下一个大版本会一并考虑进去,第一层打标签是比较容易做的,递延到下一层的话需要改动更多的地方。下一个大版本本来就要对线索内容做一些扩充。这个版本已经在设计中了。
举报 使用道具
7#
cxw20141011 金牌会员 发表于 2016-3-28 16:37:49 | 只看该作者
Fuller 发表于 2016-3-28 14:40
您这个建议,下一个大版本会一并考虑进去,第一层打标签是比较容易做的,递延到下一层的话需要改动更多的 ...

期待中
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-13 01:05