目录
- 快捷采集
- 初级教程(新版)
- 初级教程(老版)
- 数据转Excel处理
- 爬虫规则管理
- 高级教程(新版)
- 高级教程(老版)
- 用爬虫群分布式高效采集
- 爬虫关键知识拓展
- 问题集锦
- 实战演练案例
- 爬虫安装说明
- 关于集搜客
集搜客交流群
2000人群:点击加入
什么是浏览器控制台
如题
求助抓取小数点,控制台测试显示乱码
[img]file:///C:\Users\mac\AppData\Roaming\Tencent\Users\309641660\QQ\WinTemp\RichOle\4T@31]NOSP5}FI7X841``2G.png[/img]
控制采集数量
运行规则,怎么才能控制采集的数据量呢?比如限制翻页数量,运行指定数量的线索,这个可以设置的吗??
错误原因
制订了5个规则,是由首页-》列表页-》详情页-》项目进展-》项目话题,可是如果单搜首页的话,就可以转到列表页,可是5个数据放在一起后首页就总是报错这是什么问题,首页到列表页是靠搜索框的连续动作,列表页到详情页是靠下级线索,详情页到项目进展和项目话题都是靠模拟点击,实在找不到错误啊
错误日志
2016-10-26 15:01:36 DataScraperEngine CloseEngineExternal WARN: Closing the engine, which is initiated from the external 2016-10-26 15:02:33 ValidateDelayedPage validate ERROR: Fail to evaluate xpath: error code is 2153447475. count(//*[@class='x-grid3-body']/div[position()>=1 and count(./)>0])>0 2016-10-26 15:02:33 ValidateDelayedPage validateInMemory ERROR: Fail to validate 2016-10-26 15:02:33 ValidateDelayedPage Run ERROR: Fail to validate 2016-10-26 15:02:33 ExtractSpiderClue_Simp:Run c2mtrax_offer_list WARN: Encounter processor error. The processor is skipped. PipeLineState : 51 2016-10-26 15:02:33 CleanWorksBucket:Run c2mtrax_offer_list WARN: Encounter processor error. The processor is skipped. PipeLineState : 51 2016-10-26 15:02:33 PushStack:Run c2mtrax_offer_list WARN: Encounter processor error. The processor is skipped. PipeLineState : 51 2016-10-26 15:02:34 CleanWorksBucket:Run c2mtrax_list WARN: Encounter processor error. The processor is skipped. PipeLineState : 51 2016-10-26 15:03:05 DataScraperEngine CloseEngineExternal WARN: Closing the engine, which is initiated from the external
爬虫错误
私募基金信息第11级爬取的网页,私募基金信息第12级执行时老是有些成功,有些失败
怎样控制滚屏延时?
可以尝试以下方法: 1,滚屏次数可以设置成0,这样就不滚屏了,在DS打数机中设置 2,好多网站不用开自动滚屏模式,在MS谋数台上设置
怎样控制翻页数量?
mod=viewthread&tid=703&page=1&extra=#pid1353]制作规则—常见问题导航[/urlhttp://www.gooseeker.com/doc/thread-698-1-1.html]翻页[/url]> 怎样控制翻页数量抓取的时候就会7页都抓取 答:有三种方法 [b]1、用爬虫群采集[/b],在规则调度中设置同一线索内翻页次数,就能控制翻页数attach] [b]3、自行编写爬虫调度程序crontab[/b],与爬虫群效果一致,crontab中的depth参数就是控制翻页次数的
如何控制翻页次数?
我看到有使用爬虫群。(不知道这个收费不?) 因为我每次只采集前面10-50页更新的内容,后面的不采集。 所以想做个本地采集,应该不用使用到爬虫群采集。
谋数台测试没问题,但是打数机抓取匹配错误
规则名:人人贷_散标详情 错误信息: 抓取失败(超时),抓取规则不合适或者超时时间设置太短 之前没有这个问题
输入动作错误
img] [attach]14107[/attach][attach]14108[/attach]运行规则后输入不符合自己制定的规则怎么回事
抓取内容错误
请给我看看,我的主题是“国家标准公告中的标准列表20190428”,第一个整理箱里的抓取的“实施日期”,怎么结果抓出来是“标准编号”的内容?
层级抓取错误
我的一级规则名称是 浙数文化 二级规则名称是 浙数文化文章评论详情 目前一级规则可以抓取,设置页数爬虫 但是二级规则测试正常 但是抓取数据不行
怎么控制翻页的数量
[i=s] 本帖最后由 ym 于 2016-5-24 11:00 编辑 [/i] 怎么控制 页数的数量,共50页,只抓10
crontab控制文件存放置在哪?
crontab控制文件存放置在哪?