我想抓取一个模块,类似微博,模块中有的带图片,有的不带,我现在抓取信息和图片,但对这种时有时无的图片怎么设置规则呢,现在抓到的内容都对是错位的。
我想抓取一个模块,类似微博,模块中有的带图片,有的不带,我现在抓取信息和图片,但对这种时有时无的图片怎么设置规则呢,现在抓到的内容都对是错位的。
很郁闷哎,多级抓取,首页入口,http://cp.360.cn/coophall/ssq/,想去抓详情字段的链接作为二级抓取的线索,但是只想显示并选择“已满员”(通过下拉列表选择)的方案,不知道如何处理~?
初学 $HOME/.datascraper/目录下面的文件是存放在哪个位置的?怎么可以找到?
参考页面,http://caipiao.163.com/groupbuy/ssq/,希望显示出所有已经满员的用户列表,并在此基础上提取信息。涉及到下拉列表选择还要按一次“搜索”按钮,动态AJAX更新?
参考网页:
http://caipiao.163.com/hit/g_2013061723CP47349645.html
想要获取该用户所有方案的前区数据,涉及到AJAX和翻页,Metastudio配置还算正常,翻到每一页MAP-->testthis都没有问题,但是一到datascraper提取就不行,第一次在DataScraperWorks目录下有XML生成,但是没有后续的翻页数据,删除掉生成的XML文件重新提取,竟然连一个XML文件都没有生成,郁闷!我的方案名称是jctest,麻烦fuller帮忙看一下。
由于抓到的数据颇多,手动一个一个导入excel太费劲了,有木有啥法子可以批量合并XML文档或者将无数个xml文档批量转换至excel中呢?谢谢!
抓取新浪微博,每个抓5页,一共600个人,也就是600个线索
现在抓了200个人,要从201个人开始抓,
如果用手动从datascraper启动剩余线索的话,就没办法满足每条线索抓5页的条件(因为条件我是写在配置文件里的)
我的问题是:
我该怎么做?
如果要在配置文件里设置的话,该设置那个参数可以让它从第201条线索抓取?
是设置resumePageLoad和resumeMaxCount两个参数吗?
resumePageLoad=false resumeMaxCount=0???
谢谢!
右键删除,提示:delBckt has not been implemented
本人想抓取一外国网站信息,但此网只能用美国IP才能进入,请问该如何抓取?
还有一个问题,如我抓取了一网站商品的价格后,如何用折扣大小进行筛选!
最后,如网站有商品更新,我应如何第一时间知道和利用e-mail提示呢?
主题名称:xueqiu_stock_p
期望结果:抓取股票页http://xueqiu.com/S/SH601318中”讨论“标签页的内容,但实际抓取的是“全部”标签页的内容
请Fuller指点。