Web信息提取

如何抓取时有时无的模块

我想抓取一个模块,类似微博,模块中有的带图片,有的不带,我现在抓取信息和图片,但对这种时有时无的图片怎么设置规则呢,现在抓到的内容都对是错位的。

关于360双色球抓取的问题

很郁闷哎,多级抓取,首页入口,http://cp.360.cn/coophall/ssq/,想去抓详情字段的链接作为二级抓取的线索,但是只想显示并选择“已满员”(通过下拉列表选择)的方案,不知道如何处理~?

$HOME/.datascraper/目录 在哪可以找到?

初学 $HOME/.datascraper/目录下面的文件是存放在哪个位置的?怎么可以找到?

这种情况怎么处理?下拉列表选择。

参考页面,http://caipiao.163.com/groupbuy/ssq/,希望显示出所有已经满员的用户列表,并在此基础上提取信息。涉及到下拉列表选择还要按一次“搜索”按钮,动态AJAX更新?

抓取网易双色球数据总是不能成功,郁闷!

参考网页:
http://caipiao.163.com/hit/g_2013061723CP47349645.html
想要获取该用户所有方案的前区数据,涉及到AJAX和翻页,Metastudio配置还算正常,翻到每一页MAP-->testthis都没有问题,但是一到datascraper提取就不行,第一次在DataScraperWorks目录下有XML生成,但是没有后续的翻页数据,删除掉生成的XML文件重新提取,竟然连一个XML文件都没有生成,郁闷!我的方案名称是jctest,麻烦fuller帮忙看一下。

批量转换xml文件至excel

由于抓到的数据颇多,手动一个一个导入excel太费劲了,有木有啥法子可以批量合并XML文档或者将无数个xml文档批量转换至excel中呢?谢谢!

600个线索,抓了200个,怎么从第201个开始抓,并符合一个线索翻5页的要求

抓取新浪微博,每个抓5页,一共600个人,也就是600个线索

现在抓了200个人,要从201个人开始抓,

如果用手动从datascraper启动剩余线索的话,就没办法满足每条线索抓5页的条件(因为条件我是写在配置文件里的)

我的问题是:

我该怎么做?
如果要在配置文件里设置的话,该设置那个参数可以让它从第201条线索抓取?

是设置resumePageLoad和resumeMaxCount两个参数吗?

resumePageLoad=false resumeMaxCount=0???

谢谢!

Bucket Editor里面的FreeFormat无法删除

右键删除,提示:delBckt has not been implemented

关于几个抓取信息的问题!

本人想抓取一外国网站信息,但此网只能用美国IP才能进入,请问该如何抓取?
还有一个问题,如我抓取了一网站商品的价格后,如何用折扣大小进行筛选!
最后,如网站有商品更新,我应如何第一时间知道和利用e-mail提示呢?

雪球网站内容抓取问题:想抓某只股票“讨论”标签页的内容,返回是“全部”标签页的内容

主题名称:xueqiu_stock_p
期望结果:抓取股票页http://xueqiu.com/S/SH601318中”讨论“标签页的内容,但实际抓取的是“全部”标签页的内容

请Fuller指点。

Syndicate content