Web信息提取 | GooSeeker

Web信息提取

如何抓取时有时无的模块

Wed, 07/03/2013 - 17:12 — xuthunder1026

我想抓取一个模块，类似微博，模块中有的带图片，有的不带，我现在抓取信息和图片，但对这种时有时无的图片怎么设置规则呢，现在抓到的内容都对是错位的。

Web信息提取

4 comments

关于360双色球抓取的问题

Sun, 06/30/2013 - 09:55 — conqueryou83

很郁闷哎，多级抓取，首页入口，http://cp.360.cn/coophall/ssq/，想去抓详情字段的链接作为二级抓取的线索，但是只想显示并选择“已满员”(通过下拉列表选择）的方案，不知道如何处理~？

Web信息提取

1 comment

$HOME/.datascraper/目录在哪可以找到？

Thu, 06/27/2013 - 22:12 — zqqnancy

初学 $HOME/.datascraper/目录下面的文件是存放在哪个位置的？怎么可以找到？

Web信息提取

2 comments

这种情况怎么处理？下拉列表选择。

Sat, 06/22/2013 - 17:44 — conqueryou83

参考页面，http://caipiao.163.com/groupbuy/ssq/，希望显示出所有已经满员的用户列表，并在此基础上提取信息。涉及到下拉列表选择还要按一次“搜索”按钮，动态AJAX更新？

Web信息提取

1 comment

抓取网易双色球数据总是不能成功，郁闷！

Tue, 06/18/2013 - 11:09 — conqueryou83

参考网页:
http://caipiao.163.com/hit/g_2013061723CP47349645.html
想要获取该用户所有方案的前区数据，涉及到AJAX和翻页，Metastudio配置还算正常，翻到每一页MAP-->testthis都没有问题，但是一到datascraper提取就不行，第一次在DataScraperWorks目录下有XML生成，但是没有后续的翻页数据，删除掉生成的XML文件重新提取，竟然连一个XML文件都没有生成，郁闷！我的方案名称是jctest，麻烦fuller帮忙看一下。

Web信息提取

批量转换xml文件至excel

Sun, 06/02/2013 - 17:44 — nicojoy

由于抓到的数据颇多，手动一个一个导入excel太费劲了，有木有啥法子可以批量合并XML文档或者将无数个xml文档批量转换至excel中呢？谢谢！

Web信息提取

1 comment

600个线索,抓了200个,怎么从第201个开始抓,并符合一个线索翻5页的要求

Tue, 05/28/2013 - 15:49 — snowvivid1982

抓取新浪微博,每个抓5页,一共600个人,也就是600个线索

现在抓了200个人,要从201个人开始抓,

如果用手动从datascraper启动剩余线索的话,就没办法满足每条线索抓5页的条件(因为条件我是写在配置文件里的)

我的问题是:

我该怎么做?
如果要在配置文件里设置的话,该设置那个参数可以让它从第201条线索抓取?

是设置resumePageLoad和resumeMaxCount两个参数吗?

resumePageLoad=false resumeMaxCount=0???

谢谢!

Web信息提取

1 comment

Bucket Editor里面的FreeFormat无法删除

Wed, 05/15/2013 - 08:06 — zhang522089

右键删除，提示：delBckt has not been implemented

Web信息提取

1 comment

关于几个抓取信息的问题!

Mon, 05/13/2013 - 03:12 — foxben

本人想抓取一外国网站信息，但此网只能用美国IP才能进入，请问该如何抓取?
还有一个问题，如我抓取了一网站商品的价格后，如何用折扣大小进行筛选!
最后，如网站有商品更新，我应如何第一时间知道和利用e-mail提示呢?

Web信息提取

2 comments

雪球网站内容抓取问题：想抓某只股票“讨论”标签页的内容，返回是“全部”标签页的内容

Thu, 05/09/2013 - 12:22 — wilsonli

主题名称：xueqiu_stock_p
期望结果：抓取股票页http://xueqiu.com/S/SH601318中”讨论“标签页的内容，但实际抓取的是“全部”标签页的内容

请Fuller指点。

Web信息提取

5 comments