Web信息提取

断点续抓

Wed, 11/07/2012 - 21:32 — mlonly

怎么才能暂停然后下次打开线索还能保留继续抓？？

Web信息提取

6 comments

旧线索能否清除

Tue, 11/06/2012 - 20:44 — wilfred_wang

datascraper服务器端应该是存了每个主题所获取的线索吧？
我的情况这样的：crontab里有一个线程，分2步执行2个主题。第一步是抽取我构造的酷讯机票URL，第二步开始抓取机票。
每一次执行这个线程，url是不同的。
问题是我这次抓取的线索里还是包含上一次的线索，积累起来的。之前抓取过的线索是我不需要的。
能否把这些就旧线索清除？

Web信息提取

3 comments

发帖信息爬取不了

Mon, 11/05/2012 - 22:30 — goodbye2

搜狐的实在弄不下来，跟老师说明后转爬新浪的了。

Web信息提取

多重信息抓取问题

Mon, 11/05/2012 - 20:28 — mlonly

我以一个用户为起点，抓他的一些信息，和他的关注和粉丝的情况
再抓关注的关注和粉丝的信息
和粉丝的关注和粉丝的信息
这样抓三层
有没有什么类似递归的方法或用什么方法？？

Web信息提取

3 comments

要提取的公司信息需要点开多个新的网页怎么办？

Tue, 10/30/2012 - 15:59 — uarkin

我正在用这个网站练习：http://110.waimaoba.com/category/arts-and-crafts

每个页面包含10组公司信息，但是具体的联络方式等内容仍然需要点开公司名字上的链接才能够看到，这些链接有个共同的特点，即前半部分url都是：http://110.waimaoba.com/company/...。

我目前只会对当前页面上的信息进行抓取并设置翻页，不知道在上述情况下如何对新翻开的的网页进行抓取并翻页？

期待回复！

Web信息提取

1 comment

用datascraper抓取页面后的xml文件保存在哪里呀？？？？？

Thu, 10/25/2012 - 01:00 — eryong4218

用datascraper抓取页面后的xml文件保存在哪里呀？？？？？大家帮帮忙呀

Web信息提取

1 comment

能否抓取Itunes Store当中的数据

Fri, 10/19/2012 - 13:49 — quanquan

最近要做一个研究，需要抓取Itunes里app的数据，比如星级和评论，请问能抓取吗？

Web信息提取

1 comment

搜狐论坛无法实现翻页

Tue, 10/16/2012 - 16:47 — goodbye2

http://club.money.sohu.com/licai/threads/?page=3
从第三页开始爬起，对查看下一页精彩内容进行maker映射，也对metastudio配置进行了延长设置，但是还是无法实现翻页，请问Fuller这是怎么回事，主题是贴子2

Web信息提取

10 comments

酷讯网抓各地机票

Fri, 10/12/2012 - 21:25 — wilfred_wang

还是酷讯网抓机票。
能否在酷讯首页www.kuxun.cn的搜机票框里，让metaseeker去选择候选城市，然后点击搜索进入结果页面抓取。
比如，我想搜出发点为杭州，目的地为所有酷讯提供的热门城市的机票。
metaseeker能否做到这样的遍历。如果不行，能否提供一些另外的思路。我需要做的是完全程序化，自动化。
万分感谢！！！

Web信息提取

1 comment

所用scheme：wbh_bj_sh_step1（模拟点击价格日历），wbh_bj_sh_step2（抓取价格日历url），wbh_bj_sh_step3（在每个url上抓取票价）。
问题1：用crontab运行wbh_bj_sh_step1只能带动step2，必须再开thread运行step3。能不能只设定step1，把所有都执行。
问题2：票价结果是异步显示的，发现有些XML里只记录下最初网页显示的几个信息，后来的都漏掉了。能不能设置新网页延时几秒才抓取。
各位帮帮忙！

Web信息提取

1 comment

GooSeeker