Web信息提取

断点续抓

怎么才能暂停然后 下次打开线索还能保留继续抓??

旧线索能否清除

datascraper服务器端应该是存了每个主题所获取的线索吧?
我的情况这样的:crontab里有一个线程,分2步执行2个主题。第一步是抽取我构造的酷讯机票URL,第二步开始抓取机票。
每一次执行这个线程,url是不同的。
问题是我这次抓取的线索里还是包含上一次的线索,积累起来的。之前抓取过的线索是我不需要的。
能否把这些就旧线索清除?

发帖信息爬取不了

搜狐的实在弄不下来,跟老师说明后转爬新浪的了。

多重信息抓取问题

我以一个用户为起点,抓他的一些信息,和他的关注和粉丝的情况
再抓关注的关注和粉丝的信息
和粉丝的关注和粉丝的信息
这样抓三层
有没有什么类似递归的方法 或 用什么方法??

要提取的公司信息需要点开多个新的网页怎么办?

我正在用这个网站练习:http://110.waimaoba.com/category/arts-and-crafts

每个页面包含10组公司信息,但是具体的联络方式等内容仍然需要点开公司名字上的链接才能够看到,这些链接有个共同的特点,即前半部分url都是:http://110.waimaoba.com/company/...。

我目前只会对当前页面上的信息进行抓取并设置翻页,不知道在上述情况下如何对新翻开的的网页进行抓取并翻页?

期待回复!

用datascraper抓取页面后的xml文件保存在哪里呀?????

用datascraper抓取页面后的xml文件保存在哪里呀?????大家帮帮忙呀

能否抓取Itunes Store当中的数据

最近要做一个研究,需要抓取Itunes里app的数据,比如星级和评论,请问能抓取吗?

搜狐论坛无法实现翻页

http://club.money.sohu.com/licai/threads/?page=3
从第三页开始爬起,对查看下一页精彩内容进行maker映射,也对metastudio配置进行了延长设置,但是还是无法实现翻页,请问Fuller这是怎么回事,主题是贴子2

酷讯网抓各地机票

还是酷讯网抓机票。
能否在酷讯首页www.kuxun.cn的搜机票框里,让metaseeker去选择候选城市,然后点击搜索进入结果页面抓取。
比如,我想搜出发点为杭州,目的地为所有酷讯提供的热门城市的机票。
metaseeker能否做到这样的遍历。如果不行,能否提供一些另外的思路。我需要做的是完全程序化,自动化。
万分感谢!!!

酷讯网抓取票价信息的问题

所用scheme:wbh_bj_sh_step1(模拟点击价格日历),wbh_bj_sh_step2(抓取价格日历url),wbh_bj_sh_step3(在每个url上抓取票价)。
问题1:用crontab运行wbh_bj_sh_step1只能带动step2,必须再开thread运行step3。能不能只设定step1,把所有都执行。
问题2:票价结果是异步显示的,发现有些XML里只记录下最初网页显示的几个信息,后来的都漏掉了。能不能设置新网页延时几秒才抓取。
各位帮帮忙!

Syndicate content