Web信息提取

请教:datascraper只能抓取首页;如新增SCHEMA无法抓取任何页面;

请教问题如下:
1.按照网站的指南operation example操作,按照相对线索抓取网页,只能抓取首页,需要怎么设置
2.如新建schema 北京rain3,在本地目录DataScraperWorks中没有相应的目录和文件,如何设置

谢谢!
aflooding@gmail.com

抓新浪微博的转发人评论人 翻页效果不好

我需要抓取新浪微博贴的内容和该贴的评论用户、转发用户,比如抓取http://weibo.com/1380274560/yuLM04JBb次贴的评论和转发用户。
抓取微博贴内容的主题是weibo_one,定义转发线索,抓取转发用户时使用不同于贴内容的主题weibo_one_transmits,复制样本实现多实例抓取,翻页时使用线索映射,下一页标记映射。主题weibo_one_transmits设置了ajax抓取配置选项。
1 但抓取的数据始终没有翻页?改成相对索引,只能抓取第一页和第二页的内容,后面的就不抓了

可以翻页,但是只能抓下来第一页面

抓新浪的个人数据,可以正常翻页,但是只能抓下来第一页面,(只能生成一个XML文件)请问是什么问题?

对配置文件的什么参数进行修改?谢谢!

请教关于(1)加载信息结构(2)局部刷新ajax翻页的问题

首先感谢fuller~

我用firefox13.0.1 EN,对应下载了metaseeker en

我的问题针对 blg_cmt_test 这个信息结构

(1)我上传并在datascraper里实现部分功能的信息结构,在重新加载的时候总是出问题
一直提醒需要resume, resume后显示can't position the container No.0, No1.
这是为什么呢?是信息结构哪里不对吗?

(2)我想用这个信息结构抓取新浪博客的评论,评论区是在博文下局部刷新的

能否不要抓重复的网址呢?

我设定好线索去抓网页的东西,发现一个困惑:
被抓的页面内,包含的线索,有可能含有刚才抓取过的页面网址。
这样出现的极端现象就是:两个页面反复交替抓取,这显然是不合适的。
怎么杜绝此现象呢?请帮助解答,多谢!

为什么新浪微博的粉丝名单不能抓取啊?求教啊!!

我想把我的微博的粉丝名单抓下来,可是加载页面后,点击粉丝的名字,显示“can't find the node”,求教大神是什么原因!

能否把提取的数据直接保存到数据库里?

分散很多xml文件,感觉很不方便,能否都保存在数据库里呢?即便是access也行啊。
如果手工再合并再处理,我也知道可以,不是要多折腾麻烦吗,有办法直接入库吗?
谢谢。

关于翻页爬取问题

您好!
最近在使用爬虫进行翻页抓取时发现不能抓到最后一页,有时少抓一页,有时少抓两页,而且翻页的内容不再是在一个XML文件中存储,而是一页就存一个XML。想请教您是定义的规则不对,还是用的版本需要升级?
抓取的主题名是ylpw,请您帮忙看看,谢谢!

土豆页面上的东西抓不下来

第一级:demo_pptv3_first:网址链接:http://list.pptv.com/sort_list/2--5----4.html
第二级:demo_pptv3_second:网址链接:http://www.pptv.com/page/38824.html
选择了延时和积极模式,但是到了第二级抓取的时候只有第一个页面会被抓下来,之后一直出错,说页面加载超时,帮忙看看这是什么问题~

卓越网商品数据分级抓取

做卓越网商品数据分级抓取练习的时候,到第二步,定义完下一级线索之后,规则上传不上去,出现:
上载信息结构描述文件失败:Exception caught

这是什么问题?

Syndicate content