请教问题如下:
1.按照网站的指南operation example操作,按照相对线索抓取网页,只能抓取首页,需要怎么设置
2.如新建schema 北京rain3,在本地目录DataScraperWorks中没有相应的目录和文件,如何设置
请教问题如下:
1.按照网站的指南operation example操作,按照相对线索抓取网页,只能抓取首页,需要怎么设置
2.如新建schema 北京rain3,在本地目录DataScraperWorks中没有相应的目录和文件,如何设置
我需要抓取新浪微博贴的内容和该贴的评论用户、转发用户,比如抓取http://weibo.com/1380274560/yuLM04JBb次贴的评论和转发用户。
抓取微博贴内容的主题是weibo_one,定义转发线索,抓取转发用户时使用不同于贴内容的主题weibo_one_transmits,复制样本实现多实例抓取,翻页时使用线索映射,下一页标记映射。主题weibo_one_transmits设置了ajax抓取配置选项。
1 但抓取的数据始终没有翻页?改成相对索引,只能抓取第一页和第二页的内容,后面的就不抓了
抓新浪的个人数据,可以正常翻页,但是只能抓下来第一页面,(只能生成一个XML文件)请问是什么问题?
对配置文件的什么参数进行修改?谢谢!
首先感谢fuller~
我用firefox13.0.1 EN,对应下载了metaseeker en
我的问题针对 blg_cmt_test 这个信息结构
(1)我上传并在datascraper里实现部分功能的信息结构,在重新加载的时候总是出问题
一直提醒需要resume, resume后显示can't position the container No.0, No1.
这是为什么呢?是信息结构哪里不对吗?
(2)我想用这个信息结构抓取新浪博客的评论,评论区是在博文下局部刷新的
我设定好线索去抓网页的东西,发现一个困惑:
被抓的页面内,包含的线索,有可能含有刚才抓取过的页面网址。
这样出现的极端现象就是:两个页面反复交替抓取,这显然是不合适的。
怎么杜绝此现象呢?请帮助解答,多谢!
我想把我的微博的粉丝名单抓下来,可是加载页面后,点击粉丝的名字,显示“can't find the node”,求教大神是什么原因!
分散很多xml文件,感觉很不方便,能否都保存在数据库里呢?即便是access也行啊。
如果手工再合并再处理,我也知道可以,不是要多折腾麻烦吗,有办法直接入库吗?
谢谢。
您好!
最近在使用爬虫进行翻页抓取时发现不能抓到最后一页,有时少抓一页,有时少抓两页,而且翻页的内容不再是在一个XML文件中存储,而是一页就存一个XML。想请教您是定义的规则不对,还是用的版本需要升级?
抓取的主题名是ylpw,请您帮忙看看,谢谢!
第一级:demo_pptv3_first:网址链接:http://list.pptv.com/sort_list/2--5----4.html
第二级:demo_pptv3_second:网址链接:http://www.pptv.com/page/38824.html
选择了延时和积极模式,但是到了第二级抓取的时候只有第一个页面会被抓下来,之后一直出错,说页面加载超时,帮忙看看这是什么问题~
做卓越网商品数据分级抓取练习的时候,到第二步,定义完下一级线索之后,规则上传不上去,出现:
上载信息结构描述文件失败:Exception caught
这是什么问题?