Web信息提取

请教：datascraper只能抓取首页；如新增SCHEMA无法抓取任何页面；

Tue, 08/07/2012 - 16:00 — flood

请教问题如下：
1.按照网站的指南operation example操作，按照相对线索抓取网页，只能抓取首页，需要怎么设置
2.如新建schema 北京rain3，在本地目录DataScraperWorks中没有相应的目录和文件，如何设置

Web信息提取

2 comments

抓新浪微博的转发人评论人翻页效果不好

Mon, 08/06/2012 - 23:14 — suqier

我需要抓取新浪微博贴的内容和该贴的评论用户、转发用户，比如抓取http://weibo.com/1380274560/yuLM04JBb次贴的评论和转发用户。
抓取微博贴内容的主题是weibo_one，定义转发线索，抓取转发用户时使用不同于贴内容的主题weibo_one_transmits，复制样本实现多实例抓取，翻页时使用线索映射，下一页标记映射。主题weibo_one_transmits设置了ajax抓取配置选项。
1 但抓取的数据始终没有翻页？改成相对索引，只能抓取第一页和第二页的内容，后面的就不抓了

Web信息提取

可以翻页，但是只能抓下来第一页面

Wed, 07/25/2012 - 21:56 — snowvivid1980

抓新浪的个人数据，可以正常翻页，但是只能抓下来第一页面，（只能生成一个XML文件）请问是什么问题？

对配置文件的什么参数进行修改？谢谢！

Web信息提取

1 comment

请教关于(1)加载信息结构(2)局部刷新ajax翻页的问题

Sat, 07/21/2012 - 21:31 — radiance_booster

首先感谢fuller~

我用firefox13.0.1 EN,对应下载了metaseeker en

我的问题针对 blg_cmt_test 这个信息结构

(1)我上传并在datascraper里实现部分功能的信息结构，在重新加载的时候总是出问题
一直提醒需要resume, resume后显示can't position the container No.0, No1.
这是为什么呢？是信息结构哪里不对吗？

(2)我想用这个信息结构抓取新浪博客的评论，评论区是在博文下局部刷新的

Web信息提取

Login to post comments
Read more

能否不要抓重复的网址呢？

Thu, 07/19/2012 - 16:45 — fredmao

我设定好线索去抓网页的东西，发现一个困惑：
被抓的页面内，包含的线索，有可能含有刚才抓取过的页面网址。
这样出现的极端现象就是：两个页面反复交替抓取，这显然是不合适的。
怎么杜绝此现象呢？请帮助解答，多谢！

Web信息提取

1 comment

为什么新浪微博的粉丝名单不能抓取啊？求教啊！！

Wed, 07/18/2012 - 21:30 — terry2

我想把我的微博的粉丝名单抓下来，可是加载页面后，点击粉丝的名字，显示“can't find the node”，求教大神是什么原因！

Web信息提取

2 comments

能否把提取的数据直接保存到数据库里？

Tue, 07/10/2012 - 17:12 — fredmao

分散很多xml文件，感觉很不方便，能否都保存在数据库里呢？即便是access也行啊。
如果手工再合并再处理，我也知道可以，不是要多折腾麻烦吗，有办法直接入库吗？
谢谢。

Web信息提取

1 comment

关于翻页爬取问题

Sun, 07/08/2012 - 09:00 — ylbaobao

您好！
最近在使用爬虫进行翻页抓取时发现不能抓到最后一页，有时少抓一页，有时少抓两页，而且翻页的内容不再是在一个XML文件中存储，而是一页就存一个XML。想请教您是定义的规则不对，还是用的版本需要升级？
抓取的主题名是ylpw，请您帮忙看看，谢谢！

Web信息提取

1 comment

土豆页面上的东西抓不下来

Fri, 07/06/2012 - 14:32 — ruochen

第一级：demo_pptv3_first：网址链接：http://list.pptv.com/sort_list/2--5----4.html
第二级：demo_pptv3_second：网址链接：http://www.pptv.com/page/38824.html
选择了延时和积极模式，但是到了第二级抓取的时候只有第一个页面会被抓下来，之后一直出错，说页面加载超时，帮忙看看这是什么问题~

Web信息提取

1 comment

卓越网商品数据分级抓取

Mon, 07/02/2012 - 15:32 — ruochen

做卓越网商品数据分级抓取练习的时候，到第二步，定义完下一级线索之后，规则上传不上去，出现：
上载信息结构描述文件失败：Exception caught

这是什么问题？

Web信息提取

3 comments

切换语言