Web信息提取

翻页抓微博，总共五十页，翻到24页就停止了

Fri, 09/07/2012 - 11:33 — hammerlet

我在新浪微博中输入关键词，然后抓取，翻到24页就停止了，总共五十页，schema叫“绝食”。
请问这是怎么回事呢？
More Pages设置是30，Delay ratio是2.
问题可能出在哪儿呢？
谢谢！

Web信息提取

3 comments

样例抓取一定要是相邻的吗？

Fri, 09/07/2012 - 09:49 — hammerlet

我又一次用样例，用的不是相邻的，结果它抓取的规则好像就是按照这两个样例之间的间隔等距地抓。。。。
会出现这个情况吗？咋回事呀？

Web信息提取

1 comment

请问图片可以抓取吗？

Fri, 09/07/2012 - 09:44 — hammerlet

请问图片可以抓取吗？比如有些信息他是以图片的形式呈现，譬如vip这些标志，或者有些就直接是照片。
谢谢啦！

Web信息提取

1 comment

回帖该怎么抓呢？

Thu, 09/06/2012 - 22:25 — hammerlet

比如微博或者网易的跟帖，很多都是回别人的贴，这样一种帖子和帖子的关系有办法标志出来吗？或者在抓内容的选项中体现出来？
可以做到吗？
谢谢啦！

Web信息提取

1 comment

如果我想抓一个人微博的关注名单，然后在抓他所有关注的人的关注名单，如此不断抓下去

Thu, 09/06/2012 - 22:24 — hammerlet

请教一个问题：
如果我想抓一个人微博的关注名单，然后再抓他所有关注的人的关注名单，然后再抓下一个关注名单里所有人的关注名单。如此不断抓下去。
这个软件可以有帮助到吗？
谢谢啦！

Web信息提取

1 comment

一个网页，有主帖和跟帖，我只想提主帖怎么办呢？

Thu, 09/06/2012 - 16:12 — hammerlet

主帖和跟帖的形式是一样的，都是replies，然后分成right replies和left replies，
如果我只想提主帖，有什么办法呢？

metastudio的filter editor是为了这个准备的吗？
谢谢！！

Web信息提取

1 comment

提取网帖，它是分段的该怎么办?

Thu, 09/06/2012 - 15:05 — hammerlet

DOM树显示的是
BR
#text
BR
#text
BR
#text
BR
#text
我采用的是分层提取，首先是帖子标题的界面，然后再点进去内容，就是想把每个帖子的内容都扒下来，但是现在他每个text是一个段落，这该怎么办呢？因为不同的帖子，他的段落应该也是不一样的，无法给定啊。
能否指教下~

Web信息提取

3 comments

DataScraper批量任务求助

Wed, 09/05/2012 - 12:11 — cjnshufe

我想搜集一个月内每天关于“画皮”话题的微博。为此我建立了三十个采集规则。一个一个手动加载太费时了。有没有方法让DataScrper自动地抓取三十个规则？

Web信息提取

1 comment

这个怎么处理呢？软件说cannot be found in the first inthread cycle

Tue, 09/04/2012 - 17:35 — hammerlet

信息结构的名称是
demo_xindan
我检查到的是最后一面它抓不了，这个怎么处理呢？
谢谢啦！

Web信息提取

1 comment

软件能否生成excel的文件？

Tue, 09/04/2012 - 14:01 — hammerlet

想请问有什么办法使结果成为excel文件，比如要提取商品价格，商品名等等，能否使每一个项成为一个竖行，这样方便使用统计软件。
有没有这种可能？

Web信息提取

1 comment

切换语言