Web信息提取

翻页抓微博,总共五十页,翻到24页就停止了

我在新浪微博中输入关键词,然后抓取,翻到24页就停止了,总共五十页,schema叫“绝食”。
请问这是怎么回事呢?
More Pages设置是30,Delay ratio是2.
问题可能出在哪儿呢?
谢谢!

样例抓取一定要是相邻的吗?

我又一次用样例,用的不是相邻的,结果它抓取的规则好像就是按照这两个样例之间的间隔等距地抓。。。。
会出现这个情况吗?咋回事呀?

请问图片可以抓取吗?

请问图片可以抓取吗?比如有些信息他是以图片的形式呈现,譬如vip这些标志,或者有些就直接是照片。
谢谢啦!

回帖该怎么抓呢?

比如微博或者网易的跟帖,很多都是回别人的贴,这样一种帖子和帖子的关系有办法标志出来吗?或者在抓内容的选项中体现出来?
可以做到吗?
谢谢啦!

如果我想抓一个人微博的关注名单,然后在抓他所有关注的人的关注名单,如此不断抓下去

请教一个问题:
如果我想抓一个人微博的关注名单,然后再抓他所有关注的人的关注名单,然后再抓下一个关注名单里所有人的关注名单。如此不断抓下去。
这个软件可以有帮助到吗?
谢谢啦!

一个网页,有主帖和跟帖,我只想提主帖怎么办呢?

主帖和跟帖的形式是一样的,都是replies,然后分成right replies和left replies,
如果我只想提主帖,有什么办法呢?

metastudio的filter editor是为了这个准备的吗?
谢谢!!

提取网帖,它是分段的该怎么办?

DOM树显示的是
BR
#text
BR
#text
BR
#text
BR
#text
我采用的是分层提取,首先是帖子标题的界面,然后再点进去内容,就是想把每个帖子的内容都扒下来,但是现在他每个text是一个段落,这该怎么办呢?因为不同的帖子,他的段落应该也是不一样的,无法给定啊。
能否指教下~

DataScraper批量任务求助

我想搜集一个月内每天关于“画皮”话题的微博。为此我建立了三十个采集规则。一个一个手动加载太费时了。有没有方法让DataScrper自动地抓取三十个规则?

这个怎么处理呢?软件说cannot be found in the first inthread cycle

信息结构的名称是
demo_xindan
我检查到的是最后一面它抓不了,这个怎么处理呢?
谢谢啦!

软件能否生成excel的文件?

想请问有什么办法使结果成为excel文件,比如要提取商品价格,商品名等等,能否使每一个项成为一个竖行,这样方便使用统计软件。
有没有这种可能?

Syndicate content