Web信息提取

网易新闻评论

Hi Fuller, 请帮忙看看这个主题 abc_163_1,我想翻页抓取一则新闻后的评论信息,一共有4页,我已经设置好了AJAX抓取模式,但是在翻到第二页的时候,datascraper 就停止响应了。 我用的是最新的4.11.5版本,谢谢!

Schema list 和 Theme List 能否只列出自己数据

Schema list 和 Theme List 能否只列出自己数据

把别人的都列出来,太多了。。自己的好像也难找。。。

关于当当评论分页抓取时的问题

我在学习时用当当网站评论分页抓取时,遇到一个问题,在选择“下一页”作为记号节点时,其dom树为:“
div
省略软干节点
span next
attribute
A
attribute
@herf

手动分级批量抓取时,第1级翻页抓取成功后,第2级抓取只抓了一个页面

我建立了一个两级抓取,第1级抓取BBS主帖的标题和这个主帖的地址用于抓取其回帖,设置了信息线索,先进行第1级抓取,成功。然后进行第2级的抓取,发现只提取了样本页面,没有自动从第1级提取的地址往后提取。我应该怎么操作呢?谢谢!

这种情况要翻页用哪种线索?

我是刚刚开始学习使用metastudio抓取网上的数据,现在遇到的问题是:要分级翻页抓取BBS主帖及回帖,网页是:http://topic.csdn.net/s/Java/0.html,不知道用那种线索实现翻页和分级抓取。很急,希望能得到帮助,不甚感激!

新浪新闻的重复评论

你好!我正在用datascraper收集一些新浪新闻底下的评论,有些页数很多,完成以后,我自己对包含html格式的结果进行了处理,但是发现有很多评论是重复的,如下: (每一个id对应一个用户的一条评论)
Found a same one: id: 222--->id: 219
Found a same one: id: 223--->id: 220
Found a same one: id: 224--->id: 221
Found a same one: id: 301--->id: 300
Found a same one: id: 490--->id: 489
Found a same one: id: 796--->id: 415
....

请教关于某些网页翻页抓取时,禁止频繁刷新页面的抓取设置方法

我想请教一下这里的抓取高手,某些网站当频繁点击下一页时会出现“禁止频繁刷新页面,请稍候再试”,对于些类的网站,在使用工具包抓取时有没有可以设置抓取间隔时间的设置方式,延长模式我试过了,不可用
先谢了

Fuller,请教一下,MetaSeeker能做成分布式的吗?

请教一下,MetaSeeker能做成分布式的吗?
试想想,如果在不同地区的机器上多开几个DataScraper进行数据提取,那是不是可以做到分布式的效果,但我还是没想明白,他们做的工作好像是重复的,就是说,提取出来的数据都是跟其他机器没什么两样的。运行机制没搞懂,请大家帮帮忙

昨天做了一个两级抓取,第一次运行良好,第二次发现没数据了。

昨天做了一个两级抓取,第一次运行良好,第二次发现没数据了。

我第一次抓取之后发现值不对,后来修改然后上传,再次运行发现抓不到数据了。
请问线索被抓取过后,是不是不会再抓取?我要进行多次调试抓取怎么办?
MetaSeeker的动态调试能力弱了点。

Fuller,怎么不建个群,这样讨论方便很多,可以聚集人气。上Q就可以讨论。你说呢?

MetaSeeker是否有地址补全功能?

我现在在定义两层的抓取,第一层提取到的网址形如:/gp/search/……………………,,感觉没有补全,这样的地址到了第二层能访问吗?

Syndicate content