新浪的网页评论抓不了

Fri, 03/15/2013 - 14:38 — liuyue8453200

新浪的网页评论没有翻页符号只是通过点击显示更多来查看更多的内容有3个分开的DIV分别是显示更多内容继续加载页面和一是最后一页那么想抓取网页上所有未显示的评论怎么办？我尝试过点击显示更多DIV但是不成功我的主题是郭美美网页地址是http://comment4.news.sina.com.cn/comment/skin/default.html?channel=gn&newsid=1-1-23652335&style=0 麻烦帮我看一下还有就是我也出现了重复抓取无数条的现象可是不知道问题在哪里 datascrp 显示的内容是 suitable data schema cannot be found for clueid 59963731 in ost inthread cycle 可是没理解什么意思也不知道怎么解决还有就是在网页中如果评论中应用了其他人的评论再进行评论的怎么抓取为什么在抓取的时候会中断？谢谢麻烦了帮我看看吧

MetaSeeker工具包

Fri, 03/15/2013 - 17:47 — Fuller

抓取新浪新闻评论的主题名是什么

抓取新浪新闻评论的主题名是什么？帖出来我们可以加载上看看问题在哪。

模拟点击“显示更多评论”应该是可以的，但是有些网页的点击执行程序比较特别，您可以尝试修改一下线索映射的DOM节点，您不要选择DIV做线索映射，而是用A做线索映射，映射给一个记号类线索。

这种网页，在点击“显示更多评论”后，抓取到的信息肯定有上次已经抓过的信息，需要在入库的时候过滤掉重复信息。

suitable data schema ...表示您定义的信息结构不合适，抓不到数据。

引用比较难处理，因为很多新闻网站的评论引用层次是没有限制的，如果只被引用一次，像微博那样，定义一个嵌套的信息结构就行了，参看《树状整理箱》。但是，如果引用次数不受限制，就不知道该定义多少层整理箱。为了处理这种情况，可以将评论及其引用放在一起抓下来，将抓取结果存入数据库的时候用程序将引用一层层分开

Fri, 03/15/2013 - 21:23 — liuyue8453200

重复信息怎么过滤掉呢

我按照您说的 A做了线索映射抓取了可是又是一个页面的内容不断重复而且datascrp还一直不停止一直在抓取都有几千条了可是都是重复的怎么过滤重复信息呢我抓的新浪新闻主题是调查称郭美美与红十字总会及商红会无任何关系网址是http://comment4.news.sina.com.cn/comment/skin/default.html?channel=gn&newsid=1-1-23731180&style=0

不知道怎么处理谢谢麻烦了

Sat, 03/16/2013 - 18:34 — Fuller

另外，DataScraper需要打开滚屏功能，让DataScraper自动滚动到最后然后模拟点击

GooSeeker