新浪的网页评论 抓不了

新浪的网页评论 没有翻页符号 只是通过点击 显示更多来查看更多的内容 有3个分开的DIV分别是 显示更多内容 继续加载页面 和一是最后一页 那么想抓取网页上所有未显示的评论怎么办 ? 我尝试过点击显示更多DIV但是不成功 我的主题是郭美美 网页地址是http://comment4.news.sina.com.cn/comment/skin/default.html?channel=gn&newsid=1-1-23652335&style=0 麻烦帮我看一下 还有就是我也出现了 重复抓取无数条的现象 可是不知道问题在哪里 datascrp 显示的内容是 suitable data schema cannot be found for clueid 59963731 in ost inthread cycle 可是没理解什么意思 也不知道怎么解决 还有就是 在网页中如果评论 中应用了其他人的评论 再进行评论的 怎么抓取 为什么在抓取的时候 会中断? 谢谢 麻烦了 帮我看看吧

抓取新浪新闻评论的主题名是什么

抓取新浪新闻评论的主题名是什么?帖出来我们可以加载上看看问题在哪。

模拟点击“显示更多评论”应该是可以的,但是有些网页的点击执行程序比较特别,您可以尝试修改一下线索映射的DOM节点,您不要选择DIV做线索映射,而是用A做线索映射,映射给一个记号类线索。

这种网页,在点击“显示更多评论”后,抓取到的信息肯定有上次已经抓过的信息,需要在入库的时候过滤掉重复信息。

suitable data schema ...表示您定义的信息结构不合适,抓不到数据。

引用比较难处理,因为很多新闻网站的评论引用层次是没有限制的,如果只被引用一次,像微博那样,定义一个嵌套的信息结构就行了,参看《树状整理箱》。但是,如果引用次数不受限制,就不知道该定义多少层整理箱。为了处理这种情况,可以将评论及其引用放在一起抓下来,将抓取结果存入数据库的时候用程序将引用一层层分开

重复信息怎么过滤掉呢

我按照您说的 A做了线索映射 抓取了 可是又是一个页面的内容不断重复 而且datascrp还一直不停止 一直在抓取 都有几千条了 可是都是重复的 怎么过滤重复信息呢 我抓的新浪新闻主题是 调查称郭美美与红十字总会及商红会无任何关系 网址是http://comment4.news.sina.com.cn/comment/skin/default.html?channel=gn&newsid=1-1-23731180&style=0

不知道怎么处理 谢谢 麻烦了

强制停止

点击“显示更多评论”相当于在翻页抓取,有些网站翻到最后一页后还有“显示更多评论”按钮,点击后仍然显示最后一页。对于这种情况,目前在线版没有完美的解决方案,只能在crontab.xml中设置depth值,比如depth=100则表示点击100次,选定一个数值后,有些网页没有很多评论,就会浪费些时间重复抓取,有些网页的评论多于100页,就会漏掉后面的那些

crontab.xml 找不到

我抓的这个网页 当翻到组后一页的时候 会提示 已经是最后一页的字样的 所以我说 我点击 “显示更多“的时候 我能在这个DIV后面再找到2个DIV 一个是”继续加载“还有一个是“已经是最后一页” 关键还有一点 就是 评论的翻页面有很多页 可是我抓下来的评论也不是在最后一页的评论中重复 而是前2页左右 后面的评论就完全一样了 所以我想这个应该不是因为已到最后一页才重复的 那么是什么原因呢 ?麻烦您了

crontab.xml要手工创建

参看《周期性网页抓取调度文件》手工创建一个crontab.xml,然后用Firefox打开看看有没有错误。

您抓取到的结果文件大小是否在逐渐增大?如果逐渐增大,那是正常的。点击“显示更多”后,原先显示的内容还在,又会在后面增加一些新评论,所以,抓取下来的结果包括了原先显示的内容,这部分是重复的。

另外,DataScraper需要打开滚屏功能,让DataScraper自动滚动到最后然后模拟点击