有关微博抓取的几个问题

Wed, 08/20/2014 - 15:27 — alice413

在抓取微博的时候，按照相关规则进行内容映射和线索映射后，可以一次抓取40页左右的微博。遇到几个问题想请教：

1.按照规则定义，但是每次抓取的微博都存在内容不全的问题，尝试过很多定义的方法效果却不是很好，有无好的解决方法？

2.翻页抓取，总会碰到微博的小机器人，输完验证码后就无法再抓取了，如何解决？

3.如何在metastudio中调取之前定义好的主题呢，想修改之前的抓取规则……？

Mon, 10/27/2014 - 14:31 — du576494773

我的主题名ebola,为什么只能抓两页，求助

Mon, 10/13/2014 - 11:01 — xpt32

你好，在新浪微博抓取信息时，设置样例复制或Freeformat后，转发数和评论数都抓取的是转发数，而不设置这两个，可以正常抓取。我看了一下代码，新浪微博的转发数和评论数的class值和结构基本一样，请问，有什么方法可以解决这个问题吗？谢谢

Tue, 10/14/2014 - 16:45 — Fuller

如果您会阅读XSLT和XPath，那么可以直接阅读 “MAP文件”窗体中的内容，就是一个XSLT规则，可以直接在上面修改，然后点击右边的保存按钮，这是手工修改，这种方法会被下次点击“schema”按钮时用自动生成的规则覆盖掉，每次都要重新手工修改。

还有一种方法，就是自定义xpath，在本章“博客文章”栏目里面有很多关于自定义xpath的说明

Thu, 08/21/2014 - 09:36 — Fuller

最好把主题名告诉我，我加载上看看，如果做的freeformat不合适，或者是网页上有很多@id, @class可能会干扰抓取定位，则可能出现这种问题，最管用的方法是用自定义xpath表达式。当然也可能是ajax选项没有设置

如果遇到验证码，可能抓得太快，可以用crontab.xml指令文件，设置minIdle, maxIdle，每抓一页等待一下

另外，打开AJAX选项，当遇到验证码后，手工输入后还能继续抓取

修改以前定义的规则，请看这篇文章《网页抽取规则失效怎么办》

Fri, 08/22/2014 - 09:05 — alice413

GooSeeker