这样的新浪数据该如何采集

利用关键字“数据挖掘”检索新浪微博,将出现的结果页面作为数据源

定位DOM树的时候发现微博文被切割成了很多块,凡是出现“数据挖掘”关键字被作为独立的text文本块,由于博文中出现的次数不同,因此每段微博内容都有数目不等的text。

请问这种情况该如何做内容映射才能采集到完整的内容呢?

设置block特性,抓取整个文本块

参看《抓取网页片断》,可以只抓取文字,也可以连html标签也抓取下来