这样的新浪数据该如何采集

Tue, 03/20/2012 - 10:07 — snowvivid1980

利用关键字“数据挖掘”检索新浪微博，将出现的结果页面作为数据源

定位DOM树的时候发现微博文被切割成了很多块，凡是出现“数据挖掘”关键字被作为独立的text文本块，由于博文中出现的次数不同，因此每段微博内容都有数目不等的text。

请问这种情况该如何做内容映射才能采集到完整的内容呢？

Tue, 03/20/2012 - 11:34 — Fuller

参看《抓取网页片断》，可以只抓取文字，也可以连html标签也抓取下来

GooSeeker