利用关键字“数据挖掘”检索新浪微博,将出现的结果页面作为数据源
定位DOM树的时候发现微博文被切割成了很多块,凡是出现“数据挖掘”关键字被作为独立的text文本块,由于博文中出现的次数不同,因此每段微博内容都有数目不等的text。
请问这种情况该如何做内容映射才能采集到完整的内容呢?
参看《抓取网页片断》,可以只抓取文字,也可以连html标签也抓取下来
设置block特性,抓取整个文本块
参看《抓取网页片断》,可以只抓取文字,也可以连html标签也抓取下来