有些微博上,有发博文的地点信息,这个地点信息是否能采集下来
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-10-10 18:06

沙发
Fuller 管理员 发表于 2016-8-7 11:20:47 | 只看该作者
集搜客网络爬虫采用专有的抓动态信息的技术,一般来说,能在网页上看到的信息就能采集下来。不是每个人都在发微博的时候公开地址信息,那么需要找一个含有地址信息的微博作为样本页面,在上面做采集规则
举报 使用道具
板凳
HJLing 版主 发表于 2016-10-10 17:38:01 | 只看该作者
微博地点专门有个字段存放 在title属性里 需要自定义xpath来采集


举报 使用道具
地板
Fuller 管理员 发表于 2016-10-10 18:04:53 | 只看该作者
HJLing 发表于 2016-10-10 17:38
微博地点专门有个字段存放 在title属性里 需要自定义xpath来采集

放在@title中的话,就特别好采集了,做内容映射,就像采集普通文本一样
举报 使用道具
5#
HJLing 版主 发表于 2016-10-10 18:06:15 | 只看该作者
Fuller 发表于 2016-10-10 18:04
放在@title中的话,就特别好采集了,做内容映射,就像采集普通文本一样

是 不过遇到第一条微博没有地点 就需要自定义Xpath来采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 14:02