有些微博上,有发博文的地点信息,这个地点信息是否能采集下来
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2016-10-10 18:06

沙发
Fuller 管理员 发表于 2016-8-7 11:20:47 | 只看该作者
集搜客网络爬虫采用专有的抓动态信息的技术,一般来说,能在网页上看到的信息就能采集下来。不是每个人都在发微博的时候公开地址信息,那么需要找一个含有地址信息的微博作为样本页面,在上面做采集规则
举报 使用道具
板凳
HJLing 版主 发表于 2016-10-10 17:38:01 | 只看该作者
微博地点专门有个字段存放 在title属性里 需要自定义xpath来采集


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
地板
Fuller 管理员 发表于 2016-10-10 18:04:53 | 只看该作者
HJLing 发表于 2016-10-10 17:38
微博地点专门有个字段存放 在title属性里 需要自定义xpath来采集

放在@title中的话,就特别好采集了,做内容映射,就像采集普通文本一样
举报 使用道具
5#
HJLing 版主 发表于 2016-10-10 18:06:15 | 只看该作者
Fuller 发表于 2016-10-10 18:04
放在@title中的话,就特别好采集了,做内容映射,就像采集普通文本一样

是 不过遇到第一条微博没有地点 就需要自定义Xpath来采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 为什么BERTopic话题缩减后特征词出现大量没
  • GooSeeker分词扩展模块的安装方法
  • BERTopic做主题合并以后为什么得到的实际主
  • 怎样使用BERTopic做话题检测和主题聚类
  • 什么是SBERT

热门用户

GMT+8, 2026-6-16 09:22