请问,我在用集搜客爬取一个微博网站的签到数据,却爬取不成功,我的主题名是:青岛签到数据1,爬取的网站是https://weibo.com/p/1001018008637020000000000 该怎么解决才能爬取签到数据?
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2020-2-22 19:19

shenzhenwan10 金牌会员 发表于 2018-6-20 22:58:06 | 显示全部楼层
你这个规则没有做成功,加载之后有报错,主要是以下几点:
1. 样例复制做的不对,可以参考这篇教程https://www.gooseeker.com/doc/article-330-1.html
2. 可以对抓取内容做上定位映射,参考https://www.gooseeker.com/doc/article-344-1.html
3. 翻页线索定义需要重新进行记号映射和翻页区映射,参考https://www.gooseeker.com/doc/article-334-1.html
举报 使用道具
wmf1991yeah 新手上路 发表于 2018-6-21 09:10:56 | 显示全部楼层
shenzhenwan10 发表于 2018-6-20 22:58
你这个规则没有做成功,加载之后有报错,主要是以下几点:
1. 样例复制做的不对,可以参考这篇教程https:// ...

谢谢大神指导,经过您的方法,数据抓取成功了。不过我是免费版的,数据抓取的数量是有多少数量的限制?我看我抓取的签到数据量感觉比原有的网站要少呢。

举报 使用道具
汽车论坛 中级会员 发表于 2018-6-21 09:56:52 | 显示全部楼层
本帖最后由 汽车论坛 于 2018-6-21 10:00 编辑
wmf1991yeah 发表于 2018-6-21 09:10
谢谢大神指导,经过您的方法,数据抓取成功了。不过我是免费版的,数据抓取的数量是有多少数量的限制?我 ...

1、规则的样例复制有问题,要选择相邻的两个兄弟节点做样例复制,所以要选择第一条签到信息的区块节点做为第一个样例节点和第二条信息的区块节点做为第二个样例节点做样例复制,才能完整的把一页数据采集下来

2、不要把所有抓取内容都勾上关键内容,否则遇到没有关键内容的页面就会报错,选择一个必能采集到的内容勾选为关键内容就可以了


举报 使用道具
Fuller 管理员 发表于 2020-2-22 19:19:02 | 显示全部楼层
已经上线了4个微博签到数据的快捷采集,不用做规则,直接使用:
1,微博签到采集_主页
2,微博签到采集_探索此地
3,微博签到采集_此地热议
4,微博签到采集_来过此地的人

用这些工具把微博数据采集下来以后,可以把里面的地址信息找出来,然后再在百度地图api上翻译成经纬度。

找的过程中,可以手工找,手工去查百度得到经纬度。如果数量很大,那就要写一个程序翻译经纬度,或者委托我们做处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 17:43