21#
HJLing 版主 发表于 2017-3-21 11:21:23 | 只看该作者
sunshine_h2so4 发表于 2017-3-21 09:59
还是采集不到数据,能不能请你试一下看,博文独立网址:
http://weibo.com/1235570754/EuGGr2FAh?refer_ ...

测试了没有问题
你有没有在浏览器先登录微博账号

举报 使用道具
22#
sunshine_h2so4 初级会员 发表于 2017-3-21 16:04:52 | 只看该作者
HJLing 发表于 2017-3-21 11:21
测试了没有问题
你有没有在浏览器先登录微博账号

好了,可以采集数据了,就是网络比较差的时候还是不行
举报 使用道具
23#
sunshine_h2so4 初级会员 发表于 2017-4-5 14:59:16 | 只看该作者
Fuller 发表于 2017-3-20 23:18
这个工具直接用就行,不用做规则

你好,我想问一下,如果在抓取样例数据时,需要额外在网页结构的另一地方抓取一个字段,这种情况该怎么处理呢
举报 使用道具
24#
Fuller 管理员 发表于 2017-4-5 16:06:48 | 只看该作者
sunshine_h2so4 发表于 2017-4-5 14:59
你好,我想问一下,如果在抓取样例数据时,需要额外在网页结构的另一地方抓取一个字段,这种情况该怎么处 ...

你这个情况似乎应该创建另一个整理箱,在网页上,如果有些内容跟另外一些内容离着比较远,那么就另外创建一个整理箱。你可以截个图看看
举报 使用道具
25#
sunshine_h2so4 初级会员 发表于 2017-4-5 20:46:39 | 只看该作者
Fuller 发表于 2017-4-5 16:06
你这个情况似乎应该创建另一个整理箱,在网页上,如果有些内容跟另外一些内容离着比较远,那么就另外创建 ...


就是我想抓取博主主页当中的每一条微博信息,但是我想在抓取每条微博信息的同时,能够获取到当前用户的粉丝数
我尝试过另建一个整理箱,但是在爬数据的时候显示匹配失败


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
26#
Fuller 管理员 发表于 2017-4-5 21:01:05 | 只看该作者
sunshine_h2so4 发表于 2017-4-5 20:46
就是我想抓取博主主页当中的每一条微博信息,但是我想在抓取每条微博信息的同时,能够获取到当前用户的 ...

这种情况最好建立两个整理箱。为了防止匹配失败,尽量用上定位标志映射。另外,如果主抓微博消息的话,关键内容只在微博消息整理箱中设置,而另一个整理箱可以不设置关键内容。减少匹配失败的概率,但是也增加抓漏的概率了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 360或火绒等杀毒软件导致GooSeeker爬虫软件
  • 话题分析(NMF模型和LDA模型)软件的安装和
  • 运行Apple无法验证的程序的方法
  • 文本聚类分析软件的安装和使用方法
  • 利用AI阅读和分析文本:扣子COZE记录用户反

热门用户

GMT+8, 2025-5-5 06:54