21#
HJLing 版主 发表于 2017-3-21 11:21:23 | 只看该作者
sunshine_h2so4 发表于 2017-3-21 09:59
还是采集不到数据,能不能请你试一下看,博文独立网址:
http://weibo.com/1235570754/EuGGr2FAh?refer_ ...

测试了没有问题
你有没有在浏览器先登录微博账号

举报 使用道具
22#
sunshine_h2so4 初级会员 发表于 2017-3-21 16:04:52 | 只看该作者
HJLing 发表于 2017-3-21 11:21
测试了没有问题
你有没有在浏览器先登录微博账号

好了,可以采集数据了,就是网络比较差的时候还是不行
举报 使用道具
23#
sunshine_h2so4 初级会员 发表于 2017-4-5 14:59:16 | 只看该作者
Fuller 发表于 2017-3-20 23:18
这个工具直接用就行,不用做规则

你好,我想问一下,如果在抓取样例数据时,需要额外在网页结构的另一地方抓取一个字段,这种情况该怎么处理呢
举报 使用道具
24#
Fuller 管理员 发表于 2017-4-5 16:06:48 | 只看该作者
sunshine_h2so4 发表于 2017-4-5 14:59
你好,我想问一下,如果在抓取样例数据时,需要额外在网页结构的另一地方抓取一个字段,这种情况该怎么处 ...

你这个情况似乎应该创建另一个整理箱,在网页上,如果有些内容跟另外一些内容离着比较远,那么就另外创建一个整理箱。你可以截个图看看
举报 使用道具
25#
sunshine_h2so4 初级会员 发表于 2017-4-5 20:46:39 | 只看该作者
Fuller 发表于 2017-4-5 16:06
你这个情况似乎应该创建另一个整理箱,在网页上,如果有些内容跟另外一些内容离着比较远,那么就另外创建 ...


就是我想抓取博主主页当中的每一条微博信息,但是我想在抓取每条微博信息的同时,能够获取到当前用户的粉丝数
我尝试过另建一个整理箱,但是在爬数据的时候显示匹配失败


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
26#
Fuller 管理员 发表于 2017-4-5 21:01:05 | 只看该作者
sunshine_h2so4 发表于 2017-4-5 20:46
就是我想抓取博主主页当中的每一条微博信息,但是我想在抓取每条微博信息的同时,能够获取到当前用户的 ...

这种情况最好建立两个整理箱。为了防止匹配失败,尽量用上定位标志映射。另外,如果主抓微博消息的话,关键内容只在微博消息整理箱中设置,而另一个整理箱可以不设置关键内容。减少匹配失败的概率,但是也增加抓漏的概率了。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 将文本聚类和LDA分析模块安装在数据盘上的
  • GooSeeker分词软件的tf-idf算法和特征词选
  • 边表格式和矩阵格式的共词矩阵表有什么区别
  • GooSeeker分词、情感分析和文本分析平台简
  • 聚类分析和主题分析中的特征选择参数的设置

热门用户

GMT+8, 2026-3-26 03:38