24 30852

抓取推特推主主页信息

HJLing 于 2015-9-24 16:00 发表 [复制链接]
Fuller 管理员 发表于 2020-3-14 08:24:39 | 显示全部楼层
yanhanruoyu961121 发表于 2020-3-14 03:21
我将那个规则加载出来时遇到的问题,您看看能帮到我吗?

加载抓取规则遇到的错误:

你是下载的这个现成的规则?
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 14:04:05 | 显示全部楼层
Fuller 发表于 2020-3-14 08:24
你是下载的这个现成的规则?


举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 14:15:14 | 显示全部楼层
Fuller 发表于 2020-3-14 08:24
你是下载的这个现成的规则?

twitter_shouye253778    您能帮看看失败原因在哪吗?。。

举报 使用道具
Fuller 管理员 发表于 2020-3-14 15:56:27 | 显示全部楼层
yanhanruoyu961121 发表于 2020-3-14 14:15
twitter_shouye253778    您能帮看看失败原因在哪吗?。。

我把规则修改了一下,您在重新下载一次,就可以用上我新修改的规则。

这次我把规则改动比较大,加了连续动作,是“滚屏”类型的动作,因为推特是瀑布流的网页,往下滚的时候就会有新内容显示出来。所以需要滚屏动作。这样就要注意,不能打开DS打数机的滚屏。DS打数机菜单 配置-》滚屏参数,把滚屏次数设置成0,否则会互相干扰。
滚屏动作里面,滚动次数是500,如果你觉得不够,可以加载规则以后修改这个数字
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 17:19:18 | 显示全部楼层
Fuller 发表于 2020-3-14 15:56
我把规则修改了一下,您在重新下载一次,就可以用上我新修改的规则。

这次我把规则改动比较大,加了连续 ...

您好,我加载好您更新后的规则了,在样板网站上也成功爬取了数据。  我自己个人研究了半天如何爬推特,由于对于编程零基础,所以只能根据教程探索,在制定这个规则上想问您几个问题。。
1. 我观察您的规则,您似乎没有做样例复制映射,是为什么呢?
2、有定位编号的是您有做精确的内容映射吗?然后定位标志映射就是做一个大致是吗?
3.如果不适用谋数台的连续动作而使用ds打数机的滚屏也可以吗?还是说基于您的爬虫规则,一定要用谋数台?(因为滚的有些慢。。。是因为额外延时的关系吗?)
4.因为从主页上往前爬取的数目有限,加载到一定数目就不加载了,我想用这条规则去抓推特以时间为变量搜索的页面,能够识别但爬的不全,请问我要如何去修改这条规则呢?(https://twitter.com/search?f=live&q=(from%3ART_com)%20until%3A2020-03-01%20since%3A2019-09-01&src=typed_query) 比如这个网页。。。我开始爬的话它是从29号开始的,不知道为什么。。

最后非常感谢您更新规则!!!



举报 使用道具
Fuller 管理员 发表于 2020-3-14 18:06:51 | 显示全部楼层
yanhanruoyu961121 发表于 2020-3-14 17:19
您好,我加载好您更新后的规则了,在样板网站上也成功爬取了数据。  我自己个人研究了半天如何爬推特,由 ...

1,可以用定位标志映射代替样例复制,参看教程:《定位标志采集列表数据》。
给推特定义规则时,我发现网页上有好多一样的class属性值,如果不限定一下整理箱的最顶层容器节点的定位,就很容易抓取到不想要的内容。所以,我经过几次测试以后,发现用样例复制没法做定位限制,所有就采用了定位标志映射代替样例复制映射。

2,定位标志映射是为了限定网页位置,需要在内容映射基础上做定位标志映射,能更精准地采集数据。 以前版本是允许只做定位标志映射的,现在不提倡这样用了,而是要在内容映射基础上在做定位标志映射。定位标志相当于在网页上划定一个范围,而不是整个网页的范围,这样做可以精准定位

3,我本来是用DS打数机的自动滚屏,发现twitter这个网站比较特殊,滚屏到下面的时候,上面的内容就没有了,所以,用DS打数机的自动滚屏功能,等滚屏完成后再去采集,只会采集到最新显示出来的内容。所以,不能用DS打数机的自动滚屏。而是用连续动作的滚屏,连续动作每做一次都要采集一次,所以,就不怕twitter把老内容清除了。

4,twitter我用的不多,我感觉跟微博一样,用advanced search功能设置好时间,就能得到一个网址,把这个网址添加到规则中就行。设置时间段的时候,不要跨度太大,尤其是一些热门的关键词,不能跨度大了。

关键词搜索结果用这个规则不一定合适,这个规则是采集某个推主发表的tweet的
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 18:36:24 | 显示全部楼层
Fuller 发表于 2020-3-14 18:06
1,可以用定位标志映射代替样例复制,参看教程:《定位标志采集列表数据》。
给推特定义规则时,我发现网 ...

真的非常非常感谢您的耐心回答,我真的学到好多好多。。
由于我需要爬以时间搜索为结果的页面,我依照您的设计规则逻辑设计了一个新的规则,在爬的时候日志没有一项一项成功的显示而且爬出来后以几个数据为一组,会出现重复的情况,然后新的数据也会几个为一组,出现重复的情况。
我设计的规则叫做 推特抓取111111
下面是图片展示
您能简单帮我看看问题出在哪里吗? 是我的内容映射和定位标志映射不够准确吗?。。。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 19:24:42 | 显示全部楼层
Fuller 发表于 2020-3-14 18:06
1,可以用定位标志映射代替样例复制,参看教程:《定位标志采集列表数据》。
给推特定义规则时,我发现网 ...

我回看了一下我下午用您的规则爬的样板网站的数据,数据也是重复的现象,不知道是不是因为我之前调过打数机的配置。。但是我爬的时候都是把打数机的滚屏调为0的。。。。
我刚刚又试了一次,也是重复的。。。
您能帮我看看原规则有什么问题吗?还是我调了打数机的设置?我重装软件会不会好?o(╥﹏╥)o



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
yanhanruoyu961121 初级会员 发表于 2020-3-14 19:25:54 | 显示全部楼层
Fuller 发表于 2020-3-14 18:06
1,可以用定位标志映射代替样例复制,参看教程:《定位标志采集列表数据》。
给推特定义规则时,我发现网 ...

我直接重新下载原规则加载完直接爬出来的也是重复的
举报 使用道具
Fuller 管理员 发表于 2020-3-14 19:29:59 | 显示全部楼层
yanhanruoyu961121 发表于 2020-3-14 18:36
真的非常非常感谢您的耐心回答,我真的学到好多好多。。
由于我需要爬以时间搜索为结果的页面,我依照您 ...

这个规则看起来没有什么问题。用连续滚屏的话,会有很多重复数据,要做重复过滤。产生重复的原因有多种:
1,网页内容变化导致的,比如,很热的关键词,正滚屏到下一页,由于出现新的消息,分页就会改变,会造成重复
2,滚屏次数可能不合适,现在是每次滚一屏,也许滚一屏并不能激发加载新的内容,因为,网页可能一开始预先加载了3屏。所以,可以改成3试试,改的大了也许会漏数据


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 22:47