11 12691

知乎采集关键词问答一级

ym 于 2015-11-12 14:40 发表 [复制链接]
我新发布了一个采集规则:
知乎采集关键词问答一级


详细信息:
可采集知乎不同关键词的搜索结果网页,使用方法:1、下载规则后,点击运行;2、在DS打数机里右击规则名,选择管理线索->添加,把网址批量拷贝到窗口中保存;3、然后点击单搜/集搜,输入网址数,DS窗口就会依次采集不同关键词的搜索结果。更多操作方法请去看教程。

知乎采集关键词问答的顺序是先采集关键词搜索页面,再通过答案链接进入,采集每个问答的完整内容。需要用两级规则实现。
本规则是第一级规则,是采集关键词的搜索网页,通过设置层级采集,把采集到的答案链接作为第二级规则“知乎采集关键词问答二级”的网址入口,然后用规则“知乎采集关键词问答二级”把每个问答的完整内容采下来。


希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_98831.html
举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2018-2-11 16:23

golgo_forever 初级会员 发表于 2018-2-10 15:25:39 | 显示全部楼层
总显示匹配失败?怎么回事。
举报 使用道具
Fuller 管理员 发表于 2018-2-10 16:03:17 | 显示全部楼层
golgo_forever 发表于 2018-2-10 15:25
总显示匹配失败?怎么回事。

请注意有两种规则,一个是搜内容,一个是搜话题,你下载的是哪一个?
这里有个攻略,你可以参考一下:http://www.gooseeker.com/doc/thread-5656-1-1.html
举报 使用道具
Fuller 管理员 发表于 2018-2-10 16:21:34 | 显示全部楼层
golgo_forever 发表于 2018-2-10 15:25
总显示匹配失败?怎么回事。

我们正在检查你下载的这个规则,因为网站改版,这个规则失效了。
举报 使用道具
golgo_forever 初级会员 发表于 2018-2-10 16:35:10 | 显示全部楼层
Fuller 发表于 2018-2-10 16:03
请注意有两种规则,一个是搜内容,一个是搜话题,你下载的是哪一个?
这里有个攻略,你可以参考一下:htt ...

我的网址和资源里面提供的是一致的。。应该是一样的吧。

举报 使用道具
Fuller 管理员 发表于 2018-2-10 17:22:04 | 显示全部楼层
golgo_forever 发表于 2018-2-10 16:35
我的网址和资源里面提供的是一致的。。应该是一样的吧。

您好,原先这两个规则已经不适应现在的网页结构了,我重新做了两个,请在这里下载:
第一级:http://www.gooseeker.com/secure/ ... ew/share314300.html
第二级:http://www.gooseeker.com/secure/ ... ew/share314301.html

我把您下载原先两个规则的积分已经退还给您了。
举报 使用道具
Fuller 管理员 发表于 2018-2-10 17:55:54 | 显示全部楼层
Fuller 发表于 2018-2-10 17:22
您好,原先这两个规则已经不适应现在的网页结构了,我重新做了两个,请在这里下载:
第一级:http://www. ...

我新做的两个规则都含有连续动作——滚屏动作。在运行他们之前,必须首先关闭DS打数机的自动滚屏功能,用菜单 配置-》滚屏参数,把滚屏次数设置成0

因为知乎是瀑布流网页,如果长时间滚屏,电脑内存会消耗完,所以最好用旗舰版,这个规则具有自动清除旧内容的能力。

这个规则里面限定了滚屏次数为100次,为了防止非旗舰版用户内存耗完。加载这个规则以后,可以进入“连续动作”工作台,找到滚屏动作,可以把滚屏次数设置的更大。
举报 使用道具
golgo_forever 初级会员 发表于 2018-2-10 23:26:02 | 显示全部楼层
Fuller 发表于 2018-2-10 17:22
您好,原先这两个规则已经不适应现在的网页结构了,我重新做了两个,请在这里下载:
第一级:http://www. ...

深度感谢。。。
举报 使用道具
ym 版主 发表于 2018-2-11 11:44:34 | 显示全部楼层
本帖最后由 ym 于 2018-2-11 11:58 编辑

这套规则修改好了,由于网页改版现在一共有三级规则
第一级,http://www.gooseeker.com/doc/thread-825-1-1.html
采集列表也数据,每个问题的默认答案链接,给第二级生产线索
第二级,http://www.gooseeker.com/doc/thread-827-1-1.html
获取第一级生产的线索,然后做连续动作的点击动作查看所有答案
第三级,http://www.gooseeker.com/doc/thread-10763-1-1.html
采集点击完成后显示的所有答案
举报 使用道具
Fuller 管理员 发表于 2018-2-11 11:52:58 | 显示全部楼层

我看到你下载了我做的规则,我把积分退还给你了,你可以尝试一下新发布的那套规则,一共3级,采集的信息更全
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 19:18