-
裁判文书网1y
中国裁判文书网列表页采集,为采集详情页的规则《裁判文书网2y》生成线索。本规则是连续动作的第二级,由规则《裁判文书网1y》运行后自动调用,不需独立运行。
203 1 0 -
裁判文书网0y
连续动作的第一级规则,运行后自动调用《裁判文书网1y》规则,进行采集。
177 1 0 -
裁判文书网2y
采集裁判文书每篇文书的的详情页内容,由规则《裁判文书网1y》生成线索。
351 0 0 -
法律教育网_各类法律文书
采集每篇文书的标题和内容,由`法律教育网_各类法律文书列表`规则生成线索。
57 4 0 -
法律教育网_各类法律文书列表
采集法律教育网各分类各类法律文书列表,采集每种分类里文书的标题和链接,为`法律教育网_各类法律文书`规则生成线索,`法律教育网_各类法律文书`采集每篇文书的标题和内容。
73 6 0 -
知网_文章数据
本规则是教程《怎么样抓取CNKI知网数据》中对应的第四个规则`知网_文章`,本规则不需独立运行,是模拟点击后的规则,运行`知网_文章数据_更多`规则后直接调用。抓取点击“更多”后的文章摘要、标题、作者、关键词等信息。想要抓取每篇文章的详细信息,除了下载当前规则之外需要下载`知网_搜索`、`知网_搜索结果`、`知网_文章数据_更多`,共同配合使用
222 19 0 -
中文业界资讯网_新闻获取
中文业界资讯网:http://www.cnbeta.com/ 获取文章
152 28 0 -
知网_文章数据_更多
本规则是教程《怎么样抓取CNKI知网数据》中对应的第三个规则`知网_文章数据_更多`,由`知网_搜索结果采集到每篇文章的链接后,用Excel修改网址格式手工为本规则添加线索。知网的些文章摘要中需要点击“更多”后才能显示完整的摘要,为了抓取完整的内容,本规则来进行模拟点击,点击后自动调用`知网_文章数据想要抓取每篇文章的详细信息,除了下载当前规则之外需要下载`知网_搜索`、`知网_搜索结果`、`知网_文章数据`,共同配合使用
187 20 0 -
微信公众号文章图文同时采集
使用连续滚屏的方式,可以确保把微信长文中的所有图片采集下来。本来也可以设置自动滚屏方式进行采集,但是如果是很长的微信文章,等滚到下面的时候,上面的图就会被删除,所以使用连续滚屏,每滚一步
405 13 0 -
微博原文抓取
在weibo.cn(微博手机网页端)微博搜索框键入检索词,在打数机中将返回页面地址设置为线索,可以抓取微博原文、评论、转发
427 44 0 -
微博文章搜索
在微博文章搜索中,输入搜索关键词,得到的网址可以加入到本规则中,能够根据关键词把所有相关文章的标题和摘要等信息采集下来
229 2 0 -
亚马逊书籍历史评论
亚马逊一个用户购买书籍的所有评论采集,字段有书名、作者、星级、时间、评论,其中星级通过class值采集,采完后在Excel
70 3 0 -
中国食品农产品认证证书
中国食品农产品认证信息系统网站最大特点是用了很多iframe,嵌套在一起展示证书信息。无论iframe有多少层,集搜客GooSeeker网络爬虫都一视同仁,就像没有iframe一样定义抓取规则。
149 32 0 -
百度百家文章采集
采集百度百家的文章数据,字段包括标题、作者、发布时间、阅读数、正文,可以套用采集同类的百家文章,规则的使用方法见http:
119 44 0 -
美丽说_同时采文字和图
第二个抓取规则是“美丽说_同时采文字和图_更多”,本规则负责启动美丽说的抓取,同时负责翻页,同时连续启动第二个规则的滚屏抓取因为是连续滚屏抓取,每滚一屏存一个结果文件和对应的图片。请注意:这两个规则需要使用V5.4.2及以上版本,以前的版本无法正确判断重复内容,无法执行滚屏终止。
46 3 0 -
美丽说_同时采文字和图_更多
第一个抓取规则是“美丽说_同时采文字和图_更多”,那个才是入口,负责启动美丽说的抓取,同时负责翻页,同时连续启动本规则的滚屏抓取因为是连续滚屏抓取,每滚一屏存一个结果文件和对应的图片。请注意:这两个规则需要使用V5.4.2及以上版本,以前的版本无法正确判断重复内容,无法执行滚屏终止。
40 2 0