11#
Fuller 管理员 发表于 2019-8-9 11:22:52 | 只看该作者
newmonica 发表于 2019-8-9 09:30
这个网站需要账号登录才能查看,而且存在反爬取,快放弃了

实在不行的话,找到要抓取内容的那个iframe的网址,单独在浏览器加载这个网址,直接采集。

如果网站有访问限制的话,这种直接使用iframe网址的方法不行,但是,大部分网站没有这个限制
举报 使用道具
12#
newmonica 初级会员 发表于 2019-8-9 14:23:12 | 只看该作者
但是每个网址都不一样这样就需要不同的规则
举报 使用道具
13#
Fuller 管理员 发表于 2019-8-9 15:12:39 | 只看该作者
newmonica 发表于 2019-8-9 14:23
但是每个网址都不一样这样就需要不同的规则

本来就应该有各自的规则。就是iframe放在同一个网页,必须给每个iframe创建各自的整理箱
举报 使用道具
14#
newmonica 初级会员 发表于 2019-8-9 16:19:07 | 只看该作者
那我要采19万条数据需要定义最少好几万的规则,这个就不太好了吧
举报 使用道具
15#
Fuller 管理员 发表于 2019-8-9 18:58:22 | 只看该作者
newmonica 发表于 2019-8-9 16:19
那我要采19万条数据需要定义最少好几万的规则,这个就不太好了吧

定义规则以后,通过添加网址的方式,就可以采集很多网页:https://www.gooseeker.com/doc/thread-667-1-1.html

可能你对这个软件的操作过程没有理解,应该先按照先后顺序看初级教程:https://www.gooseeker.com/tuto/tutorial.html

采集iframe本来是很容易的事,如果从一个网页上的3个iframe采集数据,那么定义的规则里面要创建3个整理箱,每个iframe对应一个自己的整理箱
举报 使用道具
16#
newmonica 初级会员 发表于 2019-8-12 08:48:22 | 只看该作者
Fuller 发表于 2019-8-9 18:58
定义规则以后,通过添加网址的方式,就可以采集很多网页:https://www.gooseeker.com/doc/thread-667-1-1 ...

我不是这意思,我的意思是   每个网页里边有一个iframe但是这每个iframe结构都不相同,不是说一个网页有几个iframe的问题,就是 你定义的规则适合这个网页的 这个iframe,但不匹配下一个网页的iframe。。。。。


举报 使用道具
17#
Fuller 管理员 发表于 2019-8-12 10:24:36 | 只看该作者
newmonica 发表于 2019-8-12 08:48
我不是这意思,我的意思是   每个网页里边有一个iframe但是这每个iframe结构都不相同,不是说一个网页有 ...

如果内容的结构没有任何共性,那么就没法定义一个公用的模板
举报 使用道具
18#
newmonica 初级会员 发表于 2019-8-12 10:34:15 | 只看该作者
对的 ,所以这样就放弃了  
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-25 19:54