页面结构

Fuller · 发表于 2019-8-9 11:22:52

newmonica 发表于 2019-8-9 09:30
这个网站需要账号登录才能查看，而且存在反爬取，快放弃了

实在不行的话，找到要抓取内容的那个iframe的网址，单独在浏览器加载这个网址，直接采集。

如果网站有访问限制的话，这种直接使用iframe网址的方法不行，但是，大部分网站没有这个限制

newmonica · 发表于 2019-8-9 14:23:12

但是每个网址都不一样这样就需要不同的规则

Fuller · 发表于 2019-8-9 15:12:39

newmonica 发表于 2019-8-9 14:23
但是每个网址都不一样这样就需要不同的规则

本来就应该有各自的规则。就是iframe放在同一个网页，必须给每个iframe创建各自的整理箱

newmonica · 发表于 2019-8-9 16:19:07

那我要采19万条数据需要定义最少好几万的规则，这个就不太好了吧

Fuller · 发表于 2019-8-9 18:58:22

newmonica 发表于 2019-8-9 16:19
那我要采19万条数据需要定义最少好几万的规则，这个就不太好了吧

定义规则以后，通过添加网址的方式，就可以采集很多网页：https://www.gooseeker.com/doc/thread-667-1-1.html

可能你对这个软件的操作过程没有理解，应该先按照先后顺序看初级教程：https://www.gooseeker.com/tuto/tutorial.html

采集iframe本来是很容易的事，如果从一个网页上的3个iframe采集数据，那么定义的规则里面要创建3个整理箱，每个iframe对应一个自己的整理箱

newmonica · 发表于 2019-8-12 08:48:22

Fuller 发表于 2019-8-9 18:58
定义规则以后，通过添加网址的方式，就可以采集很多网页：https://www.gooseeker.com/doc/thread-667-1-1 ...

我不是这意思，我的意思是每个网页里边有一个iframe但是这每个iframe结构都不相同，不是说一个网页有几个iframe的问题，就是你定义的规则适合这个网页的这个iframe，但不匹配下一个网页的iframe。。。。。

Fuller · 发表于 2019-8-12 10:24:36

newmonica 发表于 2019-8-12 08:48
我不是这意思，我的意思是每个网页里边有一个iframe但是这每个iframe结构都不相同，不是说一个网页有 ...

如果内容的结构没有任何共性，那么就没法定义一个公用的模板

newmonica · 发表于 2019-8-12 10:34:15

对的，所以这样就放弃了

页面结构

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页