集搜客是否能抓取整个html

Fuller

集搜客是否能抓取整个html？html的超链接形成一个树状结构，集搜客能自动抓取吗？

Fuller · 发表于 2016-5-29 10:22:28

大家可能会形成一种错觉，认为集搜客不能抓取整个html，不能顺着超链接进行扩展，像拷站软件那样。其实，集搜客完全可以这样做。

1，做一个通用的抓取规则。
要下载整个html太容易了，可以做一个对整个互联网都通用的抓取规则，比如，把整个html抓取下来，或者只要body，或者只要body中的文本。因为所有网页都有html->body，所以，这样的规则是通用的

2，定义一个通用的爬虫路线
在MS谋数台的爬虫路线工作台上，可以创建多种线索，其中有样式线索，如果你想把一个网页上的所有含有 http://www.sina.com.cn 这样的前缀的网址都抓到，那么创建一个样式线索，填入 http://www.sina.com.cn 这个字符串。如果你想要所有网址，不妨填入 http 。DS打数机网络爬虫会拿着这个样式去匹配，找到所有符合的网址，生成下级线索。所以，
a，集搜客爬虫能够自动扩展爬行范围
b，还能限定范围，只要某类网址

橡胶 · 发表于 2016-10-24 18:18:07

没看懂，这些网址怎么保存下来

Fuller · 发表于 2016-10-24 19:26:53

橡胶发表于 2016-10-24 18:18
没看懂，这些网址怎么保存下来

你需要网址？还是网页内容？

网址作为线索，存储在云服务器上，你到会员中心，找到这个规则，在规则管理页面上能看到这些线索

橡胶 · 发表于 2016-10-25 18:28:09

规则管理那里，我看到了这些内容。找不到下载的地方，把这些线索批量下载

集搜客是否能抓取整个html

共 4 个关于本帖的回复最后回复于 2018-7-22 13:44

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

集搜客是否能抓取整个html

共 4 个关于本帖的回复 最后回复于 2018-7-22 13:44

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2018-7-22 13:44