请问一下该软件是否可以实现 抓取一个网站下所有链接的文本


举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2017-4-18 16:49

沙发
扶风 中级会员 发表于 2017-4-18 16:35:02 | 只看该作者
可以采集 不过得先有全部链接
举报 使用道具
板凳
扶风 中级会员 发表于 2017-4-18 16:37:20 | 只看该作者
本帖最后由 扶风 于 2017-4-18 16:40 编辑
扶风 发表于 2017-4-18 16:35
可以采集 不过得先有全部链接
有了全部链接就可以进行采集
举报 使用道具
地板
shengchengx 金牌会员 发表于 2017-4-18 16:39:11 | 只看该作者
本帖最后由 shengchengx 于 2017-4-18 16:41 编辑

该软件可以做到所有链接的采集吗?
举报 使用道具
5#
扶风 中级会员 发表于 2017-4-18 16:42:34 | 只看该作者
shengchengx 发表于 2017-4-18 16:39
该软件可以做到所有链接的采集吗?

可以采集 不过得先有全部链接
比如淘宝搜索 可以看到100页商品 那就能采到前100页的链接 再进去采详情
对于超过100页的商品 你找不到链接 爬虫就采不到
爬虫不能自动帮你找到某一网站的全部链接
举报 使用道具
6#
shengchengx 金牌会员 发表于 2017-4-18 16:43:42 | 只看该作者
扶风 发表于 2017-4-18 16:42
可以采集 不过得先有全部链接
比如淘宝搜索 可以看到100页商品 那就能采到前100页的链接 再进去采详情
对 ...

假设我有几百个网站,现在想要根据二十多个关键词 抓取出这些网站所有包含这些关键词的所有链接 可以做到吗?
举报 使用道具
7#
扶风 中级会员 发表于 2017-4-18 16:44:04 | 只看该作者
shengchengx 发表于 2017-4-18 16:43
假设我有几百个网站,现在想要根据二十多个关键词 抓取出这些网站所有包含这些关键词的所有链接 可以做到 ...

网站自己支持搜索找到这些链接 我们就能采集
如果不能搜索 我们就采不到
举报 使用道具
8#
shengchengx 金牌会员 发表于 2017-4-18 16:44:20 | 只看该作者
扶风 发表于 2017-4-18 16:44
网站自己支持搜索找到这些链接 我们就能采集
如果不能搜索 我们就采不到
...

好的,我明白了 谢谢你
举报 使用道具
9#
Fuller 管理员 发表于 2017-4-18 16:49:23 | 只看该作者
如果是为了拷站,应该选择专门的拷站软件。集搜客网络爬虫也能像拷站软件那样运转,只需定义通用的采集规则,即采集整个html文档,而不用按字段采集,同时把html文档中的所有超链接都采集下来,作为下层循环的网址。

如果在爬虫路线工作台上定义样式线索,还可以根据网址的url字串的样式,分别指定不同的下层处理
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 04:08