集搜客GooSeeker网络爬虫

标题: 可以采集文章吗? [打印本页]

作者: 肥胖君    时间: 2017-3-16 18:15
标题: 可以采集文章吗?
可以采集文章吗?



作者: ym    时间: 2017-3-16 18:16
公开的网页信息都可以采集

作者: 肥胖君    时间: 2017-3-16 18:16
是采集下来就是文章吗?
比如 百度文库里的  
直接 扒下来就是 一篇文章吗  ?

作者: ym    时间: 2017-3-16 18:16
不是,一个网页抓一次,如果文章都在同一页的话,抓下来就是一篇,翻页的话就是分开的,得入库清洗或者用其他方法合并

作者: 肥胖君    时间: 2017-3-16 18:16
我把所有文章链接都收集好可以一次性扒下来吗?

作者: ym    时间: 2017-3-16 18:17
网页结构相同的话,做一个采集规则就可以批量采集





欢迎光临 集搜客GooSeeker网络爬虫 (https://www.gooseeker.com/doc/) Powered by Discuz! X3.2