通过网页抓取为网站采集内容时人工和机器的比重应该多大?

自动抓取和人工编辑因项目而异

从技术可行性角度考察,完全由MetaSeeker程序做是完全可以的,但是,要根据网站实际运营目标权衡一下。

如果经常参加站长沙龙等行业聚会,就会发现对人和机器两者的投资和投入的比例是怎样的这个问题一直争论不休,实际上,大家都在用各自的比重经营自己的网站,无论机器占大头还是人工站大头都有成功的案例,关键是要适合自己的经营目标。

人工采集集成和机器采集集成的内容的感官效果很容易分别,两者都能找到合适的位置。

例如,我们使用网页抓取/数据抽取/信息提取软件工具包MetaSeeker建设威客任务/外包项目/招标项目搜索服务时,采用了全自动的机器采集和集成,这样内容可以快速增加,又如,做商业情报分析时,几乎是沙子里面淘金子,一定要采集大量的数据,是机器密集型的。但是,在做地方信息网站或者技术文章网站时,人工和机器相辅相成,人工对版面的编排是不可或缺的。