网页抓取

周期性网页抓取

负责网页抓取的网络爬虫(网络蜘蛛)一般需要周期性地(重复地)爬行网页,搜索引擎的网络爬虫重复爬行网页的目的是发现网页内容是否发生了改变,如果改变了,需要及时地修改索引库,为了提高工作效率,重复爬行的周期需要用一个比较复杂的算法计算出来,例如,自适应的算法能够根据目标网站的内容更新的频度确定什么时间再次抓取网页。

网页抓取工具软件增强

网页抓取/数据抽取/信息提取软件工具包MetaSeekerV4.0.0在线版已经发布,网页抓取精度和适应性大大提高,此前的版本,网页抓取的数据抽取规则是完全自动生成的,用户除了通过数据映射、FreeFormat映射和样例复制品映射操作指导MetaSeeker生成数据抽取规则以外,并不能手工编写某写信息属性(网页内容片断)的数据抽取规则。

使用Python实现的网页内容抓取和网络爬虫软件工具

  • Scrapy是开源的用Python编写的屏幕抓取和网络爬虫(网络蜘蛛)软件框架,从Scrapy at a glance一文可以看出,Scrapy的爬行目标需要指定,网页内容抽取采用了XPath表达式,具有聚焦爬虫的特点

其他资料

网页抓取/数据抽取/网络爬虫技术资料汇总

使用MetaSeeker网络蜘蛛建立暗网(deep web)搜索

搜索引擎如何对付“暗网”用详尽的数字说明暗网(dark web, deep web)有多大,还解释了巨头们(例如,谷歌(google),百度(baidu),雅虎(yahoo))怎样发掘暗网中的信息。Dark Web ---- 万维网正在变暗?全面罗列了哪些内容属于暗网内容,暗网的内容类别很多,都适合发掘吗?

用XSLT实现网页内容抓取软件

此前,网页抓取/数据抽取/信息提取工具包MetaSeeker为什么没有使用正则表达式提取内容?一文对比了DOM + XPath + XSLT 和正则表达式应用在提取网页数据信息和屏幕抓取领域的优缺点,重点说明了采用前者的优势,毫无疑问,采用前者编程成本低很多,有大量的可重用的第三方程序库或者软件模块供集成,而且做出来的数据抽取规则适用力很强。

在线个人资产和金融管理集成服务的新闻事件

今天的热点新闻应该是关于Intuit To Acquire (Former TechCrunch50 Winner) Mint For $170 Million

Mint成立才两年,以$140M出售给Intuit,所以很惹人注目和艳羡,愤怒的声音如The next generation bends over,开篇第一句:

网页内容提取软件工具MetaSeeker用于产品定价和竞争指数计算(competitor indexing)

竞争指数计算(competitor indexing)是市场营销人员用于产品定价的技巧,是营销组合(marketing mix)中的4P之一(中文解释可以参见营销组合和4P)。可见竞争指数计算既有悠久的历史,又是市场营销广泛使用的技巧。

网页内容提取软件工具包MetaSeeker的使用技巧

本网页将不断汇总典型的网页抓取/数据抽取/信息提取软件工具包MetaSeeker的使用案例,本页内容随着时间推移不断扩充

为网络营销采集email地址

在互联网(web)上,email营销是一个很有效的手段,在国外媒体上email营销和RSS营销排在网络营销的前两位,主要是因为两者有很强的送达效能,使用电子邮件可以进行各种各样的在线的营销推广活动,例如:

使用Java实现的网页内容抓取和数据抽取工具

  • 简洁轻便的Java浏览器HtmlUnit 2.6发布介绍了HtmlUnit,这是一个用Java编写的网站测试工具,是一个开源项目,网站测试工具一般通过模拟用户的点击网页的行为测试某个网站的所有网页是否正确、是否可访问等,因此同样的工具可以用于执行网站信息提取和网页数据抽取任务,而且网站测试工具一般能够很好的解析Javascript代码,所以很适合采集A
Syndicate content