Fuller's blog

什么是宏平均(macro-average)和微平均(micro-average)

宏平均(macro-average)和微平均(micro-average)是衡量文本分类器的指标。根据Coping with the News: the machine learning way

什么是Twitter注释

Twitter注释的新功能可以将任何元数据(metadata)附着于Twitter消息。目前,每条长度限制为140个字符的Twitter 消息里都可以填写任何内容,包括大量的信息、外部网站链接等。不过,Twitter计划借助元数据来使内容更加丰富。

Web自动化和信息提取工具iMacros介绍

海外的iMacros for Firefox也是Firefox插件,这一点同国产的MetaSeeker一样,比较iMacros V6.6.5.0和MetaSeeker V4.11.0,发现诸多重合的功能特性,例如,Web信息提取功能。

XML/HTML字符转义在Web文档抓取工具中的应用

Web文档抓取工具包MetaSeeker能够自动生成抓取规则,帮助用户大批量自动抓取Web文档,MetaSeeker核心数据存储和交换格式是XML,例如,信息结构元数据、Web文档抓取指令文件、抓取结果文件等等。

网络采集的法律案件 Snap-On vs.O'Neil

GooSeeker社区是一个网络采集技术和Web 3.0技术的交流的园地,与网络采集技术相关的法律案件同样也被密切跟踪和分析。近来,随着人们逐渐认识到网络内容隐藏的巨大价值,网络内容采集和数据挖掘和知识提取行为越来越普遍。随之而来的就是关于网络内容合理使用的争论和纠纷,也许当前正处于一个混沌时期,各方参与者左冲右突希望找到一种合理的信息共享的机制。

增强AJAX网络数据抽取能力

随着网络数据抽取软件工具包MetaSeeker的版本不断更新,AJAX数据抽取能力不断增强,本文讲解的技巧适合MetaSeeker V4.11.0及其以后版本。主要解决的问题是:假设当前网页P1上面有超链接,点击后网页内容修改,但是没有通过HTTP加载一个HTML网页文档,而是通过AJAX的异步通信机制,例如,采用XMLHttpRequest类接口,从服务器下载内容并局部更改网页内容。此时显示的网页数据的语义同P1网页的不同,我们称此网页为P2。

一种半自动抓取AJAX文档数据的方法

网络文档抓取工具包MetaSeeker具有很强的AJAX文档数据抓取能力,由于AJAX网站设计并无定式,可发挥空间很大,所以,MetaSeeker抓取AJAX文档的能力再强也不可能宣称适用所有AJAX情况,所以,GooSeeker采取逐步加强的策略,每个新版本都增加一些AJAX情形。

MetaSeeker发展到V4.10.0版本,不能抓取的AJAX文档有下面两大情形:

解决翻页提取Web数据中断问题

主题demo_comment_list_dangdang的翻页操作用javascript代码实现的,Web数据提取软件工具包MetaSeeker能够模拟用户点击行为,执行翻页操作,这是利用网页URL提取Web数据的普通网络爬虫和提取软件无法做到的。

决策树建立过程概述

建立决策树的过程,即树的生长过程是不断地把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。

什么是HITS算法

维基百科对HITS算法的定义:

Hyperlink-Induced Topic Search (HITS) (also known as Hubs and authorities) is a link analysis algorithm that rates Web pages, developed by Jon Kleinberg. It determines two values for a page: its authority(权威值、权威度), which estimates the value of the content of the page, and its hub(中心值、中心度) value, which estimates the value of its links to other pages.

Syndicate content