| Andy Greener现任英国皇家税务与海关总署软件架构师,他主要负责软件的互通性和标准的使用等。他也是英国皇家税务与海关总署公司所得税在线服务的战略构架师,该服务强制要求公司用XBRL格式标示其所有于2011年3月31日后报送的所得税纳税申报表中的账目和税额计算部分。同时,Andy还是特许工程师、特许信息技术专业人士,有27年的软件工程师工作经验。您可以通过电子邮件与他取得联系。 本文主要讲述XBRL及语义网,共分三部分,以下为第一部分。 信息的意义是什么? 我们都已习惯从文档中获取信息,并根据所看信息的内容或格式得出我们自己的结论。的确,如果丧失了人类大脑的这种功能,许多职业都将不复存在,经过多年的教育和训练,这种能力可以被锻炼得近乎完美。那么,当我们在阅读那些供人类使用的文档时,我们究竟看到了什么,又明白了什么?我们究竟是如何发现其中的含义的?在探讨这个问题前,让我们先来看几条“首要原理”。 我们看一篇文档,实质上看的是以二维形式呈现的经过组织的符号集。仅从这些符号的格式、大小或位置,我们就能辨别某些含义。我们希望这些符号中的一些是我们所认识的,并对眼睛读取符号串时的移动方向进行假设或有根据的推测。文档中将出现符号集(如单词、数字或图释)、符号集组合(如句子和段落)、标点符号等。某些句子可能以大号字体或粗体形式单独出现(如题目或标题),而某??数。空白部分有时和符号本身一样重要。所有这些视觉信息都提示我们注意力应该集中的焦点,并引导我们的眼睛(从而指示大脑)关注该文档试图传达的更深层次、更有价值的信息。 谈到更深层次的含义,字母符号集可能代表了人类一种常见语言中的单词(单词又代表概念),而这些单词的含义在字典中都有准确的定义,所以,人们可以学习将这些含义与那些符号的有序集合体联系起来。有些单词对我们来说在视觉上存在细微的差别,所以可能同时出现在另外一种字典里,这就是为什么我们对那些经常出现在博学之人(或自命不凡者)文章里的斜体拉丁文短语都非常熟悉的原因。人类天生就能将概念集(至少在口头上)组织成按照规则(即语法)构建的结构,而这些结构可以表达多层次复杂而微妙的深层含义。 对人类来说,对文档含义的理解涉及多层次视觉及概念上的信息分析(尽管有时是无意识的)。 想象一下,现在你双目失明了。你再也看不见书面文件中那些原本对你来说明白易懂的二维信息了,你大脑中有意无意间管理着所有视觉线索(从字体大小到段落格式,从章节标题到数字)的那部分机体现在接收不到相关的信息,无法发挥其功能了。取而代之的是,一位同事将把这篇文档从头到尾读给你听。你听到的将是一连串二维概念(单词)和一些辅助性的描述,如:“第一页”、“段首”、“信息的意义是什么”、“问号”、“段尾”、“段首”等。 当然,这时候,不管你说的是汉语、阿拉伯语还是英语,你都不再需要从视觉提示中辨别信息了,词序和标点符号现在都已不证自明,你或许也不再需要在意文档的页面结构了。但你必须知道哪些单词需要重读,哪些句子是标题、副标题或引语,单词是如何组成句子和段落的。你的同事读文章时,可能会为你直接加入许多指示,如“另一段”,并用语气(如提高或改变声调)来暗示需要强调的单词或引语。 普通的计算机自然不具备人类的理解力(特别是我们所说的常识),需要人类为其编写上文所述的专业的“序列化”文档才能理解散文的含义,即便是重建我们人类认为习以为常的二维视觉信息也不例外。目前,大多数计算机仍不具备从一系列单词中发掘含义的能力,更不用说我们经常获取的更深层次的含义了。 我们的思想实验解释了被早期印刷业排字工人统称为“标记”的含义,“标记”是一种计算机文档呈现术语,代表了“可扩展标记语言(XML)”和“超文本标记语言(HTML)”中的“标记(M)”。“指令”涵盖在一系列单词中,将二维信息还原于文档,使计算机能够在屏幕或纸上以人类熟悉的形式(至少在视觉上)呈现序列化文档。 我不打算在此详述有关“标记”的具体细节,但我要告诉大家,您在快速浏览网页来源或XML、XBRL文档时所见的两个尖括弧之间的内容就是标记,计算机就是遵照这些指令来理解文档内容含义的。但正如我们阅读文档时所会感知到多层含义一样,标记也有多种形式,每种都各司其职。 在下周发表的本文第二部分中,Andy将和大家一起探讨以显示和语义为导向的标记语言是如何应用于语义网,使智能应用软件能够处理网页中的信息内容的。 |