|
我们大家每天都在使用谷歌搜索引擎进行网络搜索,并称赞其简单的前端用户界面。这个界面好用、干净、快捷而且简单。
然而简单的背后却是复杂的索引数据库和先进的搜索技术,只是作为用户,我们不需要知道或了解这些罢了。我们所需要知道的就是明确关键词,这有助于引导我们在数以千亿计散落在全球互联网上有着HTML标记的网页中进行搜索。
但是当我们试图使用常规的SQL数据库搜索技术进行搜索时,我们却遇到了麻烦。为什么?因为大多数的网络内容是分布式的HTML平面文件,并且在任何集中式数据库中都不能有条理地进行数据结构和模式的定义。这就像一个充斥着没有路标的道路世界。这需要我们去发现!
类似于谷歌这样的搜索引擎,通过建立和使用包含元数据的集中式数据库,要求他人找到的内容与我们的查询相匹配。在这个集中式数据库中每个关键词都作为一个标记,并迅速有效地链接到相应的网站。换言之,对我们而言,搜索引擎就像是一个知识渊博的向导,对我们的查询以是否找到答案来做出回应,而这是基于它已有权使用的并已成为现实的互联网之路。
为什么不使用这样一种功能强大的搜索前端来查询金融研究数据呢?从我的工作经验研究分析,无论是卖方还是买方,都有着这样的长期需求,即:开发出能查询金融研究数据的工具。但是直到今天,对这一请求的简短回答仍是“不行!”
不行,是因为在技术上它太难了,或者说是太贵了。
不行,是因为谷歌处理的是文本而不是数据,即有语境又有含义的文本。相对而言,搜索数据往往更具有挑战性,因为即使是在网络中,数据也是被标记成HTML以文本而不是数据的形式出现,因此,有意义的搜索由于失去了数据的语境而无法进行。
不行,是因为没有普遍被接受的标准财务词典或分类标准来定义一些术语,如收入、销量、或净收入的同义词。
到今天,这个“不行”的名单已经存在很久了。好消息是,通过采用XBRL和EDGAR分类标准以及发行XBRL工具,这个名单正在迅速地缩减。
我们需要完成金融研究数据的强大搜索的条件是:订阅作为RSS免费使用的SEC的XBRL报送报表,提取XBRL数据转化为我们自己的关系或类似于谷歌的索引数据库,并使用SQL找到我们查询的答案。作为一种替代办法,我们还可以订阅第三方数据服务公司的XBRL报送报表,如彭博,汤姆森路透社,Factset和其他需要添加XBRL数据到其目前的汇总数据,并继续提供这种服务的第三方公司。
当我们加上SPARQL时,还有更好的消息:W3C指定的RDF、XBRL和互联数据的查询语言。
美国知名IT杂志《eWEEK》的首席技术分析师Jim Rapoza解释道:
所谓的SPARQL这一标准为语义网带来了一个标准化的类似SQL的查询语言。而且,同语义网的大多数标准一样,它在很大程度上是建立在RDF的基础之上,虽然它也使用了许多网络服务标准,例如WSDL。
SPARQL实质上是由一个标准的查询语言、数据访问协议和数据模型构成(基本上是RDF)的。
有些人可能在想:那么怎么办呢?听起来好像只是一个搜索工具(激动地大叫)。但是,盲目搜索整个互联网和查询实际的数据模型,两者之间却有着天壤之别。
从庞大的数据库中拖出数据的数据库查询能力差不多是企业应用软件的基础。没有人怀疑在一个能够拉动相关客户和产品数据的应用软件中写查询的价值。
现在,想象着编写一个类似的、能够做同样事情的小型应用程序,即在整个环球网中只有数据存储。
这将包括所有的企业,不仅是采用XBRL的企业,还包括符合SEC要求的企业,他们将把XBRL数据上传到他们自己的公司网站上。
从本质上说,使用SPARQL 我们可以选择构建集中式数据库查询XBRL数据,但我们没必要这么做。我们只需要指向我们查询的,所谓的SPARQL端点就可以了(这不同于传统数据库的要求那样必须要在一个管理控制之下完成),使用XBRL数据可以跨越数以千计的公司网站并获得结果,这就如同他们是来自一个集中式数据库一样。想象下不需建立和维护一个庞大的、日益增长的集中式数据库而节省下来的费用。
此时将XBRL作为开放数据链的应用软件是有限的,但他们正在出现。举一个例子,Roberto García和Rosa Gil描述他们在西班牙莱里达大学研究小组所从事的工作,他们从612家XBRL报送报表中提取出了134万个三元。(三元是RDF格式的语义数据元素。)提取过程是机器自动进行的,并且将XBRL数据转入到语义网的结果是使RDF数据成为一种格式。
此外,当Semantic XBRL应用软件投入生产使用时,当前的网络存在着足够的例子使我们可以深入了解用户可能感受到的体验。当下次您在网站上(如Orbitz,Kayak,或Farepare)为您的空中旅行搜索最佳航班时,暂停一下,您将发现那些航班时刻表、价格和航空公司的细节正一条一条出现在您所访问的网站页面中,这些信息不是来自于任何一个集中式数据库,而是来自多个航空公司的实时数据库,以匹配您确切的行程需求。这都多亏一些非常专业并且复杂的技术。
总之,当简化前端设计以及保持隐藏在或出现在终端用户面前的复杂技术时,SPARQL使得Semantic XBRL搜索技术在分布式网络空间中按要求搜索成为可能。 |