为了测试抽取的美国证券交易委员会(SEC)XBRL财务报送信息,提供抽取例子,我创建了这一原型。提供用来记录道琼斯工业指数30股的代码的目的不是为了说明优秀代码,而是为了说明如何从XBRL实例中提取信息。
道琼斯工业指数整合(原型)
抓取30 SEC XBRL财务报告时没有使用XBRL处理器。我不是在推广这一技巧,只是想要提供一个广泛可用的例子。你可以看到,数据可以通过这种方式抓取。建立一个稳健、可拓展、可靠、可重复且准确的系统所须的肯定不止需要我展示的这些。
我将所有的资产、净现金流动数字与实际报送进行了比对,确保无误。就我可知,这些信息是准确的。
想想这意味着什么。手动获得这两份信息需要多长时间?通过原型应用程序大概需要5分钟。最大的限制是文件下载时间。想象一下每个SEC XBRL财务报告都要跑一次(或者更可靠的),得到所有上市公司的总资产及净现金流。这正是我测试这一代码的第二步。
现在时间有限,但是我会另写一篇博文,描述抓取这两个数据点时遇到的问题,以及解决方法。比如,不能从某个数据库获得包含这些信息的列表,而必须一个文件一个文件地查找,不同的阶段结束时间和财政期间,以及这些信息的其他特点。这些信息的性质决定了SEC XBRL报送不是一个易用的数据库。报送建模是另一个问题,可以轻松调整,跟调整财务报送规定完全是两回事。 |