实现数据开放共享的方法
目 录
第1章 概要.. 3
第2章 信息孤岛的根源在于关系数据库理论有问题.. 4
2.1 当前的信息孤岛为什么是不治之症.. 4
2.2 关系数据库理论是以服务器为中心的孤岛型理论.. 5
2.3 当前的信息系统软件开发模式的特点.. 6
2.4 从技术上分析关系数据库理论所存在的问题.. 7
2.5 关系数据库理论是单机时代的产物,不适应互联 时代.. 8
第3章 利用万能数据结构表实现数据开放共享.. 10
3.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化.. 10
3.2 数据结构的标准化:万能数据结构.. 11
第4章 两种完全不同的软件设计模式的对比.. 15
4.1 万能数据结构表是一门全新的数据库理论.. 15
4.2 数据的标准化、数据的完整性.. 15
4.3 独立数据库与关系数据库理论的对比.. 19
第5章 独立数据库简介.. 21
5.1 独立数据库的技术特点:是一种数据优化、查询技术.. 22
5.2 如何证明“万能数据结构表”是万能的.. 24
5.3 独立数据库的一项重要任务就是根除关系.. 28
第1章 概要
当前的数据之所以难以开放共享,根本原因在于当前的信息系统设计的理论体系有问题。实现数据开放共享、互联互通可以借鉴火车的设计思路。我国的火车之所以可以在全国各地互联互通,是因为我国各地的钢轨都是标准的,各种火车是以标准的钢轨为基础而设计。
我国的钢轨与前苏联的钢轨是不相同的,我国的火车要经过前苏联国家时,就要换车轮,换一次车轮需要80分钟。当前的各种信息系统中的数据全都是异构的,犹如钢轨的宽度各不相同,当前的系统之间互联互通是通过转换数据结构的方式而实现,犹如换车轮。BI、EAI、EDI、ETL、ESB等都是通过“换车轮模式”而实现互联互通。
当前设计各种信息系统的特点:数据及数据结构完全由设计人员自己决定,因此各信息系统中的数据完全是异构的,这犹如全国各地都是分别设计自己的火车,各地的火车钢轨都是不相同的。
当前的实现数据开放共享、互联互通的方法可称作是“换车轮模式”。
第2章 信息孤岛的根源在于关系数据库理论有问题
在介绍独立数据之前,非常有必要研究清楚以关系数据库为基础的信息系统为什么都是孤岛型的系统。也可以为什么只有抛弃关系数据库理论才能从根本上解决信息孤岛问题。
2.1 当前的信息孤岛为什么是不治之症
通过下面的分析、计算就会发现当前的信息孤岛是不治之症。这是由当前的信息孤岛的实际情况及解决信息孤岛的方式所决定的。
当前的实际情况:当前的各种信息系统都是孤岛型的,因为设计人员在开发各种信息系统时都没有考虑数据的互联互通问题,没有通用的数据接口。如果需要与某个系统实现数据的互联互通,则需要开发专用的“点对点式的数据接口”。如果与N个系统实现数据的互联互通,那么至少要开发N个数据接口。
用现有的技术为什么不能根除信息孤岛理论上而言,利用现有技术可以通过转换数据结构的方式而实现任意两个信息系统之间的特定数据的互联互通、开放共享,然而由于全球的各种信息系统的数量超过千万,全球所产生的数据超过数万亿条,而且信息系统及数据还在不断地增加,面对如此海量的异构的、不标准的数据,“转换数据结构”的方法所花的成本非常高、不可承受。因此,当前的信息孤岛只能在局部进行缓解,而不能整体上得到根治。利用现有技术设计信息系统时,每增加一个信息系统,就增加了一个孤岛。
两个系统之间的互联互通约需要1个人月的工程量;三个系统之间的互联互通约需要(3-1)+(3-2)=3个人月的工程量;四个系统之间的互联互通约需要(4-1)+(4-2)+(4-3)=6个人月的工程量;N个信息系统之间的互联互通约需要((N-1)+(N-2)+(N-3)+……+3+2+1)个人月的工程量。由计算公式可看出,随着信息系统的数量的增多,系统之间的互联互通的工程量十分巨大,无法承受。因此,当前的信息孤岛是不治之症。这与当前的事实是相符的,自从关系数据库理论产生的40多年来,世界各地的信息孤岛问题都未能得到有效解决。
用关系数据库理论开发信息系统,会产生无穷无尽的数据结构,也会产生无穷无尽的不标准、不规范的数据。对于用关系数据库理论所设计的信息系统而言,随着信息系统的数量的增加,信息孤岛问题也将会更加严重。也可以说关系数据库理论是信息孤岛的发源地,人们虽说想尽各种方法来解决信息孤岛让数据互联互通,然而信息孤岛问题不降反增。
信息孤岛一旦产生,就不可根治。因为当前的信息系统中的数据的数据结构是不标准的、数据是不标准的,数据与数据库系统密不可分,数据与应用程序密不可分,数据只有在原系统中才是有意义的,一旦脱离了原来的系统,就会变成无意义的数据。当前解决信息孤岛实现互联互通的方法(例如BI、EAI、EDI、ETL、ESB等等)都是通过转换数据结构(换车轮模式)、开发点对点式的数据接口而实现,然而这种方法只能治标,不能治本。利用现有技术无法开发出通用的数据接口。
2.2 关系数据库理论是以服务器为中心的孤岛型理论
关系数据库理论建立在封闭的局域 的基础之上:“所有的数据都处于一个完全封闭的系统中”。关系数据库理论中没有互联互通的内容,也没有数据接口的内容。关系数据库理论是一种以自我为中心的孤岛型理论:“我只处理我的数据,不处理你的数据,你只处理你的数据,你也不能处理我的数据,你我之间没关系。”关系数据库理论的创始人根本就没有考虑互联互通的问题,关系数据库理论是一种仅适用于单机、局域 的数据库理论。
互联互通的信息系统没有中心:“我要处理我的数据,还要处理你的数据和他的数据,你要处理你的数据,也要处理我的数据和他的数据,你我他之间的数据要互联互通。”
关系数据库理论是“独立王国”的孤岛型理论,关系数据库设计人员是“独立王国”的国王,国王就是法律,数据类型、数据结构全由国王任意定义。互联互通需要的是没有国王的民主 会的民主型理论,数据库的设计人员不再是国王而是民主 会中的一员,他的一言一行(数据、数据结构)都必须受到民主 会的“法律、行为规范(通信协议)”的制约。问题是当前的关系数据库理论中没有结构化数据互联互通的通信协议。
关系数据库的问题:由设计人员任意定义数据和数据结构,各方的数据和数据结构各不相同。因此,数据的接收方无法直接把数据存贮到自己的数据库中。关系数据库中的数据是一种有结构的数据,然而对方又没有这样的结构,因此,数据发送到对方的数据库之后就是不可识别的数据。只要是用关系数据库理论所设计的信息系统,其数据必定不可能在各个数据库之间互联互通,必定是孤岛型系统。
30多年来关系数据库在结构化数据处理方面独占鳌头,为全球的信息化建设立下了汗马功劳,是信息化 会的大功臣!当前之所以会出现严重的信息孤岛问题、互联互通问题、数据难挖掘问题,与关系数据库密不可分,关系数据库是信息孤岛问题的罪魁祸首!人们曾花费巨额资金,希望通过BI、EAI、ETL、EDI、ESB等技术来解决信息孤岛,实现数据的互联互通,然而全球的大量事实表明,效果很不理想。
2.3 当前的信息系统软件开发模式的特点
在小数据时代,各行各业的信息系统中的数据及数据结构基本上都是不标准、不规范的,各个信息系统中的数据完全由系统的设计人员任意定义,因此,各信息系统中的数据都是异构的、不标准的,结果导致了非常严重的信息孤岛问题。不同的信息系统要实现互联互通、共享交换,就必须通过转换数据结构的方式来实现。然而面对全球数千万个以上的信息系统,数万亿条以上的异构的、不标准的数据,要实现各个信息系统之间的互联互通、共享交换,用传统的转换数据结构的方法就非常困难,甚至可以说根本不可能在可承受的时间内实现。现有软件开发模式的根本错误在于“数据治理的先后次序”搞反了。当前的BI、EAI、ETL、EDI等技术都是在“疾病”产生了之后再“治疗疾病”。
在大数据时代,应该是在设计各种信息系统之前就对各行各业的数据进行“数据治理”,并形成各行各业的国际数据标准、国家数据标准、行业数据标准,而不是等到数千万个软件系统产生了无比海量的不标准、不规范的数据之后再治理数据。
2.4 从技术上分析关系数据库理论所存在的问题
下面的两张表中的数据对关系数据库而言是合格的,然而这两张表中的数据是普通人难以看懂的:
表3:关系数据库中的表
ID |
XM |
XB |
NL |
TZ |
SG |
1 |
张三 |
男 |
56 |
72 |
180 |
表4:关系数据库中的表
ID |
XM |
XB |
ZYF |
XYF |
QTFY |
2146 |
张三 |
男 |
56 |
72 |
180 |
上面两表中的数据的实际含义如下:
表5:表2的实际内容
ID |
姓名 |
性别 |
所龄 |
体重 |
身高 |
1 |
张三 |
男 |
56 |
72 |
180 |
表6:表3的实际内容
ID |
姓名 |
性别 |
中药费 |
西药费 |
其它费用 |
2146 |
张三 |
男 |
56 |
72 |
180 |
下表是用发明专利技术万能数据结构表“事物信息表”而设计的表,该表中的数据无论是谁,只要懂汉语,就可以看懂表中内容:
事物信息表存贮数据的例子
ID |
事物代 |
事物属性 |
事物属性值 |
超长属性值 |
单位 |
附件 |
时间 |
|
100 |
280 |
事物分类 |
体育管理系统 |
|
|
|
2014.3.2 |
|
101 |
280 |
事物分类 |
教练信息 |
|
|
|
2014.3.2 |
|
102 |
280 |
事物分类 |
教练基本情况 |
|
|
|
2014.3.2 |
|
103 |
280 |
身份证 |
XXXXXXXXXX |
|
|
|
2014.3.2 |
|
105 |
280 |
姓名 |
张三 |
|
|
|
2014.3.2 |
|
106 |
280 |
性别 |
男 |
|
|
|
2014.3.2 |
|
107 |
280 |
年龄 |
56 |
|
|
|
2014.3.2 |
|
108 |
280 |
体重 |
72 |
|
KG |
|
2014.3.2 |
|
109 |
280 |
身高 |
180 |
|
CM |
|
2014.3.2 |
|
|
|
|
|
|
|
|
|
|
1100 |
1280 |
事物分类 |
病历 |
|
|
|
2014.5.3 |
|
1101 |
1280 |
事物分类 |
住院病历 |
|
|
|
2014.5.3 |
|
1102 |
1280 |
事物分类 |
医疗费用 |
|
|
|
2014.5.3 |
|
1103 |
1280 |
身份证 |
XXXXXXXXXX |
|
|
|
2014.5.3 |
|
1104 |
1280 |
住院 |
XXXXXXXXXX |
|
|
|
2014.5.3 |
|
1105 |
1280 |
姓名 |
张三 |
|
|
|
2014.5.3 |
|
1106 |
1280 |
性别 |
男 |
|
|
|
2014.5.3 |
|
1107 |
1280 |
中药费 |
56 |
|
元 |
|
2014.5.3 |
|
1108 |
1280 |
西药费 |
72 |
|
元 |
|
2014.5.3 |
|
1109 |
1280 |
其它费用 |
180 |
|
元 |
|
2014.5.3 |
关系数据库中的数据与数据结构密不可分。关系数据库中的每一个数据都是有数据结构的,一旦失去相应的数据结构,就成了无意义的数据。
关系数据库中的数据与应用程序密不可分。目前的信息系统都是通过应用程序来解读关系数据库中的数据,然而每个应用程序只能解读自己的系统中的数据而无法解读其它系统中的数据。关系数据库中的数据不具独立性、完整性,数据一旦脱离相应的数据库系统及相应的应用程序就变成了无意义的数据。
2.5 关系数据库理论是单机时代的产物,不适应互联 时代
信息孤岛问题是IT领域的一个非常严重的问题。人们在20年前就注意到了信息孤岛问题,并开始寻找解决信息孤岛问题的方法,然而20多年过去了,全世界无数的非常聪明的IT人士想尽了各种方法,例如BI、EAI、EDI、ETL、ESB,然而当前的众多事实表明,信息孤岛问题不但没有从根本上加以解决,反而越来越严重。
人们为什么无法根除信息孤岛问题呢生信息孤岛的根本原因在于关系数据库理论,因为关系数据理论单机时代的产物,创始人当时未考虑数据在各个信息系统之间的互联互通问题!关系数据库理论是在互联 产生之前的单机时代创立的。关系数据库理论于1970年6月由IBM公司的埃德加考特(Edgar Frank Codd)创立。ORACLE诞生于1979年。互联 诞生于1973年至1984年之间。1984年,美国国防部将TCP/IP作为计算机 络的标准。
关系数据库理论中没有数据交换共享的概念,也没有数据接口的概念。关系数据库所关心的只是如何处理自己的数据(单机中的数据),而未考虑如何处理从其它数据库发过来的数据,也未考虑如何把数据发送到其它数据库。关系数据库的特点是:“你的数据库处理你的数据,我的数据库处理我的数据。我不处理你的数据,你也不处理我的数据,你我之间是没有关系的。”
在单机时代、局域 时代,关系数据库在处理结构化数据方面发挥出了巨大的作用。然而,随着互联 时代的到来,人们不但希望信息系统处理自己的数据,还希望各个信息系统之间可以共享交换数据,希望数据可以互联互通。为了解决信息孤岛问题,人们发明了BI、EAI、EDI、ETL、ESB等等很多方法。随着IT技术的飞速发展,全世界的各行各业建立了大量的信息系统,然而20多年来全世界花费了巨大的人力、物力来解决信息孤岛问题,到如今,信息孤岛问题不但没有根除,反而比以前更严重,信息系统之间的互联互通、数据的开放共享还是非常困难!
第3章 利用万能数据结构表实现数据开放共享
3.1 火车的互联互通及机械零部件的互换性对信息系统设计的启示:标准化
火车之所以能够在全国各地互联互通,是因为全国的钢轨都是标准的,我国的各种火车都是以标准的钢轨为基础而设计的。机械零部件的互换性是机械中的一个非常重要特性。机械工程师在设计机械设备时都要尽量采用标准的零部件。火车的互联互通及机械零部件的互换性都是以“标准化”为基础。如果说全国各地的钢轨各不相同,那么无论采用什么样的换车轮的方法,都不可能从根本上解决铁路交通的孤岛问题。这个道理大家都能理解。奇怪的是在IT领域,人们到目前为止还是采用“换车轮的模式”来解决信息孤岛问题。
IT行业的软件工程师几乎没有标准的概念。软件设计人员在设计软件系统时几乎不考虑任何标准,各种信息系统中的数据完全由软件设计人员自己任意定义,其结果就是各种信息系统中的数据全是不标准、不规范的异构数据。
3.2 数据结构的标准化:万能数据结构
下面的表1是“事物信息表”,“事物信息表”是万能数据结构表,可以只用一张表而存贮各种关系数据库中的任意结构的数据。表1只用一张表就存贮了“1、动物档案;2、销售订单表;3、销售订单明细表;4、患者基本情况;5、症状;6、员工身高体重;7、通信录;8、医疗费用”的数据。若用关系数据库理论中的方法来存贮这些数据就需要8张结构各不相同的表。
表1:事物信息表只用一张即可存贮各种各样的结构化数据
ID |
事物代 |
事物特征 |
事物特征值 |
超长特征值 |
单位 |
附件 |
时间 |
65 |
2367 |
事物分类 |
动物管理系统 |
|
|
|
|
66 |
2367 |
事物分类 |
企鹅 |
|
|
|
|
67 |
2367 |
事物分类 |
帝企鹅 |
|
|
|
|
68 |
2367 |
事物分类 |
动物档案 |
|
|
|
|
69 |
2367 |
动物编 |
3 |
|
|
|
|
70 |
2367 |
名字 |
汉武帝 |
|
|
|
|
81 |
2367 |
动物简介 |
|
帝企鹅(学名:Aptenodytes forsteri):也称皇帝企鹅,是企鹅家族中个体最大的,一般身高在90厘米以上,最大可达到120厘米,体重可达50千克。其形态特征是脖子底下有一片橙黄色羽毛,向下逐渐变淡,耳朵后部最深。全身色泽协调。颈部为淡黄色,耳朵的羽毛鲜黄橘色,腹部乳白色,背部及鳍状肢则是黑色,鸟喙的下方是鲜桔色。 |
|