01|溯源
无论媒介的形式是软件还是硬件,开源与闭源指的都是信息(特别是科技信息)被共享的方式。
·开源通常被等同于免费(尽管不准确,但大体上是没错的);
·闭源则通常以携带copyright(版权)的方式呈现,需要付费购买。
以史为鉴,笔者把人类开源的发展史划分为7个阶段,如下图所示:
时间推进到20世纪70年代,ARPANET(美国高级研究计划署的简称)等机构在美国政府的推动下联合企业与高校催生了互联 的核心 络技术堆栈——如TCP/IP技术。而ARPANET成员间制定和分享技术标准的媒介为RFC(Request-for-Comments),即IETF(Internet Engineering Task Force,互联 工程任务组)组织发布的RFC文档。从1969年最早的RFC到目前为止有超过7,000个RFC1。其中最著名的有如RFC 791(IP协议)、RFC 793(TCP协议)、RFC 768(UDP协议)等。
对于长期以来只有商业+闭源一条独木桥可走的需求侧企业与机构而言,开源显然提供了另一条路。不过这可能是康庄大道也可能是荆棘小路——简单来说,开源看起来很美,用好却很难,基于开源构建的产品与解决方案对于系统设计、开发、维护、升级、定制等一系列的需求通常远超想象。
03| 软件在吃我们所有人的午餐
业界的另一大趋势是随着底层硬件的同构化(通用化、商品化),系统主要的差异性都通过软件来体现。例如,虚拟化,容器化,软件定义的计算、 络、存储等。
软件,无论开源与否,以其远超硬件的灵活性、可定制性、可编程性、可二次开发性,顺应并引领了信息时代需求多变的特点而越来越受到青睐。其结果是硬件研发厂商几乎都是赔钱赚吆喝,而软件开发商则在金字塔的顶端拿走了整个产业链最大头的利润。
以手机行业为例,那些手机代工厂,如鸿海(富士康),组装生产一部手机获利不超过4美元,而苹果公司通过控制手机操作系统和其上的软件商店,每部利润超过200美元。另外,整个智能手机产业的利润的94%都属于苹果公司——软件的力量让人惊诧。软件是否在吃我们所有人的午餐(Software is eating our lunch)许,我们要用更久的时间来回答这个问题。

另一方面,时下成为了似乎软件可以定义一切的时代。软件的能力被极大的神化了!一个最典型的例子就是,软件所提供的算力是不可能超越底层硬件的物理极限的,而实际上,很多软件根本就无法充分利用底层硬件的高并发、低延时能力。这里面或许我们不应该点名批评任何一家公司,但是,务实地说,Hadoop生态中的解决方案,甚至包括Spark,动辄就会用成百上千台机器,实际上每台机器的利用率都甚为低下。32台机器的集群,如果每台机器只有1个线程在奔跑,这个集群的算力低于一台机器上面32个线程以高密度并发的方式在奔跑的算力。当然,这个问题复杂的地方在于,32台机器的硬盘并发的吞吐率一定会高于1台机器的硬盘吞吐率,不过,我们如果强调的是CPU的算力的话,那么事实就是如上所述。
这个问题还触及到另外一个话题——什么样的分布式系统是更高性能的呢家可以通过类比得到答案。
更小规模的分布式的集群、更密集的并发,往往会达到比那些更大规模的集群,但是却只有低密度并发更好的效果 。这也意味着:更低的延迟、更高的并发,在单位时间内更高的吞吐率,高ROI、低TCO。或许大家应该思考下,为什么有的人在前2年就说过:“Hadoop已死!”
笔者曾亲历了Hadoop肇始阶段。从2004年开始到2006年,Hadoop由Yahoo!的工程师Doug Cutting捐赠给Apache开源 区,笔者时任Yahoo! SDS战略数据部架构师。
2004年时,Yahoo!每天要处理全球超过30000台Apache Web服务器上面超过27TB的数据,这个数值在当年比Google要庞大,是世界上最大规模的数仓。值此机缘,笔者亲历了在Yahoo!内部彼时的分布式数仓系统建设中,Hadoop的性能、吞吐率、延时等很难与内部其它更实时化的数仓系统竞争,内部无法消化,进而转为捐献给了开源 区 。
笔者记得当时还开玩笑:Doug, it’s not gonna work (道哥,Hadoop肯定搞不定啊……)。 我为什么这么说简单,即便在今天,X86服务器的性能已经数倍高于十几年前了,但是一个普通的Hive查询,Hadoop随便一个Map-Reduce操作返回就要40秒,它实在是太慢了!几乎所有的Hadoop系统,都占用了无数的硬件资源,但是绝对不是以一种Fast Data的方式来执行任务的。这些是Big Data最令人难以启齿的问题 ,即便是到了Spark的架构模式上,也依然远远没有达到可以实时处理海量数据的水平。从投入与产出比来看,Hadoop/Spark最成功之处是构建了一整套生态,但是,生态不是一切,笔者始终认为,在数据库、数仓系统,性能才是第一生产力,也始终是第一生产力!
文章知识点与官方知识档案匹配,可进一步学习相关知识MySQL入门技能树数据库组成表32212 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!