公众号尚处在休假模式。
我刚发完文章说去IOE和跑分的事情,有朋友就给我转了一则重大新闻:上海星环最近在TPC跑分TPC-DS成功,成为全球首个官方承认的TPC-DS 10TB数据的发布者。
最初知道星环公司,还是起源于Intel上海的八卦。Intel公司首先宣布要发行自己的Hadoop发行版。之后Intel又自食其言,注资Cloudera打算和Cloudera合作。那笔注资,让Cloudera的估值达到了40亿美元,比起几年后上市的24亿美元估值,高了差不多一倍。以事后诸葛亮的观点看,Intel当初投资可谓是当了一次冤大头,让Cloudera的创始团队在高位成功套现了不少股票。
Intel之所以会上演这出戏,和当时美国/中国(上海)Intel到底谁主导大数据的发展有关。发行自己Hadoop版的主力是Intel上海研发部门。想要和Cloudera合作的是美国的人。上海这些人后来在这场政治斗争里失败,又跳出来另起炉灶,也就成立了今天的星环。
回头去看这段历史,只能说外企里面政治正确非常的奇葩,美国人主宰下的Intel最终做了一次傻逼买卖。而所谓的不破不立,倘若没有这个事件,也就没有星环的成立。
星环的整个Hadoop发行版,也算得上是业界比较奇特的一个版本。很多核心技术是Hadoop系统和Spark改的。不过代码也算得上是被改得面目全非,没有多少人能认得出来是原来的Hadoop了。当然因为星环不开源,所以我们也不知道这个版本到底长什么样,有什么牛逼的地方。
TPC-DS是一个很难的测试标准。具体难在哪里,一方面是99个查询里面有些查询很变态,各种各样的奇葩SQL都有。另外一方面是整个测试过程需要经过很多不同的阶段,包括数据更新和查询的反复进行。其数据集比起TPC-H来说也更真实。TPC-H一直为人诟病的一点是它的数据集相对键值是均匀分布的,并没有反映真实世界的情况。这在TPC-DS里也得到了改进。
虽然陆陆续续有一些企业公布过一些TPC-DS的结果,但是到目前为止没有企业发布过官方承认的结果。星环作为全球第一个跑通了整个测试集并获得官方承认的数据处理系统,仅仅就这一点来说我觉得很值得大书特书一下。
而且从另外一个角度来说,星环作为能够发布测试结果的数据处理系统,比起某些天天叫着早就取代Oracle,却连一点数据跑分结果也不敢公布的系统终究是强很多了,为此我也得给星环点个赞。
所谓是骡子是马,拉出来溜溜。星环显然开了一个好头,既证明了自己又鼓舞了大家,何乐而不为呢?