(相关资料图)
随着云存储成为事实上的数据湖,回想起就在几年前,SQL-on-Hadoop还是一个竞争激烈的战场,有超过12个不同的开源和专有引擎参与其中,这几乎是很奇怪的。随着Cloudera和Hortonworks的合并,Hadoop市场逐渐萎缩,大家的目光都集中在如何访问越来越多存储在云对象存储中的数据上。现在,每个云数据仓库平台都提供了一种将查询联合到云对象存储的方法。
但是,如果您不想挂载Hadoop集群或建立数据仓库呢?几年前,AWS与雅典娜合作,后者直接询问S3。在引擎盖下,雅典娜使用了普雷斯托。这是脸书开发的基于hadoop的交互式SQL查询技术。它曾经被认为是唯一一个不受主要供应商支持的框架。那不是黑斑羚。黑斑羚后面是克劳迪娅。一个来自IBM的Db2产品,BigSQL从关键做起;这也不是升级后的霍顿工厂蜂巢。翻译?如果习惯了Presto,只能靠自己了。
收购哈达特的Teradata在被剥离之前就开始填补这一真空。——公司现更名为星暴数据,想在Teradata核心市场之外的中端市场自由发展。
此外,云成本控制已成为企业首要问题。
反映大数据世界仍然包括,但也比Hadoop更广泛的事实,您将不会看到许多在Hadoop框架上比较SQL的基准测试。考虑到两者都是基于谷歌Dremel项目开发的(现已公开为云BigQuery数据仓库服务),Presto经常被比作Impala。有人声称黑斑羚在个人查询方面还是比较快的。然而,正如在Apache Spark上的测试所揭示的,Presto之所以强大,是因为它植根于脸书内部的大数据查询引擎,该引擎被成千上万的用户使用。
更重要的是,Hadoop仍然是大数据的重要组成部分,但它与云存储的对抗也是如此。Hadoop社区正在努力让云对象存储成为像HDFS一样的第一等公民,但正如Mike Olson最近评论的那样,Hadoop社区仍在等待AWS s3兼容存储的最终答案。
在Teradata之后的生活中,Starburst数据将自己定位为联合查询提供者。是的,Teradata仍将转售给其客户群,但更多时候,Starburst的数据将与像Dremio这样资金充足的竞争对手竞争。星暴没有接受风险投资,而是一直在发展自己,在这么早的阶段就奇迹般的实现了盈利。与Dremio相比,Starburst在数据目录和Kubernetes支持方面做得更好,在安全性、可用性和性能方面做得更好。今天发布的最新版本增加了一个新的“任务控制”控制台,可以轻松地将Starburst连接到不同的数据源。
虽然Starburst将自己定位为独立于云和数据库(例如,它比Impala有更多的连接器),但它的最佳定位将是提供AWS Athena的第三方替代品。在这样做的过程中,它可能会从Dremio获得一些灵感,并在其路线图中增加集装箱化和Kubernetes支持。它还面临着来自AWS的竞争。尽管Starburst声称其性能优于雅典娜,但其整个运行时(包括最近引入的查询优化器)都是开源的。亚马逊可以轻松获得同样的技术,这意味着性能差距缩小可能只是时间问题。无论如何,AWS的一个主要客户已经将其许多数据平台迁移到亚马逊堆栈,但它仍然是Starburst查询S3的坚定客户之一。
关键词: