从SQL Server 2019 (15.x)开始,
方案
SQL Server大数据群集在与大数据交互方面提供了灵活性。可查询外部数据源,存储通过SQL Server管理的HDFS中的大数据,或通过群集查询来自多个外部数据源的数据。然后,可以将数据用于AI、机器学习和其他分析任务。下列各部分提供了有关这些方案的详细信息。
数据虚拟化
通过利用SQL Server PolyBase,SQL Server大数据群集可以在不移动或复制数据的情况下查询外部数据源。SQL Server 2019 (15.x) 引入了数据源的新连接器。

Data Lake
SQL Server大数据群集包括可缩放的HDFS存储池。 这可用于存储可能来自多个外部源的大数据。 大数据存储在大数据群集中的HDFS中后,便可分析和查询数据并将其与关系数据相结合。

横向扩展数据市场
SQL Server大数据群集提供了向外扩展计算和存储,以提高分析任何数据的性能。来自各种源的数据可作为缓存跨数据池节点进行引入和分布以供进一步分析。

集成的AI和机器学习
SQL Server大数据群集在HDFS存储池中存储的数据和数据池中启用AI和机器学习任务。使用R、Python、Scala或者Java可在SQL Server中使用Spark以及内置的AI工具。

管理和监视
通过命令行工具、API、门户和动态管理视图的组合提供管理和监视。
可以使用Azure Data Studio在大数据群集上执行各种任务。这是由新的SQL Server 2019扩展(预览版)启用的。 此扩展提供:
-
用于常见管理任务的内置片段。
-
浏览HDFS、上传文件、预览文件和创建目录的能力。
-
创建、打开和运行与Jupyter兼容的笔记本的能力。
-
用于简化外部数据源的创建的数据虚拟化向导。
体系结构
SQL Server大数据群集是由Kubernetes编排的Linux 容器群集。
Kubernetes的概念
Kubernetes是一个开放源代码容器业务流程协调程序,可以根据需要缩放容器部署。下表定义了一些重要的Kubernetes术语:
ClusterKubernetes | 群集是一组称为节点的计算机。一个节点控制群集并被指定为主节点,其余节点是工作器节点。Kubernetes主节点负责在工作器节点之间分配工作,并负责监视群集的运行状况。 |
Node | 节点运行容器化应用程序。 它可以是物理计算机或虚拟机。 Kubernetes 群集可以混合包含物理计算机节点和虚拟机节点。 |
Pod | Pod是Kubernetes的原子部署单元。Pod是运行应用程序所需的一个或多个容器和相关资源的逻辑组。一个Pod只能在一个节点上运行,一个节点可以运行一个或多个Pod。Kubernetes主节点自动将Pod分配给群集中的其余节点。 |
在SQL Server大数据群集中,Kubernetes负责SQL Server大数据群集的状态,Kubernetes构建和配置群集节点,将pod分配给节点,并监视群集的运行状况。
大数据群集体系结构
下图显示了SQL Server的大数据群体的组件。

控制器
控制器为群集提供管理和安全性。它包含控制服务、配置存储和其他群集级服务,例如Kibana、Grafana和弹性搜索。
计算池
计算池为群集提供计算资源。它包含在Linux上的SQL Server Pod上运行的节点。计算池中的Pod分为用于特定处理任务的SQL Compute实例。
数据池
数据池用于数据暂留和缓存。数据池由一个或多个运行Linux上的SQL Server的Pod组成。它用于从SQL查询或Spark作业中提取数据。SQL Server大数据群集数据市场持久保留在数据池中。
存储池
存储池由Linux上的SQL Server、Spark和HDFS组成的存储池Pod组成。SQL Server大数据群集中的所有存储节点都是HDFS群集的成员。
后续步骤
有关部署SQL Server大数据群集的详细信息,请参阅SQL Server大数据群集入门。
*想要获得Microsoft SQL Server更多资源或正版授权的朋友,可以咨询【客服】了解哦~
·1024程序员节,DevExpress、MyEclipse、Axure RP、Aspose、FastReport等产品限时放“价”,给你专属宠爱!点击下方图片查看活动详情↓↓↓

标签:
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!