您的位置:首页 >数码 >

基于GPU运算平台RAPIDS的查询引擎BlazingSQL现对外开源

时间:2022-06-10 09:31:07 来源:[db:来源]

原标题:基于GPU运算平台RAPIDS的查询引擎BlazingSQL现对外开源

GPU加速SQL引擎BlazingSQL建立在Nvidia的GPU资料科学平台RAPIDS之上,RAPIDS开源平台提供了一套基于GPU的CUDA加速函式库,可用于机器学习以及资料视觉化。现在BlazingSQL团队已经与RAPIDS团队整合,并将程式码于GitHub上开源。

RAPIDS奠基于跨语言开发平台Apache Arrow,以及用来载入、聚合和过滤资料的GPU资料影格(GPU DataFrame,GDF)函式库cuDF。GPU资料影格是一种GPU记忆体资料格式,可为GPU应用程式提供互通性。BlazingSQL提供一套存取cuDF的SQL介面,可将企业资料湖泊的查询资料,编码成GPU资料影格,方便GPU记忆体使用。

BlazingSQL让开发者以SQL语法,就能利用GPU查询资料,而不需要操作複杂的cuDF函式呼叫。另外,BlazingSQL也能用来连结云端或是网路档案系统,直接对原始档案进行查询。BlazingSQL中的SQL最佳化工具,可以使RAPIDS堆叠运作更加快速。

BlazingSQL还整合Python平行运算函式库Dask,可以为资料科学家提供快速的分析运算。官方提到,过去需要数千台伺服器进行的大规模资料科学研究,现在只需要其中一小部分的基础设施就能够完成,过去需要耗时数小时甚至是数天的大型资料集工作负载或是查询,由于BlazingSQL利用GPU,数秒钟就能完成,而这赋予资料科学家快速迭代模型的能力。

除此之外,BlazingSQL让开发者在开发测试环境与正式产品环境,可以使用相同的程式码,官方表示,资料科学家通常需要先小规模的测试工作负载雏形,待验证完成之后,会为分散式系统重新建置程式,而BlazingSQL可以使用同一行程式码,在不同发布规模中运作。

有鑒于BlazingSQL与RAPIDS发展息息相关,因此为了未来的发展,双方整合了开发团队,官方表示,他们认为RAPIDS将成就下一代分析生态系,而SQL又是构成当前主要分析生态系的重要语法,BlazingSQL为RAPIDS下的SQL标準,因此与RAPIDS团队整合,以利为cuDF做出更多贡献。BlazingSQL建构在RAPIDS的cuDF以及GPU档案I/O函式库上,因此当这些项目受到更新时,也同时改善了BlazingSQL的效能。


郑重声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。