2021 年最佳开源软件(下)

InfoWorld 的 2021 Bossie Awards 旨在表彰年度软件开发、开发运营、数据分析和机器学习领域的最佳开源软件。

金钱可能不会长在树上,但它确实在 GitHub 存储库中增长。开源项目产生了地球上最有价值和最复杂的软件,免费获取,大大降低了所有公司的信息技术成本。如果您正在寻找软件的前沿,请关注当今的开源项目。

在InfoWorld 的2021 年度最佳开源软件奖中,您将在这里找到最佳的开源应用。我们的 2021 年 Bossie 奖获奖者代表了当今开源必须提供的最佳和最具创新性的软件一一用于软件开发、开发运营、云原生计算、机器学习等。

MLflow

当一个技术领域变得足够流行和复杂时一一有很多活动部件和很多人参与一一它最终会有同样复杂的操作或-操作”对应物。机器学习也不例外, 因此我们有“MLOps”。通过Databricks创建,由Linux基金会主办,MLflow是MLOps平台,可以让一个轨道,管埋和维护各种机器学习模型,实验,他们的部署。它为您提供工具来记录和查询实验(代码、数据、配置、结果),将数据科学代码打包到项目中,并将这些项目链接到工作流中。考虑机器学习的DevOps 和生命周期管理。

Orange

Orange承诺让数据挖掘“富有成果且有趣”。它的血统可以追湖到近四分之一世纪,但今天仍在广泛使用和积极发展。Orange 允许用户创建数据分析工作流并执行各种机器学匀和分析功能以及可视化。与RStudio 和Jupyter 等编程或文本工具相比,Orange 非常直观。您可以将小部件拖到画布上以加载文件、使用模型分析数据并可视化结果。具有蛇形倾向的用户可以使用 Python 脚本小部件以编程方式操作数据。

Flutter

Flutter是 Google 的U工具包,用于从单个代码库为移动、web、桌面和嵌入式设备构建本地编译的应用程序。它基于 Dart 语言和一组丰富的完全可定制的 Material Design 和Cupertino 风格的小部件来构建原生界面。Flutter 的小部件整合了所有关键的平台差异,例如滚动、导航、图标和宇体,以在 ios 和 Android 上提供完整的原生性能。

Apache Superse

Apache Superse是一个现代的、企业就緒的商业智能 Web 应用程序。它快速、轻量目易于使用,允许各种技能的用户探索和可视化他们的数据,从简单的饼图到高度详细的deck.g(地理空间图表。Superset 提供了用于可视化数据集和制作交互式仪表板的直观界面、大量数据可视化、无代码可视化构建器和用于准备可视化数据的 SQL IDE。在后端,您会发现对大多数SQL数据库、内存中异步缓存和查询以及从头开始设计的云原生架构的支持。

Presto

Apache Arrow

Apache Arrow为平面和分层数据定义了一种独立于语言的列式内存格式,为现代 CPU 和CPU 上的高效分析操作而组织。Arrow 内存格式还支持零拷贝读取,无需序列化开销即可实现闪电般的快速数据访问。连续的柱状布局支持使用现代处理器中包含的最新 SIMD(单指令多数据)操作进行矢量化。Arrow 的库实现了该格式并为一系列用例提供了构建块,包括高性能分析。许多流行的项目 使用 Arrow 来高效地传送列数据或作为分析引l擎的基础。Arrow 库可用于C、C++,C#、Go、 Java、 JavaScript JuliaMATLAB、Python、R、 Ruby和Rust。

InterpretML

可解释人工智能( xAl),也称为可解释人工智能,是指机器学习和深度学习方法,可以用人类可以理解的方式解释他们的决定。希望 XA1 最終会变得和黑盒模型一样准确。InterpretML是个开源XAI 包,它結合了几种最先进的机器学习可解释性技术。InterpretML 可让您训练可解释的模型并解释黑盒系统。InterpretML 可帮助您了解模型的全局行为以及各个预测背后的原因。在其众多功能中,InterpretML有一个来自Microsoft Research 的“玻璃盒“模型,称为Explainable Boosting Machine,它支持Lime用于通过黑盒模型近似的事后解释。

Lime

Lime (局部可解释模型不可知解释的缩写)是一种事后技术,通过扰乱输入的特征并检查预测来解释任何机器学习分类器的预测。Lime 背后的关键直觉是,通过局部(在我们要解释的预测附近)的简单模型来近似黑盒模型比尝试全局近似模型要容易得多。Lime 适用于文本和图傢域。Lime Python 包在PyP上可用,源代码在GitHub上,它也包含在InterpretML 中。

Dask

Dask是一个用于并行计算的开源库,可以将 Python 包扩展到多台机器。Dask 可以在同一系统或多节点集群中的多个 CPU 上分配数据和计算。Dask 与Rapids CuDF、xGBoost和Rapids cuML集成,用于 GPU 加速数据分析和机器学习。它还与 NumPy、Pandas 和Scikit-learn 集成以并行化它们的工作流程。

BlazingSQL

BlazingsaL是个GPU 加速的SQL 引擎,构建在 Rapids 生态系统之上。BlazingsQL 代码是在 Apache 2.0 许叮下发布的开源项目。Blazing Notebooks 是种基于 AWS 构建的云服务,结合了 BlazingSQL、 Rapids 和JupyterLab。基本上,BlazingSQL 提供了全 GPU 数据科学工作流的 ETL(提取、转换和加载)部分。在CPU 内存中拥有 GPU DataFrames 后您可以使用Rapids CLML进行机器学习,或将 DataFrames 转换为DLPack或NVTabular以使用 PyTorch 或 TensorFlow 进行 CPU 内深度学司。

Rapids

Nvidia 的Rapide开源软件库和 AP1 套件使您能够完全在 GPU 上执行端到端数据科学和分析管道。Rapids 使用Nvidia CUDA原语进行低级计算优化 ,并通过用户友好的 Python 界面公开GPU 并行性和高带宽内存速度。Rapids 依赖于 Apache Arrow 列式内存格式,并包含cuDF,个类似 Pandas 的数据帧操作库;cuML,—组机器学习库,提供 Scikit-learn 中大多数可用算法的 GPU 版本;和 cuGraph ,一个类似 Networkx 的库,用于加速图分析。

PostHog

PostHog是一个易于使用的产品分析工具框架 ,提供了一种快速途径来深入了解您的 web和移动应用程序的用户行为。只需在您的代码中添加一个小的 JavaScript 片段,您就可以开始运行了。PostHog 的白动南获会收集在用户会话期间触发的大量前端交互事件。点击式、 菜单驱动的U!可以轻松地将大量事件数据提炼成有意义的行动指标、趋势图表和一口大小的仪表板。漏斗可帮助您进一步优化复合使用模式,以隔离瓶颈并提高跳出率。PostHog 可用于本地部署或在 Saas 产品中 ,消除了优化软件产品用户体验的三味和猜测。

LakeFS

LakeFs提供了一种“以管理代码的方式管理数据湖”的方法,为对象存储添加了一层类似于 Git的版本控制。Git 语义对数据的这种应用让用户可以创建他们自己的独立的零拷贝数据分支,用于工作、实验和模型分析,而不会破坏共享对象的风险。LakeFS 为您的数据带来了有用的提交说明、元数据字段和回滚选项,以及用于维护数据完整性和质量的验证挂钩一一在末提交的分支意外合并回生产之前运行格式和模式检查。借助 LakeFS,管理和保护代码存储库的熟悉技术可以扩展到现代数据存储库,如 Amazon S3 和 Azure Blob 存储。

Meltano

今年从 GitLab 中分离出来的Meltano是一个免费的开源”DataOps“替代传统ELT(提取、加载、 转换)工具链。Meltano 的数据仓库框架可以轻松地为您的项目建模、提取和转换数据,并通过内置分析工具和仪表板来补充集成和转换管道,以简化 告。Meltano 提供了一个可靠的提取器和加载器库,并支持 Singer 标准的数据提取分接头和数据加载目标,它已经是数据编排的强大动力。

Trino

StreamNative

StreamNative是一个高度可扩展的消息传递和事件流平台,它极大地简化了为实时 告和分析工具以及流企业应用程序铺设数据管道。将 Apache Pulsar 强大的分布式流处理架构与Kubernetes 和混合云支持等企业附加功能、大型数据连接器库、轻松的身份验证和授权以及用于健康和性能监控的专用工具相结合,StreamNative 都简化了基于Pulsar 的开发实时应用程序并简化大规模消息传送背板的部署和管理。

Hugging Face

Hugging Face提供了最重要的开源深度学习存储库,它本身并不是一个深度学习框架。该项目对基于变形金刚的景观的总体控制继续增加,新模型在论文发表后几天就被添加到回购中。模型托管正在不断壮大,Accelerate等新工作使分布式 GPU 训练的使用变得更加容易。现在 Hugging Face 的目标是扩展到远远超出文本的范国 ,支持图像、音频、视频 对象检测等。未来几年,深度学习以业者将密切关注这个资源库。

EleutherAl

OpenAl 的 CPT-3 模型在文本生成方面实现了惊人的飞跃,具有人类级别的性能。但是,尽管可以通过 AP1 获得有限的访问权限,但只有 OpenAl 和 Microsoft 才能完全访问 GPT-3的训练版本。进入EleutherAl,这是一个分布式机器学习研究小组,致力于将 GPT-3 带给我们其他人。2021 年伊始 ,EleutherAl 发布了The pile,这是一个825GB 的用于训练的大量不同文本数据集,并于6月发布了GPT-J,这是个60 亿参数模型,大致相当于 OpenAl 的CFT-3的居里变体。使用GPT-NeoX,EleutherAl 计划一路跑到 1750 亿个参数,以与目前可用的最广泛的 CPT-了 模型竞争。黑客攻击世界上最大的公司?这就是开源的力量。

传统上,Bossies 的赢家是库、框架、平台和操作系统一一开源的支柱。然而,我认为不止获奖的这些开源组件,其他的开源组件也值得一些认可,大家可以学习研究。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年10月24日
下一篇 2021年10月24日

相关推荐