1、Svelte 和 SvelteKit
Minikube 是一个易于在本地运行 Kubernetes 的工具,可在你的笔记本电脑上的虚拟机内轻松创建单机版 Kubernetes 集群。便于尝试 Kubernetes 或使用 Kubernetes 日常开发。
地址:
https://github.com/kubernetes/minikube
3、Pixie
FastAPI 是一个高性能 Web 框架,用于构建 API。主要特性:
5、Crystal
Windows Terminal 是一个全新的、流行的、功能强大的命令行终端工具。包含很多来 区呼声很高的特性,例如:多 Tab 支持、富文本、多语言支持、可配置、主题和样式,支持 emoji 和基于 GPU 运算的文本渲染等等。同时该终端依然符合我们的目标和要求,以确保它保持快速、高效,并且不会消耗大量内存和电源。
地址:
https://github.com/Microsoft/Terminal
7、OBS Studio
8、Shotcut
Weave GitOps 支持有效的 GitOps 工作流,以将应用程序持续交付到 Kubernetes 集群中。它基于领先的 GitOps 引擎 CNCF Flux。
地址:
https://github.com/weaveworks/weave-gitops
10、Apache Solr
MLflow 由 Databricks 创建,并由 Linux 基金会托管,是一个 MLOps 平台,可以让人跟踪、管理和维护各种机器学习模型、实验及其部署。它为你提供了记录和查询实验(代码、数据、配置、结果)的工具,将数据科学代码打包成项目,并将这些项目链入工作流程。
地址:
https://github.com/mlflow/mlflow
12、Orange
地址:
https://github.com/flutter
14、Apache Superset
Apache Superset 是 Airbnb (知名在线房屋短租公司)开源的数据探查与可视化平台(曾用名 Panoramix、Caravel ),该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。Apache Superset 也是一款企业级商业智能 Web 应用程序。
地址:
https://github.com/prestodb/presto
16、Apache Arrow
Apache Arrow 为平面和分层数据定义了一种独立于语言的柱状内存格式,为现代 CPU 和 GPU 上的高效分析操作而组织。Arrow 内存格式还支持零拷贝读取,以便在没有序列化开销的情况下进行闪电式的数据访问。Arrow 库可用于 C、C++、C#、Go、Java、JavaScript、Julia、MATLAB、Python、R、Ruby 和 Rust。
地址:
https://github.com/interpretml/interpret
18、Lime
Lime(local interpretable model-agnostic explanations 的简称)是一种 post-hoc 技术,通过扰动输入的特征并检查预测结果来解释任何机器学习分类器的预测。Lime 能够解释任何具有两个或更多类的黑盒分类器,其同时适用于文本和图像领域。Lime 也被包含在 InterpretML 中。
地址:
https://github.com/dask/dask
20、BlazingSQL
BlazingSQL 是一个基于 RAPIDS 生态系统构建的 GPU 加速 SQL 引擎。RAPIDS 基于 Apache Arrow 柱状内存格式,cuDF 是一个 GPU DataFrame 库,用于加载、连接、聚合、过滤和操作数据。它是 cuDF 的 SQL 接口,具有支持大规模数据科学工作流和企业数据集的各种功能。
地址:
https://github.com/rapidsai/cudf
22、PostHog
PostHog 是一个为开发人员构建的开源产品分析平台。自动收集你 站或应用程序上的每个事件,无需向第三方发送数据。它在用户级别提供基于事件的分析,捕获你产品的使用数据以查看哪些用户在你的应用程序中执行了哪些操作。它会自动捕获点击次数和综合浏览量,以分析你的用户在做什么,而无需手动推送事件。
地址:
https://github.com/treeverse/lakeFS
24、Meltano
Meltano 是今年从 GitLab 中分离出来的,一个免费的开源 DataOps 替代传统 ELT(提取、加载、转换)的工具链。Meltano 的数据仓库框架使得为你的项目建模、提取和转换数据变得容易,并通过内置的分析工具和简化 告的仪表盘来补充集成和转换管道。Meltano提供了一个可靠的提取器和加载器库,以及对 Singer 标准的 data extracting taps 和 data loading targets 的支持,Meltano 已经是一个数据编排的动力源。
地址:
https://github.com/trinodb/trino
26、StreamNative
StreamNative 是一个高度可扩展的消息和事件流平台,大大简化了实时 告和分析工具以及企业应用流的数据管道铺设。StreamNative 将 Apache Pulsar 强大的分布式流处理架构与 Kubernetes 和混合云支持等企业额外功能、大型数据连接器库、简易认证和授权以及用于健康和性能监控的专用工具相结合,既简化了基于 Pulsar 的实时应用程序的开发,又简化了大规模消息传递背板的部署和管理。
地址:https://github.com/huggingface/transformers
28、EleutherAI
EleutherAI 是一个由机器学习研究人员组成的分布式小组,旨在将 GPT-3 带给所有人。2021 年伊始,EleutherAI 发布了 The Pile,是一个 825 GB 的用于训练的多样化文本数据集;并在 6 月公布了 GPT-J,一个 60 亿参数的模型,大致相当于 OpenAI 的 GPT-3 的 Curie variant。随着 GPT-NeoX 的出现,EleutherAI计划将参数一直提高到 1750 亿,以与目前最广泛的 GPT-3 模型竞争。
2021年最值得推荐的29个开源软件,想提升自己的程序员赶快收藏
地址:
https://github.com/EleutherAI/gpt-neo
29、Colab notebooks for generative art
首先是 OpenAI 的 CLIP(对比语言-图像预训练)模型,一个用于生成文本和图像矢量嵌入的多模态模型。虽然 CLIP 是完全开源的,但 OpenAI 的生成性神经 络 DALL-E 却不是。为了填补这一空白,Ryan Murdoch 和 Katherine Crowson 开发了 Colab notebooks, CLIP 与其他开源模型(如 BigGAN 和 VQGAN)结合起来,制作 prompt-based 生成性艺术作品。这些 notebooks 基于 MIT 许可,于过去几十年间在互联 上进行了广泛传播,被重新混合、改变、翻译,并被用来生成了惊人的艺术作品。
2021年最值得推荐的29个开源软件,想提升自己的程序员赶快收藏
地址:
https://github.com/openai/CLIP
以上就是 2021 年度 InfoWorld Bossie Awards 项目。其中很多项目我是第一次见,我的开源项目库又多了一些高端、大气、上档次的项目。
源:HELLOGITHUB
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!