当“人工智能步入落地之年” AI 不再是概念,而是全面进入到企业的战略规划之中。算力作为人工智能应用的平台和基础,它的发展推动了整个人工智能系统的发展和快速演进,成为人工智能的最核心要素。
随着科技的不断发展,获取算力的方式和途径越来越丰富,就目前而言,公有云和数据中心(私有云)已经成为两大主流的算力获取方式。不过,在实际的部署和应用中,它们对于中小型AI开发团队来说都存在着很多问题。比如,中小型 AI 开发团队的 AI 模型训练往往是阶段性的,而阶段性访问公有云需要按次收取算力费用,如此累积算下来将是一笔不菲的投入,相比之下,一次性购买一台 GPU 工作站会更加划算。而建立私有的数据中心,不仅需要批量购置 GPU 服务器,还需要搭建标准机房、高带宽 络部署,与此同时更需要增加专业IT维护人员的工作负荷,这对于中小型AI开发团队来说相当奢侈。
从中小型AI开发团队的使用场景和使用需求中不难发现,降本增效是他们衡量一款解决方案是否合适的重要因素之一。这意味着算力设备需要在保障团队算力需求,可以共享使用的同时,还要做到简单部署易操作,省时省力省空间。也因此,数据科学工作站的出现,可以很好地满足这些切实需求。
数据科学工作站是 PC 形态的桌面超级计算机,相较于 PC ,它支持双路 Intel? 至强?铂金/金牌等系列的处理器和主板芯片海量内存、大容量 SATA 硬盘以及多块 NVIDIA ?高端 RTX? 专业级显卡等,可以满足算法训练等 AI 工作流程中所需要的强大算力需求以及图形应用中的海量浮点运算和 3D 渲染工作等对硬件的苛刻要求。
数据科学工作站与公有云或数据中心相比,不仅性价比高,更容易部署,而且噪音低,可以让中小型AI开发团队直接在办公区内进行协同开发。
惠普最近升级的 HP Z8 G4 数据科学工作站以其强大的性能表现,稳定可靠的安全性,以及全方位的系统和软件支持,在专业领域工作环境下,为使用者提供了绝佳的高性能计算解决方案。
同时,惠普最新还推出了一款基于 Docker+Kubernetes 的人工智能容器云平台HP AI开发平台。该平台能够实现异构资源的高效管理、调度和监控,提供了从模型开发、训练到部署的完整流程和工具,广泛适用于教育、科研、金融、医疗、能源各个行业,能极大降低人工智能进入门槛,提高人工智能创新和研发的效率。
为了让中小型AI开发团队更切实更全面地认识 HP Z8 G4 数据科学工作站以及 HP AI 开发平台在团队协作开发中的价值,智东西公开课AI教研团队联合两位 Kaggle Grandmaster 模拟现实开发,对 HP AI 开发平台的功能应用,及其在 HP Z8 G4 数据科学工作站上的使用体验两个方面进行了深入评测和项目实验。
智东西公开课AI教研团队主要承担在 HP Z8 G4 数据科学工作站中安装 HP AI 开发平台,并且作为管理员进行资源管理。两位 Kaggle Grandmaster 将基于我们分配的资源,协同完成基于数据集 CASIA-SURF 的人脸活体检测,以及基于数据集 STS-B 的自然语言文本分类这两项实验。
两位 Kaggle GrandMaster 分别是关注自然语言处理领域的算法工程师吴远皓和从事医疗AI算法研发工作的算法工程师沈涛。吴远皓已参加超过20场Kaggle竞赛,获得8枚金牌,并于2019年成为 Kaggle Competitions Grandmaster ,全球最高排名第36位。沈涛在机器学习竞赛平台 Kaggle 上共得到11块金牌,获得了 Kaggle Grandmaster 称 ,全球最高排名第8位。
在进入正文介绍 HP AI 开发平台的功能及实验之前,我们先来了解一下本次使用的 HP Z8 G4 数据科学工作站的核心参数,如下:
图表0.0.1
再给大家看看3块 NVIDIA A5000 显卡安装好之后的实际展示。下图中的“三条金色模块”即为 NVIDIA A5000 显卡。
图表0.0.2
下图是 HP Z8 G4 数据科学工作站实际工作的展示:
图表0.0.3
1、HP AI 开发平台功能全解
本章节将为大家展示 HP AI 开发平台的安装过程和架构组成,并重点介绍其为开发者所提供的模型训练、数据存储、任务镜像,以及向管理者所提供的用户权限、监控中心、系统设置等特色功能。
下面进入 HP AI 开发平台的安装。HP AI 开发平台的安装包是适用于 Unix 系统和类 Unix 系统的.run 格式文件,整个安装过程分三步,十分简单:
第一步,在 Ubuntu 系统的终端中,输入:
“sudo bash AI_HP
-Evaluation-4.5.1-HP-63045-offline.run”即可进行安装。
第二步,成功安装完成后,会显示:
“Please visit htp://192.168.88.80:5678 to continue installation.”。此时浏览器输入 址后会看到平台的环境正在初始化。
第三步,平台环境初始化完成后,会自动跳转到 HP AI 开发平台的登录界面,此时输入账 密码即可完成登录。下图为 HP AI 开发平台的首页展示。
图表 1.0.1
1、平台架构
图表 1.1.1
1.1、基础设施层
基础设施层以X86的服务器、专业工作站为载体,可通过 GPU、CPU 等提供高性能加速计算,支持 TCP/IP,InfiniBand 高速 络互联,以及 NFS 和 GlusterFS 两种类型的存储格式。
1.2、资源调度层
采用容器化技术管理底层资源,并利用 Kubernetes(K8s)技术进行容器编排调度。
1.3、应用服务层
应用服务层支持主流的 TensorFlow、Caffe、PyTorch 和 MxNet 等主流的机器学习框架,以及完整的机器学习所需的处理流程,实现资源操作自动化。
1.4、业务领域层
通过支持自然语言处理、图像识别和语音识别等任务,可以满足金融、教育、医疗、制造等行业场景的 AI 开发需求。
2、特色功能
2.1、模型训练
2.1.1、任务列表
任务管理界面,有“任务训练”、“交互式开发”、“可视化”、“模型部署”等四个功能页。管理员用户可以查看和管理所有用户的训练任务,包括任务训练任务、交互式开发任务、可视化任务、模型部署任务。
图表 1.2.1
查看任务
可以看到所有用户的所有任务的简要配置信息,如任务名称、所属用户、任务的执行器、所属分区、资源配额、创建时间等。点击“任务训练”、“交互式开发”、“可视化”、“模型部署”来展示不同类型的任务。
比如在交互式任务 “interactive14871” 中,可以分别看到任务节点、用户名、执行器、分区名称、资源配置、任务优先级、运行状态、创建时间、空闲时间等。
图表 1.2.2
点击“详情”可以进一步查看任务的基本信息、资源配置、应用信息和状态等。
图表 1.2.3
删除任务
点击“删除”按钮即可删除正在运行中的任务。
需要注意的是在“任务训练”中的任务,点击“删除”按钮,只会删除正在运行中的训练任务,记录无法被删除,记录不会占用 CPU、GPU、内存等资源,其他类型任务删除后不保留记录。
查询用户任务
在界面右侧输入框中输入要查找的用户名,回车进行查找。
2.1.2、任务统计
管理员可对 HP AI 开发平台中各分区任务进行统计。查看分区中已计划、已完成、运行中、暂停中的任务数量以及任务的资源占用信息。“任务统计”可以帮助管理员了解各分区中用户在一段时间内使用任务训练的使用情况。
图表1.2.4
根据日期统计任务
管理员可选择指定日期,统计指定日期时间到当前时间的任务数量及任务资源占用情况。
图表 1.2.5
2.1.3、任务队列
点击左侧菜单“任务队列”,进入任务队列界面,分别显示优先级为“高”、“普通”、“低”三种优先级任务。
图表1.2.6
2.2、数据存储
HP AI 开发平台支持基于 NFS 的分布式存储方式,满足用户对数据的安全和性能要求。丰富的数据管理、分享功能极大方便了用户的使用。
2.2.1、数据卷
管理员可以创建 NFS 卷,对卷进行管理操作,查看卷的使用情况。
图表1.2.7
查看“NFS”卷列表
可以看到 NFS 数据卷列表及每个数据卷的服务器地址、共享目录、挂载权限、状态及描述状态。
图表 1.2.8
创建 NFS 卷
点击“创建 NFS 卷”按钮,进入NFS卷创建界面。
图表 1.2.9
NFS 名词参数解释
图表 1.2.10
查看卷使用情况
管理员用户在数据卷列表页面点击卷名称后,该数据卷的总使用情况和各用户使用情况均会显示在此页面。
图表 1.2.11
2.2.2、公共数据
公共数据即拥有 HP AI 开发平台用户都可以访问的数据,管理员可以上传公共数据,并对公共数据进行管理,普通用户只有复制到用户私有数据和下载权限。
图表 1.2.12
创建目录
用户可以在“公共数据”页面点击“创建目录”来创建自己的目录。名称不能包含以下字符”, ‘|’, ‘*’, ‘?’, ‘,’,’/’,’ ‘, 长度在1~50个字符,创建成功会有相应提示。否则创建失败。
图表 1.2.13
上传数据
将本地文件上传到“公共数据”中。适合小文件的上传。
图表 1.2.14
刷新
若对文件进行了增删修改操作,点击“刷新”按钮更新文件状态及属性。
文件列表:文件及文件夹管理
针对文件列表里面的每一个文件及文件夹,都有相应的管理功能,如重命名、下载、复制、查看文件大小、删除等,针对文件还有在线查看功能,方便管理员进行管理操作。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!