如果要使用NVIDIA A100则实例类型可选择p4d.24xlarge,本例测试选择具有4块NVIDIA V100 GPU的p3.8xlarge
实例创建完成后登录系统,格式化并挂载3T的数据盘到/data,具体操作参考该文档
-
文档
https://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/ebs-using-volumes.html
1.创建输出目录
2.将docker/run_docker.py中的DOWNLOAD_DIR修改为包含下载数据库目录的路径/data, output_dir设置为上一步创建的输出目录
4.安装依赖
5.测试文件
打开:
https://www.predictioncenter.org/casp14/target.cgiarget=T1050
复制Sequence的文本到T1050.fasta文件中
6.运行可能需要几个小时时间,可以同样使用nohup命令让任务在后台执行
一个任务只能使用一块GPU,如果计算实例具有多块GPU,可以利用–gpu_devices参数将多个任务投递到不同的GPU上进行计算,如:
7.完成之后在之前设置的/tmp/alphafold目录下会有结果输出
将它附加到Amazon EC2实例上
1.安装
2.执行如下命令并按提示进行配置,详见附录
3.重新启动agent
GPU监控
1.下载python脚本
2. vim gpumon.py
3. 安装python2的依赖
执行
Amazon CloudWatch
在Amazon CloudWatch的指标中可以发现Amazon CWAgent和AlphaFold两个命名空间,其中包含了我们所需要的内存和GPU监控指标
创建一个控制面板来统一监控这些指标
只有在模型的推理阶段才会用到GPU,而且只用到了4块GPU中的一块,其余阶段都是用的CPU(https://github.com/deepmind/alphafold/issues/67)
投递两个任务
结果如下:
Amazon CloudWatch Agent配置示例
孙亮
亚马逊云科技解决方案架构师
硕士毕业于浙江大学计算机系。在加入亚马逊云科技之前,拥有多年软件行业开发经验。目前在Public Sector部门主要服务于生命科学和医疗健康相关的行业客户,致力于提供有关HPC、无服务器、数据安全等各类云计算解决方案的咨询与架构设计。
相关阅读
呼叫医生云!Amazon HealthLake 现已正式上线
点击图片查看原文
听说,点完下面4个按钮
就不会碰到bug了!

文章知识点与官方知识档案匹配,可进一步学习相关知识Java技能树首页概览92081 人正在系统学习中
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!