AI集群运维工程师技术要求
根据猿代码和boss直聘上的一些内容整理出来的东西,权当玩闹吧。
2023.04 摄于广东深圳·华强北 北方工业大厦
运维基础
Linux系统运维
- Linux的部署和维护操作;
- Shell脚本的编写;
- 硬件服务器的管理和维护
集群用户管理
- 用户的管理和维护
- LDAP的使用和维护
Python编程基础
- 基础语法
- 数据结构
- 函数和类
- 文件操作
- 异常处理
高性能计算
高速网络运维管理
- TCP/IP协议栈
- 扩展介绍
- IB网络维护
- RDMA网络维护
共享存储
- NFS共享文件系统搭建
- Lustre共享文件系统搭建
- Lustre文件系统使用以及日常维护
软件部署
- 基于Make管理工具的安装
- 基于Cmake管理工具的安装
软件环境维护
- module环境管理
- conda环境管理
- spack环境管理
- docker容器使用
- singularity容器使用
AI维护
深度学习理论基础
- 神经网络基础
- 反向传播算法
- 梯度下降和其他优化算法
- 损失函数和激活函数
TensofFlow和PyTorch基础
- TensorFlow基础操作
- PyTorch基础操作
- TensorFlow和PyTorch的模型定义和训练
- TensorFlow和PyTorch的模型保存和加载
数据处理技术
- 数据清洗技术
- 数据标注技术
- 数据增强技术
模型训练与优化
- 模型选择技术
- 超参数调整技术
- 模型验证技术
模型维护与部署
- 模型转换技术
- 模型上线技术
- 模型监控技术
业务理解
- 业务需求理解
- 业务数据理解
- 业务结果解读
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.