AI集群运维工程师技术要求
根据猿代码和boss直聘上的一些内容整理出来的东西,权当玩闹吧。
运维基础Linux系统运维
Linux的部署和维护操作;
Shell脚本的编写;
硬件服务器的管理和维护
集群用户管理
用户的管理和维护
LDAP的使用和维护
Python编程基础
基础语法
数据结构
函数和类
文件操作
异常处理
高性能计算高速网络运维管理
TCP/IP协议栈
扩展介绍
IB网络维护
RDMA网络维护
共享存储
NFS共享文件系统搭建
Lustre共享文件系统搭建
Lustre文件系统使用以及日常维护
软件部署
基于Make管理工具的安装
基于Cmake管理工具的安装
软件环境维护
module环境管理
conda环境管理
spack环境管理
docker容器使用
singularity容器使用
AI维护深度学习理论基础
神经网络基础
反向传播算法
梯度下降和其他优化算法
损失函数和激活函数
TensofFlow和PyTorch基础
TensorFlow基础操作
PyTorch基础操作
TensorFlow和PyTorch的模型定义和训练
TensorFlow和PyTorch的 ...
RockyLinux9 模板制作
基本思路沿用centos8的制作方法,制作CentOS8的黄金模板,以下内容有部分改动。懒得脚本化了,就这样吧。
系统部署软件安装这个没啥好说的,只是注意几点:
使用英文部署,可以在语言支持选项中添加简体中文的支持;
需要在部署一开始添加localhost的主机名,否则硬盘分区和主机名会有IP头的信息;
账号选项采用默认配置,添加非root管理员账号,使用uid和gid为1000,并添加到wheel组;
不开启root远程访问和锁定root账号,不允许root登陆,后续按需开启
系统设置# 修改系统源sed -e 's|^mirrorlist=|#mirrorlist=|g' -e 's|^#baseurl=http://dl.rockylinux.org/$contentdir|baseurl=https://mirrors.aliyun.com/rockylinux|g' -i.bak /etc/yum.repos.d/rocky*.repo# 系统更新dnf update -y# 安装常用软件dnf install -y wge ...
端午东戴河之旅
早就有想法到大凌河、宁远、卢龙、一片石、觉华岛、山海关这边曾经决定了中国命运好几回的地方走一走了。今年正好有机会,带着娃过来看一看这片古战场。新修的京秦高速真是穿山而建,地势不是很险峻,但很明显古代走这条路还是很困难,特别是京秦上就一个服务区,上厕所都成了难事:-P。京哈倒是一条大直线,基本是千百年来进出关的老路,然后,满路两个方向都是一眼看不到头的大货车。东戴河·佳兆业公寓这边放烟花没人管,毕竟离山海关和绥中都太远,天高皇帝远觉华岛,对面就是大连渡船
天下第一关不在老龙头,而在市里面的老城公园里面老龙头眺望山海关造船厂,隐约之中的就是那个差点把山海关厂干倒闭的新加披人不要了的四个钻井平台期间,我去兴城的时候是走的滨海公路,路况和沿路风光都不错,还路过了徐大堡核电站的生活区和海航大的机场。整个海边真是密集的港口、船厂和休闲旅游的地方,感觉比秦皇岛和唐山要明显更发达。遗憾的是没有看到海航大的飞机。
垛子公园
返京路上路过台湖的垛子公园,一个还没有盖好的大公园
Linux系统基础知识·5
本文基于马哥教育就业班第五周课程总结
总结openssh服务安全加固OpenSSH是Linux系统中常用的远程登录工具,为了保证系统的安全性,需要对OpenSSH服务进行加固。以下是OpenSSH服务安全加固措施的主要内容:禁用root用户登录:禁用root用户登录可以防止黑客使用root账户进行暴力破解。可以通过修改/etc/ssh/sshd_config文件中的PermitRootLogin配置项为no来实现。修改SSH端口号:修改SSH端口号可以防止黑客使用默认端口号进行暴力破解。可以通过修改/etc/ssh/sshd_config文件中的Port配置项来实现。使用SSH密钥登录:使用SSH密钥登录可以防止黑客使用密码进行暴力破解。可以通过生成SSH密钥对,并将公钥添加到~/.ssh/authorized_keys文件中来实现。禁用不安全的SSH协议版本:禁用不安全的SSH协议版本可以防止黑客利用SSH漏洞进行攻击。可以通过修改/etc/ssh/sshd_config文件中的Protocol配置项为2来禁用SSH协议版本1。使用防火墙限制SSH访问:使用防火墙可以限制SSH ...
Linux系统基础知识·4
本文基于马哥教育就业班第四周课程总结
总结脚本高级命令trap, install, mktemp, expect, 进程优先级命令:nice, renice, 进程管理工具: ps, pstree, prtstat, pgrep, pidof, uptime,mpstat,top,htop, free, pmap, vmstat, iostat, iotop, iftop, nload, nethogs, iptraf-ng, dstat, glances, cockpit, kill, job, 任务相关的命令: at, crontab, 命令,选项,示例。#脚本高级命令:trap命令:trap命令用于捕获和处理shell脚本中的信号。它可以用于在脚本执行期间处理中断、退出等信号。以下是一个trap命令的示例:trap 'echo "Interrupted"; exit' INTinstall命令:install命令用于将文件到指定目录,并设置文件的权限和所有者。以下是一个install命令的示例:install -m 644 -o ro ...
Linux动手实践·1
根据马哥教育架构班课程第一周作业而来
题目要求
在两台服务器上安装kvm虚拟化,把其中一台的虚拟机迁移到另一台;
手动制作一个容器镜像创建成容器并正常运行。
操作实践
KVM虚拟化
# 新建三个虚机,分别承担KVM两个节点和一个NFS主机的角色# Node1: 192.168.10.101 KVM主机# Node2: 192.168.10.102 KVM主机# Stor1: 192.168.10.11 NFS主机,提供iso和kvm两个共享挂载点# 在三台主机的/etc/hosts配置解析记录192.168.10.101 node1192.168.10.102 node2192.168.10.11 stor1# KVM主机的部署,Node1和Node2同步操作# 最小虚拟化宿主环境,仅包括libvirt和qemu-kvmyum group install -y virtualization-hypervisor # 用于访问和控制虚拟机以及容器的接口,包括libvirt客户端yum group install -y virtualization-platform # 离线 ...
理解LDAP服务
OpenLDAP是一个轻量级目录访问协议(Lightweight Directory Access Protocal,LDAP),是开源集中账号管理架构的实现。
概念OpenLDAP默认以Brekeley DB作为后端数据库,主要以散列的数据类型进行数据存储,例如以键值对的方式进行存储。BerkeleyDB数据库是面向查询和读取进行优化的数据库,它不支持事务型数据库所支持的高并发的吞吐量以及复杂的事务操作。
OpenLDAP目录中的信息是按照树形结构进行组织,具体信息存储在条目(entry)中,条目可以看成关系数据库中的表记录,条目是具有区别名(Distinguished Name, DN)的属性(attribute),DN是用来引用条目,DN相当于关系数据库中的主键,是唯一的,属性由类型(type)和一个或者多值(value)组成。
功能
查询操作
更新操作
同步操作
认证和管理操作
目录树
目录树
在一个目录服务系统中,整个目录信息集可以表示为一个目录信息树,树中的每个节点是一个条目(Entry)。
条目(Entry)
条目,也叫记录项,是 LDAP 中最基本的颗粒,就像字典中 ...
Linux系统基础知识·3
本文基于马哥教育就业班第三周课程总结
软件管理
尝试基于gcc命令说明 c语言编译过程。C语言编译过程主要包括预处理、编译、汇编和链接四个阶段。gcc命令是一个常用的C语言编译器,可以完成这四个阶段的工作。下面是gcc命令的使用示例和各个阶段的说明:1. 预处理阶段主要是对源代码进行宏替换、头文件包含等操作,生成预处理后的代码。gcc命令中使用参数“-E”来进行预处理,示例命令如下:$ gcc -E main.c -o main.i2. 编译阶段主要是将预处理后的代码转换成汇编代码。gcc命令中使用参数“-S”来进行编译,示例命令如下:$ gcc -S main.i -o main.s3. 汇编阶段主要是将汇编代码转换成机器码。gcc命令中使用参数“-c”来进行汇编,示例命令如下:$ gcc -c main.s -o main.o4. 链接阶段主要是将多个目标文件链接成一个可执行文件。gcc命令中使用参数“-o”来指定输出文件名,示例命令如下:$ gcc main.o -o main以上是gcc命令的使用示例和C语言编译过程的各个阶段说明。在实际编译过程中,可以使用gcc命令的多个 ...