「数据存储技术」
在计算机科学中,数据指输入到计算机内的多有可以被计算机处理的符号或者符号组合的总称。存储网络工业协会(Storage Networking Industrial Association, SNIA)关于数据的定义是“数据是对任意形式的任何事物的数字表示。数据是信息的具体表现形式。根据数据结构特征,数据主要可以分为:结构化数据、半结构化数据和非结构化数据。数据存在于全球经济的每个一部门,已经是与固定资产、人力资本一样是重要的生产要素。
2024.07 摄影山东济南 山东博物馆 拿破仑特展
存储系统
IT系统
软件资源
- 集群软件系统
- 分布式文件系统
- 操作系统
- 数据库
- 应用软件
计算资源
- 服务器
- 服务器集群
网络资源
- 网络设备
- 网络连接
- 网络管理
存储资源
- 内部存储
- 外部存储
存储系统
存储层次
- 高速缓存
- 主存储器
- 辅助存储器
I/O访问路径
I/O访问路径是指令和数据在存储系统中传递的通道。
- 物理过程
- 文件请求
- 网络文件协议
- 驱动程序
- 网络接口卡
- 网络连接设备
- 远程存储设备
- 逻辑过程
- 系统调用接口
- 文件系统
- 设备驱动程序
- 驱动硬件
- 磁盘访问接口
文件系统
文件系统是操作系统用于存储文件的方法和数据结构,即存储设备上组织文件的方法。
- 管理和调度文件的存储空间,提供文件的逻辑结构、物理结构和存储方法
- 实现文件从标识到实际地址的映射,实现文件的控制操作和存储操作,实现文件信息的共享并提供可靠的文件保密和保护
存储设备
- 机械硬盘
- 固态硬盘
存储虚拟化
- 数据块级虚拟化
- RAID
- SAN
- 文件级虚拟化
- 分布式文件系统
- 命名空间
- 访问接口
- Lustre文件系统
- HDFS文件系统
- 分布式文件系统
存储组网
存储阵列系统
基本组成
- 存储硬件
- 外置存储系统,例如磁盘阵列、磁带库、光盘库
- 控制器
- 电池备份单元BBU
- 硬盘框
- 存储连接设备,例如以太网交换机、专用线缆、FC交换机
- 外置存储系统,例如磁盘阵列、磁带库、光盘库
- 存储软件
- 存储管理软件,例如LVM、SMB
- 数据的镜像、快照及复制模块
- 性能监控
- 解决方案
- 容灾解决方案
- 备份解决方案
级联组网
级联组网规则
- 控制器A上级联几口连接硬盘框的级联模块A,控制器B上级联接口模块连接硬盘框的级联模块B
- EXP级联端口和PRI级联端口做硬盘框级联,使用miniSAS线缆连接,EXP级联端口只能与PRI端口连接
- 同一级级联环路上,高密硬盘框与普通硬盘框不能混接
- 级联两个以上硬盘框,要根据控制框上级联端口数量组建多个级联环路
- 硬盘框除了与控制器直连外,不连接其他硬盘框
阵列扩控组网
- Scale-up:传统的纵向扩展架构,增加硬盘的方式来扩容
- Scale-out:横向扩展,增加完整功能存储节点
高可用技术
高可靠
- 器件冗余
- 多控技术
- 主备模式
- 双主模式
- 多路径技术
- 数据保险箱
- RAID重构技术
- 硬盘预拷贝技术
高性能
- 分层存储
- Cache技术
- 块虚拟化
磁盘阵列
基本概念
磁盘阵列的全称是独立冗余磁盘阵列,由加州大学伯克利分校于1987年提出
- 将多个磁盘组合成一个逻辑盘组
- 将数据分割成数据块,由多个磁盘同时进行数据块的写入和读出
- 通过数据镜像或奇偶校验提供数据冗余保护
工作原理
RAID 0
JBOD的延申,只提供数据组织方式,不提供数据保护,磁盘利用率为100%
RAID 1
又称为镜像,是全冗余阵列模式,磁盘利用率为50%,最小磁盘数为2块
RAID 3和RAID4
RAID0的改进,RAID3是增加一块专用磁盘用于存放校验数据,即校验盘.最少需要3块盘组成阵列
RAID 5
RAID3的改进,不再使用专用校验盘,而是将校验数据分散到所有数据盘上.最少三块盘,允许单盘失效.
RAID 6
对RAID5的改进,使用双重校验,PQ校验和DP校验.允许双盘失效,最少需要4块盘.
RAID10和RAID01
取决于是先做条带再做镜像,还是先做镜像再做条带,最少需要4快盘
RAID50
至少两组RAID5做条带,具有良好的读写性能和重构性能,最少需要6块盘
数据保护
- 热备盘
- 预拷贝
- 失效重构
RAID状态
- 创建RAID组
- 正常工作
- RAID组降级
- RAID组失效
LUN虚拟化
将一个RAID划分成多个逻辑单元,并分别映射给多台主机使用.同时,一个主机也可以使用多个逻辑单元.逻辑单元号LUN,本身用于标记逻辑单元,后来使用LUN指代逻辑单元.多个硬盘可以构成一个LUN,也可以创建多个LUN.
- LVM
- PV
- VG
- LV
RAID 2.0+
将存储池中的磁盘划分成一个小粒度的数据块空间,基于块来构建RAID组,从而使数据均匀分不到存储池中所有的磁盘上,然后以块为单元来进行存储资源管理.
原理
- 存储系统支持不同类型硬盘构成硬盘域,相同类型磁盘按照规则划分为一个磁盘组,每个磁盘被划分为相同大小的逻辑块(CK)
- 按照传统RAID技术,将CK组成RAID组,即逻辑块组CKG
- 将CKG划分为更小粒度的固定大小逻辑存储空间Extent
- 将逻辑存储空间组成LUN映射给主机
概念
- 逻辑磁盘,LD
- 硬盘域,DD
- 存储池,SP
- 磁盘组,DG
- 逻辑块,Chuck
- 逻辑块组,CKG
- 逻辑存储空间,Extent
- 更细粒度Extent,Grain
- 卷,Volume&LUN
应用
- 负载均衡
- 快速重构
- 故障自检自愈
- 虚拟池化设计
- LUN灵活组织
- 空间动态分布
- SmartTier
- SmartMotion
- SmartVirtualization
DAS
简介
直连存储(DAS),是一种存储设备与使用存储空间的服务器通过总线适配器和SCSI/FC线缆直接相连的技术.
- 内部DAS
- 外部DAS
特点
优势
- 可靠性高
- 部署简单
- 系统复杂性低
- 成本少见效快
劣势
- 扩展性差
- 资源浪费
- 管理分散
- 异构化严重
- 数据备份占用资源高
- 维护困难,需要系统停机
SCSI协议
SCSI于1981年提出,全称是小型计算机系统接口协议,是主机与存储磁盘通信的基本协议,也是存储数据传输的通用接口标准.
通信过程
- 总线忙
- 寻址
- 协商
- 连接
- 断开连接
传输原理
传输方式
- 异步传输
- 同步传输
SCSI ID
- BUS ID 总线号,区分不同的SCSI线缆
- SCSI ID 设备ID,区分SCSI总线上不同的设备
- LUN ID 逻辑单元号,区分SCSI设备中的子设备
NAS
网络附加存储(NAS)是基于IP网络\通过文件级的数据访问和共享提供存储资源的网络存储架构.NAS本质上是存储设备而不是服务器,它专用于文件数据存储,提供文件集中存储与管理的功能,对文件服务\存储\检索\访问等功能进行了优化.
组成与部件
硬件组成
- NAS引擎
- 网络接口
- 工业标准存储协议
软件组成
- NAS操作系统
- 文件共享协议
- 网络互连协议
- CIFS协议
- NFS协议
SAN
存储区域网络是一种面向网络的,以数据存储为中心的存储架构.SAN采用可扩展的网络拓扑结构连接服务器和存储设备,并将数据的存储和管理集中在相对独立的专用网络中,向服务器提供数据存储服务.
概念
存储网络协会SNIA对SAN的标准定义是用来在计算机系统和存储单元之间,存储单元与存储单元之间进行数据传输的网络.SAN包括一个完整的通信系统基础结构,包括物理连接\管理层\存储单元和计算机系统.
- 具有可伸缩性
- 可扩展至全世界
- 非常可靠
- 提供尽可能高的传输速度
- 易于管理
存储组网
- 专用网络
- 总线适配器HBA
组件
- 网络服务器
- 网络存储
- 网络互联
- 网络接口
- FC接口
- ETH接口
- FCoE接口
FC-SAN
使用FC协议的SAN网络.
- FC协议
- FC端口
- FC分区
IP-SAN
基于IP协议的SAN网络
- iSCSI协议
- 连接方式
- NIC+Initiator
- TOE+initator
- iSCSI HBA
FCoE
备份
概念
备份通常指在数据中心内,将文件系统或者数据库系统中全部或者部分数据集合从应用主机的磁盘或者存储阵列复制到其他存储介质的过程,其目的在于防止数据永久性丢失.一个完整的备份系统通常由以下部分组成:
- 备份服务器:为备份软件提供运行的环境
- 备份介质:保存数据的载体
- 光盘塔
- 磁带库
- 虚拟带库
- 磁盘阵列
- 备份软件:负责备份策略管理和备份作业监控
- Simpana
- NetBackup
- 备份客户端:需要备份的业务主机
- 备份网络:备份数据通道
- LAN-Free
- LAN-Base
备份技术
- 重复数据删除
- 连续数据保护技术
- 网络数据管理协议技术
备份策略
- 备份对象
- 备份目的地
- 备份类型与备份周期
- 数据保留时间
- 备份窗口
容灾
容灾通常是指在本地或者异地,建立一套或多套具备生产主系统功能的IT系统,并实时或周期性同步生产数据.容灾系统和生产系统二者之间通过健康状态监测,在灾难发生时实现功能切换.
数据复制技术时容灾技术的核心,涉及到的主要技术包括:
- 基于日志的复制
- 基于文件的复制
- 基于卷的复制和镜像
- 基于数据块的复制和镜像
分类
- 数据级容灾
- 应用级容灾
- 业务级容灾
衡量指标
- RTO:灾难发生后,信息系统从功能停止到必须恢复运作所需要时间,反映的是业务恢复的及时性
- RPO:灾难发生后,信息系统和业务数据必须恢复到的时间点,反映的是恢复数据的完整性
典型方案
- 两地三中心