一些存储的文章。。。

NCpiro

“存储极客”栏目再次与大家见面啦！在这里，只有一位大咖名叫“存储”，它的粉丝我们称为“存储极客”！

　　存储极客

　　这是一群存储偏执狂

　　为存储而生，跟存储死磕

　　各具独家秘笈

　　有观点，有碰撞，有干货

　　从8月18起

　　做客存储极客栏目

　　与你分享存储里的那点事儿

　　大家都知道，在传统的PC架构中基本的I/O单元——磁盘扇区大小是512byte（字节）。时至今日，4KB扇区硬盘已经在消费级市场广泛应用，那么企业存储的情况如何呢？物理4KB扇区还需要模拟成512byte吗？

　　围绕4KB扇区硬盘，由于大家在这方面了解的基础不同。可能会有如下的疑问：

　　1、为什么会有4KB扇区硬盘？好处在哪里？

　　2、原生4KB扇区和模拟512byte，兼容性有什么差别？

　　3、4KB扇区对性能的影响

　　4、软硬件生态系统，需要做哪些配合？

　　5、SSD目前主要还是仿真磁盘块设备来使用，它是512byte还是4KB设备呢？

　　6、在RAID阵列和虚拟机环境，硬件与Guest OS之间多了一个抽象层，这是否也会影响到4KB兼容？

　　以上6点相互关联，因此在本文中都会有所涉及。首先引起我们注意的是，近日有一份来自戴尔的资料，其中提到了2.5” 2TB 7.2K NLSAS（近线SAS）HDD的引入，这款硬盘采用的是512byte仿真扇区大小。

　　上表列出了3种硬盘扇区格式类型。512n——物理格式化和向主机呈现的逻辑扇区字节数均为512byte，早期的硬盘都是这样；512e——物理扇区大小为4096字节，逻辑上仿真为（8个）512字节扇区，为了兼容性的一种过渡；4Kn——即原生4KB，物理和逻辑扇区字节数都是4KB。

　　4KB扇区硬盘与生态系统概述

　　由于IT栈中的组件默认针对512b扇区大小已经30年了，下面我们来看看针对4KB扇区硬盘，整个生态系统需要分析/升级的地方。

　　服务器BIOS/UEFI – 支持4K可能需要UEFI – 传统BIOS需要修改来增加针对4KB原生驱动器的支持。

　　存储控制器（HBA）– 驱动和firmware需要改变。

　　 RAID stack（位于RAID卡和阵列控制器）–驱动和firmware需要改变。

　　OS stack – 操作系统必须是4K感知才能使用4K原生驱动器；512e驱动器对于许多组件都支持，但是扇区对齐决定了获得最好性能。

　　文件系统 – 基于不同OS版本，这里可能有一些问题。微软对NTFS 做了一些改动，针对在Windows 7/2008 R2中支持512e。

　　应用 – 需要理解那些进行unbuffered（未缓冲）写入的应用。

　　Hypervisors – 512e可以被用于当前的微软/VMware hypervisors（性能可能变差），但 VHD 1.0是硬性编码到512 byte并且没有当前的hypervisor支持4K原生 – 必须支持VHD 2.0规范来获得4K原生支持。

　　开发工具 – 分区对齐对于在512e 驱动器上达到最好性能是个关键。4K原生– 还没有数据来理解开发方面的问题。

　　什么是4KB高级格式化、路线图

　　如上图，原生512n每个扇区都有50bytes的ECC纠错码；4KB扇区将这个ECC区域合并、扩大（但没有50bytes的8倍那么大），并省去了间隔、地址标记等空间，因此格式化效率提升到大约97%，并且能否检测和纠正更大的介质错误。

　　也就是说，在磁记录密度不变的情况下，“高级格式化”能够提供更大的实际可用容量。随着硬盘上的记录单元——磁极尺寸不断缩小，容量增速放缓，4KB扇区是未来大容量硬盘的趋势。

　　参考上图，512byte原生扇区硬盘的生命周期将在2017年终止（部分企业级产品和老型号可能例外）。按照这个之前的预计，以3.5” 7200转为例最大是4TB，超出该容量物理扇区只有4KB了？实际上我们看到有硬盘厂商推出6TB 512byte物理扇区的型号，包括密封充氦7碟片和非充氦普通6碟片，但继续增大容量还是需要4KB扇区。

　　4KB扇区仿真512byte已经广泛应用于客户端，毕竟即使出现写放大或者未对齐写入产生更多I/O，PC用户对磁盘性能也没有那么敏感，但企业级应用则要保守多了。除了4KB扇区仿真512byte，原生4KB扇区硬盘直到2014年晚期才发布针对企业级市场的版本，它无法工作在Windows Server 8（2012）之前的操作系统，并且与上文中我们介绍的生态系统密切相关。

　　物理、VMware虚拟机环境的“对齐/非对齐”写入

　　这一段的几张截图来自IBM的一份文档，其中“Misaligned”和“Aligned”分别表示在使用512e硬盘时非对齐和对齐的4KB I/O块操作。由于4KB块（比如对应文件系统的页面）操作需要先以8个512bytes逻辑扇区写入到硬盘，再合并记录到4KB物理扇区，在非对齐的情况下，一个4KB逻辑写I/O对应到2个物理磁盘扇区，如果是新写入就会产生2次I/O；若是改写之前物理扇区中的数据，则需要读-更改-写的操作，这种非原子写入（non-atomic）最多可能产生4次I/O。

　　而对齐的情况则简单多了，尽管中间要经过硬盘模拟512bytes扇区的过程，但每个4KB的I/O操作都是对应到一个物理扇区。属于比较理想的情况。

　　我们参考下这个表格里不同操作系统对高级格式化的感知情况。其中，Windows从Server 2008开始能够感知512e硬盘并自动对齐分区；Server 2012进一步加入了对原生4Kn设备的支持。RHEL 6可以感知512e和4Kn硬盘并能自动对齐；SLES 11能感知512e和4Kn硬盘却无法自动对齐？VMware ESXi 4.x和5.x都无法感知512e和4Kn硬盘，但支持自动分区对齐。这里有必要进一步解释下。

　　首先对于Windows Server 2003、RHEL 5和SLES 10来说，512e硬盘首先是可以用的，只是操作系统“意识不到”而当成512n来用了。微软如今已经停止了对Server 2003的支持（戴尔等厂商为用户提供迁移方案和服务），如果我们在这些较早的操作系统上使用第三方分区工具，或者手动指定开始扇区建立对齐的分区，应该可以规避一部分性能影响。

　　对于4Kn来说，这三款操作系统应该就没有办法兼容了，同样的还有VMware ESXi 4.x和5.x。尽管，VMware Hypervisor支持自动分区对齐（VMFS-3和VMFS-5分别以第128和2048为起始扇区），但目前的ESXi 6.0和VSAN版本还是无法感知512e和4Kn，其中512e硬盘由于潜在性能问题而不被VMware官方支持。

上图截自VMware网站，供大家参考

　　这张图演示了在虚拟化环境下对齐和非对齐分区的情况。当“Aligned”对齐时，在Hypervisor层VMFS-5的文件块大小统一为1MB，子块（Sub-Blocks）大小8KB正好对应2个物理扇区上的16个逻辑扇区。此时如果虚拟机的OS block正好与VMFS子块对齐的话，等于就是与物理磁盘扇区对齐了，这样还算好一些的情况。

　　而对于“Misaligned”未对齐配置，如果要写入到虚拟机中的OS block 1，有2个VMFS子块被写入，并且每个子块需要2次读-修改-写周期（指改写而不是写入空白块，因为每半个VMFS block在“错位”情况下也会对应到2个物理扇区）。这样就有可能在底层产生8次I/O？

　　我们在VMware网站查询了更多关于4KB扇区兼容的情况，这方面应该还在遥远一些的Roadmap中。毕竟对于Hypervisor而言广泛的向后兼容性相当重要，512e我觉得将来会支持，而如果上层虚拟机就是要在4Kn硬盘上进行512byte的磁盘I/O，软件厂商没义务去做这个转换啊。

　　既然VMware如此，估计KVM和Xen的情况也不会好多少，对此我了解有限就不班门弄斧了。而Hyper-V可能是个特例吧，因为微软虚拟化平台上跑Windows虚拟机比较多，那么用VHD 2.0规范的4K原生磁盘格式运行Server 2012虚拟机应该不会出问题。

　　“对齐”并不代表性能就完全达到512n的水平，如果是小于4KB的随机写入512e硬盘还是会产生写放大或者惩罚。上面的软件兼容情况也适用于RAID卡和磁盘阵列的LUN，因为操作系统和虚拟机HyperVisor对它们是与本地磁盘同样的方式来看待。下面我们再来谈一下磁盘控制器对4KB扇区的兼容支持情况。

　　PERC卡和MD控制器的4KB扇区支持

　　如上图，左边是比较早的戴尔服务器SAS RAID卡、HBA、主板集成软RAID和MD家族阵列控制器。它们能够支持512e仿真扇区的硬盘，对于较早的操作系统可能需要补丁、对齐工具（比如让NTFS文件系统的簇与物理扇区对齐）和驱动更新。

　　对于这些传统磁盘控制器，对上层主机呈现的LUN（逻辑盘）都是512byte扇区。

　　到了新一代的PERC 9、MD38xx阵列控制器，以及未来的服务器软件RAID，已经能够支持原生4K扇区硬盘，并提供给主机4K格式的LUN。有同行朋友说这样做在一些场景下有性能的改善，也听到有专家说微乎其微。而我们想提醒大家的是：在选择这种“前卫”的配置之前，部分存储产品已经做好了准备，但上层软件兼容性需要用户自己注意，参考包括本文在内的资料，征询工程师/技术顾问的建议，必要情况下进行测试。

　　如上图，这台戴尔服务器配置了PERC 9系列RAID卡中的H730P Mini，它识别到当前选定SAS硬盘的物理和逻辑扇区大小都是512Byte。

　　组建RAID之后的虚拟逻辑盘（LUN），自然也是512Byte扇区格式。当您阅读本文到这里，在此机器上如果换成512e或者4Kn的硬盘，会产生什么样的结果、有哪些注意事项就比较清楚了吧？

　　SSD的“扇区”是多大？

　　这里也要提一句SSD，据我们了解目前大多数的SAS/SATA SSD，在RAID卡和磁盘控制器管理程序中显示的物理和逻辑扇区大小都是512Byte，同样是兼容性考虑。其实闪存的最小写入单元——页面大小目前一般为4KB或者8KB，那么“扇区”也都是模拟出来的。测试反映这种模拟对性能的影响不大，因为FTL的存在，数据在SSD上的逻辑地址与物理闪存位置的对应关系都是可变的，来自主机小于4KB的写入也可能会合并到一个闪存页面上。

　　PCIe SSD（闪存卡）的情况不太一样，有些厂商在出货时“格式化”为4KB扇区，如果遇到软件应用不兼容的情况（比如Oracle数据库等），可以使用专门的工具转换格式为512byte扇区大小。

　　当存储虚拟化网关遇上“4KB LUN”

　　从前端到后端都呈现4KB也许会在未来某个时候流行。而对于存储控制器而言，使用原生4KB扇区硬盘，却向上给主机呈现512byte的LUN单从技术实现上看却也可行，只要您不在乎性能打折扣——小于4KB的IO都会被放大至一个硬盘扇区，一次下发8个512byte写请求也可能会落到2个4KB扇区上（如果文件系统/应用层未对齐的话）。

　　这就是在控制器层面的“欺骗”，之前讲的512e是在硬盘层面上“欺骗”。

　　欺骗一词，用在这里并不是贬义。RAID技术本身就是将一组硬盘“虚拟化”为一块盘呈现给主机。由此我们还联想到被戏称为“上骗主机，下骗阵列”的存储虚拟化设备，它们与RAID控制器最大的不同就是其后端管理的存储单元由磁盘/SSD变成了阵列的LUN。

　　存储虚拟化对于后端阵列表现为“主机”，而在前端主机看来它又是一台“阵列”，基本原理可以简单解释为用Initiator导入LUN，再将其用Target导出给主机，中间可选加入数据服务。目前我们还没留意到有存储虚拟化产品宣称兼容4KB扇区格式的LUN？这一点在技术上实现估计并不是太难，关键取决于兼容性测试的工作量，以及实际的需求。

　　举例来说，一些存储虚拟化产品根据设置会在后端设备的LUN上再做一次条带化，以前都是按照512byte扇区来考虑，数据切块大小可以直接按一定数量扇区来计算就行。而如果扇区大小变成4KB，要是继续保持原有扇区数的话就意味着“条带”增大了8倍。对于导出给前端主机的LUN容量，也会存在类似的问题。

　　总结

　　硬盘厂商对4KB扇区支持的动力毋庸置疑，但在逻辑上是否继续模拟512byte则取决于生态系统的进展。

　　对于企业存储而言，由于一些传统应用（如：Oracle数据库）的I/O操作最小单位仍小于4KB，使用原生512byte扇区硬盘可以保证最好的性能；模拟512byte能够兼容，但容易产生性能影响；至于原生4KB硬盘，则要求文件系统、卷管理器具备相应的支持，否则会报错。

　　目前一些比较新的服务器、磁盘阵列上的存储控制器，已经能够兼容原生4KB硬盘

NCpiro

存储在线：http://www.dostor.com/

marione

一句话总结一下吧

NCpiro

史上最全的Ceph介绍、原理、架构
2018年07月15日 09:00:00 架构文摘阅读数：18777
1. Ceph架构简介及使用场景介绍

1.1 Ceph简介

Ceph是一个统一的分布式存储系统，设计初衷是提供较好的性能、可靠性和可扩展性。

Ceph项目最早起源于Sage就读博士期间的工作（最早的成果于2004年发表），并随后贡献给开源社区。在经过了数年的发展之后，目前已得到众多云计算厂商的支持并被广泛应用。RedHat及OpenStack都可与Ceph整合以支持虚拟机镜像的后端存储。

1.2 Ceph特点

高性能
a. 摒弃了传统的集中式存储元数据寻址的方案，采用CRUSH算法，数据分布均衡，并行度高。
b.考虑了容灾域的隔离，能够实现各类负载的副本放置规则，例如跨机房、机架感知等。
c. 能够支持上千个存储节点的规模，支持TB到PB级的数据。

高可用性
a. 副本数可以灵活控制。
b. 支持故障域分隔，数据强一致性。
c. 多种故障场景自动进行修复自愈。
d. 没有单点故障，自动管理。

高可扩展性
a. 去中心化。
b. 扩展灵活。
c. 随着节点增加而线性增长。

特性丰富
a. 支持三种存储接口：块存储、文件存储、对象存储。
b. 支持自定义接口，支持多种语言驱动。

1.3 Ceph架构

支持三种接口：

Object：有原生的API，而且也兼容Swift和S3的API。

Block：支持精简配置、快照、克隆。

File：Posix接口，支持快照。

640?wx_fmt=png

rados

1.4 Ceph核心组件及概念介绍

Monitor
一个Ceph集群需要多个Monitor组成的小集群，它们通过Paxos同步数据，用来保存OSD的元数据。

OSD
OSD全称Object Storage Device，也就是负责响应客户端请求返回具体数据的进程。一个Ceph集群一般都有很多个OSD。

MDS
MDS全称Ceph Metadata Server，是CephFS服务依赖的元数据服务。

Object
Ceph最底层的存储单元是Object对象，每个Object包含元数据和原始数据。

PG
PG全称Placement Grouops，是一个逻辑的概念，一个PG包含多个OSD。引入PG这一层其实是为了更好的分配数据和定位数据。

RADOS
RADOS全称Reliable Autonomic Distributed Object Store，是Ceph集群的精华，用户实现数据分配、Failover等集群操作。

Libradio
Librados是Rados提供库，因为RADOS是协议很难直接访问，因此上层的RBD、RGW和CephFS都是通过librados访问的，目前提供PHP、Ruby、Java、Python、C和C++支持。

CRUSH
CRUSH是Ceph使用的数据分布算法，类似一致性哈希，让数据分配到预期的地方。

RBD
RBD全称RADOS block device，是Ceph对外提供的块设备服务。

RGW
RGW全称RADOS gateway，是Ceph对外提供的对象存储服务，接口与S3和Swift兼容。

CephFS
CephFS全称Ceph File System，是Ceph对外提供的文件系统服务。

1.5 三种存储类型-块存储
640?wx_fmt=png

rbd

典型设备：磁盘阵列，硬盘

主要是将裸磁盘空间映射给主机使用的。

优点：

通过Raid与LVM等手段，对数据提供了保护。

多块廉价的硬盘组合起来，提高容量。

多块磁盘组合出来的逻辑盘，提升读写效率。

缺点：

采用SAN架构组网时，光纤交换机，造价成本高。

主机之间无法共享数据。

使用场景：

docker容器、虚拟机磁盘存储分配。

日志存储。

文件存储。

…

1.6 三种存储类型-文件存储

640?wx_fmt=png

fs

典型设备： FTP、NFS服务器

为了克服块存储文件无法共享的问题，所以有了文件存储。

在服务器上架设FTP与NFS服务，就是文件存储。

优点：

造价低，随便一台机器就可以了。

方便文件共享。

缺点：

读写速率低。

传输速率慢。

使用场景：

日志存储。

有目录结构的文件存储。

…

1.7 三种存储类型-对象存储

640?wx_fmt=png

rgw

典型设备：内置大容量硬盘的分布式服务器(swift, s3)

多台服务器内置大容量硬盘，安装上对象存储管理软件，对外提供读写访问功能。

优点：

具备块存储的读写高速。

具备文件存储的共享等特性。

使用场景： (适合更新变动较少的数据)

图片存储。

视频存储。

…

2. Ceph IO流程及数据分布

640?wx_fmt=png

rados_io_1

2.1 正常IO流程图

640?wx_fmt=png

ceph_io_2

步骤：

1. client 创建cluster handler。

2. client 读取配置文件。

3. client 连接上monitor，获取集群map信息。

4. client 读写io 根据crshmap 算法请求对应的主osd数据节点。

5. 主osd数据节点同时写入另外两个副本节点数据。

6. 等待主节点以及另外两个副本节点写完数据状态。

7. 主节点及副本节点写入状态都成功后，返回给client，io写入完成。

2.2 新主IO流程图

说明：

如果新加入的OSD1取代了原有的 OSD4成为 Primary OSD, 由于 OSD1 上未创建 PG , 不存在数据，那么 PG 上的 I/O 无法进行，怎样工作的呢？

640?wx_fmt=png

ceph_io_3

步骤：

1. client连接monitor获取集群map信息。

2. 同时新主osd1由于没有pg数据会主动上报monitor告知让osd2临时接替为主。

3. 临时主osd2会把数据全量同步给新主osd1。

4. client IO读写直接连接临时主osd2进行读写。

5. osd2收到读写io，同时写入另外两副本节点。

6. 等待osd2以及另外两副本写入成功。

7. osd2三份数据都写入成功返回给client, 此时client io读写完毕。

8. 如果osd1数据同步完毕，临时主osd2会交出主角色。

9. osd1成为主节点，osd2变成副本。

2.3 Ceph IO算法流程
640?wx_fmt=png

ceph_io_4

1. File用户需要读写的文件。File->Object映射：

a. ino (File的元数据，File的唯一id)。
b. ono(File切分产生的某个object的序号，默认以4M切分一个块大小)。
c. oid(object id: ino + ono)。

2. Object是RADOS需要的对象。Ceph指定一个静态hash函数计算oid的值，将oid映射成一个近似均匀分布的伪随机值，然后和mask按位相与，得到pgid。Object->PG映射：

a. hash(oid) & mask-> pgid 。
b. mask = PG总数m(m为2的整数幂)-1 。

3. PG(Placement Group),用途是对object的存储进行组织和位置映射, (类似于redis cluster里面的slot的概念) 一个PG里面会有很多object。采用CRUSH算法，将pgid代入其中，然后得到一组OSD。PG->OSD映射：

a. CRUSH(pgid)->(osd1,osd2,osd3) 。

2.4 Ceph IO伪代码流程

locator = object_name
obj_hash =  hash(locator)
pg = obj_hash % num_pg
osds_for_pg = crush(pg) # returns a list of osdsprimary = osds_for_pg[0]
replicas = osds_for_pg[1:]

2.5 Ceph RBD IO流程

640?wx_fmt=png

ceph_rbd_io

步骤：

1. 客户端创建一个pool，需要为这个pool指定pg的数量。

2. 创建pool/image rbd设备进行挂载。

3. 用户写入的数据进行切块，每个块的大小默认为4M，并且每个块都有一个名字，名字就是object+序号。

4. 将每个object通过pg进行副本位置的分配。

5. pg根据cursh算法会寻找3个osd，把这个object分别保存在这三个osd上。

6. osd上实际是把底层的disk进行了格式化操作，一般部署工具会将它格式化为xfs文件系统。

7. object的存储就变成了存储一个文rbd0.object1.file。

2.6 Ceph RBD IO框架图

640?wx_fmt=png

ceph_rbd_io1

客户端写数据osd过程：

1. 采用的是librbd的形式，使用librbd创建一个块设备，向这个块设备中写入数据。

2. 在客户端本地同过调用librados接口，然后经过pool，rbd，object、pg进行层层映射,在PG这一层中，可以知道数据保存在哪3个OSD上，这3个OSD分为主从的关系。

3. 客户端与primay OSD建立SOCKET 通信，将要写入的数据传给primary OSD，由primary OSD再将数据发送给其他replica OSD数据节点。

2.7 Ceph Pool和PG分布情况

640?wx_fmt=png

ceph_pool_pg

说明：

pool是ceph存储数据时的逻辑分区，它起到namespace的作用。

每个pool包含一定数量(可配置)的PG。

PG里的对象被映射到不同的Object上。

pool是分布到整个集群的。

pool可以做故障隔离域，根据不同的用户场景不一进行隔离。

2.8 Ceph 数据扩容PG分布

场景数据迁移流程：

现状3个OSD, 4个PG

扩容到4个OSD, 4个PG

现状：

640?wx_fmt=png

ceph_recory_1

扩容后：

640?wx_fmt=png

ceph_io_recry2

说明

每个OSD上分布很多PG, 并且每个PG会自动散落在不同的OSD上。如果扩容那么相应的PG会进行迁移到新的OSD上，保证PG数量的均衡。

3. Ceph心跳机制

3.1 心跳介绍

心跳是用于节点间检测对方是否故障的，以便及时发现故障节点进入相应的故障处理流程。

问题：

故障检测时间和心跳报文带来的负载之间做权衡。

心跳频率太高则过多的心跳报文会影响系统性能。

心跳频率过低则会延长发现故障节点的时间，从而影响系统的可用性。

故障检测策略应该能够做到：

及时：节点发生异常如宕机或网络中断时，集群可以在可接受的时间范围内感知。

适当的压力：包括对节点的压力，和对网络的压力。

容忍网络抖动：网络偶尔延迟。

扩散机制：节点存活状态改变导致的元信息变化需要通过某种机制扩散到整个集群。

3.2 Ceph 心跳检测

640?wx_fmt=png

ceph_heartbeat_1

OSD节点会监听public、cluster、front和back四个端口

public端口：监听来自Monitor和Client的连接。

cluster端口：监听来自OSD Peer的连接。

front端口：供客户端连接集群使用的网卡, 这里临时给集群内部之间进行心跳。

back端口：供客集群内部使用的网卡。集群内部之间进行心跳。

hbclient：发送ping心跳的messenger。

3.3 Ceph OSD之间相互心跳检测

640?wx_fmt=png

ceph_heartbeat_osd

步骤：

同一个PG内OSD互相心跳，他们互相发送PING/PONG信息。

每隔6s检测一次(实际会在这个基础上加一个随机时间来避免峰值)。

20s没有检测到心跳回复，加入failure队列。

3.4 Ceph OSD与Mon心跳检测

640?wx_fmt=png

ceph_heartbeat_mon

OSD报告给Monitor：

OSD有事件发生时（比如故障、PG变更）。

自身启动5秒内。

OSD周期性的上报给Monito

OSD检查failure_queue中的伙伴OSD失败信息。

向Monitor发送失效报告，并将失败信息加入failure_pending队列，然后将其从failure_queue移除。

收到来自failure_queue或者failure_pending中的OSD的心跳时，将其从两个队列中移除，并告知Monitor取消之前的失效报告。

当发生与Monitor网络重连时，会将failure_pending中的错误报告加回到failure_queue中，并再次发送给Monitor。

Monitor统计下线OSD

Monitor收集来自OSD的伙伴失效报告。

当错误报告指向的OSD失效超过一定阈值，且有足够多的OSD报告其失效时，将该OSD下线。

3.5 Ceph心跳检测总结

Ceph通过伙伴OSD汇报失效节点和Monitor统计来自OSD的心跳两种方式判定OSD节点失效。

及时：伙伴OSD可以在秒级发现节点失效并汇报Monitor，并在几分钟内由Monitor将失效OSD下线。

适当的压力：由于有伙伴OSD汇报机制，Monitor与OSD之间的心跳统计更像是一种保险措施，因此OSD向Monitor发送心跳的间隔可以长达600秒，Monitor的检测阈值也可以长达900秒。Ceph实际上是将故障检测过程中中心节点的压力分散到所有的OSD上，以此提高中心节点Monitor的可靠性，进而提高整个集群的可扩展性。

容忍网络抖动：Monitor收到OSD对其伙伴OSD的汇报后，并没有马上将目标OSD下线，而是周期性的等待几个条件：

目标OSD的失效时间大于通过固定量osd_heartbeat_grace和历史网络条件动态确定的阈值。

来自不同主机的汇报达到mon_osd_min_down_reporters。

满足前两个条件前失效汇报没有被源OSD取消。

扩散：作为中心节点的Monitor并没有在更新OSDMap后尝试广播通知所有的OSD和Client，而是惰性的等待OSD和Client来获取。以此来减少Monitor压力并简化交互逻辑。

4. Ceph通信框架

4.1 Ceph通信框架种类介绍

网络通信框架三种不同的实现方式：

Simple线程模式
特点：每一个网络链接，都会创建两个线程，一个用于接收，一个用于发送。
缺点：大量的链接会产生大量的线程，会消耗CPU资源，影响性能。

Async事件的I/O多路复用模式
特点：这种是目前网络通信中广泛采用的方式。k版默认已经使用Asnyc了。

XIO方式使用了开源的网络通信库accelio来实现
特点：这种方式需要依赖第三方的库accelio稳定性，目前处于试验阶段。

4.2 Ceph通信框架设计模式

设计模式(Subscribe/Publish)：

订阅发布模式又名观察者模式，它意图是“定义对象间的一种一对多的依赖关系，
当一个对象的状态发生改变时，所有依赖于它的对象都得到通知并被自动更新”。

4.3 Ceph通信框架流程图

640?wx_fmt=png

ceph_message

步骤：

Accepter监听peer的请求, 调用 SimpleMessenger::add_accept_pipe() 创建新的 Pipe 到 SimpleMessenger::pipes 来处理该请求。

Pipe用于消息的读取和发送。该类主要有两个组件，Pipe::Reader，Pipe::Writer用来处理消息读取和发送。

Messenger作为消息的发布者, 各个 Dispatcher 子类作为消息的订阅者, Messenger 收到消息之后，  通过 Pipe 读取消息，然后转给 Dispatcher 处理。

Dispatcher是订阅者的基类，具体的订阅后端继承该类,初始化的时候通过 Messenger::add_dispatcher_tail/head 注册到 Messenger::dispatchers. 收到消息后，通知该类处理。

DispatchQueue该类用来缓存收到的消息, 然后唤醒 DispatchQueue::dispatch_thread 线程找到后端的 Dispatch 处理消息。

640?wx_fmt=png

ceph_message_2

4.4 Ceph通信框架类图

640?wx_fmt=png

ceph_message_3

4.5 Ceph通信数据格式

通信协议格式需要双方约定数据格式。

消息的内容主要分为三部分：

header             //消息头，类型消息的信封

user data       //需要发送的实际数据

payload    //操作保存元数据

middle    //预留字段

data       //读写数据

footer          //消息的结束标记

class Message : public RefCountedObject {
protected:
  ceph_msg_header  header;    // 消息头
  ceph_msg_footer  footer;    // 消息尾
  bufferlist    payload;  // "front" unaligned blob
  bufferlist    middle; // "middle" unaligned blob
  bufferlist    data;    // data payload (page-alignment will be preserved where possible)

  /* recv_stamp is set when the Messenger starts reading the
* Message off the wire */
  utime_t recv_stamp;    //开始接收数据的时间戳
  /* dispatch_stamp is set when the Messenger starts calling dispatch() on
* its endpoints */
  utime_t dispatch_stamp; //dispatch 的时间戳
  /* throttle_stamp is the point at which we got throttle */
  utime_t throttle_stamp; //获取throttle 的slot的时间戳
  /* time at which message was fully read */
  utime_t recv_complete_stamp;  //接收完成的时间戳

  ConnectionRef connection;    //网络连接

  uint32_t magic = 0;          //消息的魔术字

  bi::list_member_hook<> dispatch_q; //boost::intrusive 成员字段
};

struct ceph_msg_header {
__le64 seq;    // 当前session内消息的唯一序号
__le64 tid;    // 消息的全局唯一的 id
__le16 type;    // 消息类型
__le16 priority;  // 优先级
__le16 version; // 版本号

__le32 front_len; // payload 的长度
__le32 middle_len;// middle 的长度
__le32 data_len;  // data 的长度
__le16 data_off;  // 对象的数据偏移量

struct ceph_entity_name src; //消息源

/* oldest code we think can decode this.  unknown if zero. */
__le16 compat_version;
__le16 reserved;
__le32 crc;    /* header crc32c */
} __attribute__ ((packed));

struct ceph_msg_footer {
__le32 front_crc, middle_crc, data_crc; //crc校验码
__le64  sig; //消息的64位signature
__u8 flags; //结束标志
} __attribute__ ((packed));

5. Ceph CRUSH算法

5.1 数据分布算法挑战

数据分布和负载均衡：
a. 数据分布均衡，使数据能均匀的分布到各个节点上。
b. 负载均衡，使数据访问读写操作的负载在各个节点和磁盘的负载均衡。

灵活应对集群伸缩
a. 系统可以方便的增加或者删除节点设备，并且对节点失效进行处理。
b. 增加或者删除节点设备后，能自动实现数据的均衡，并且尽可能少的迁移数据。

支持大规模集群
a. 要求数据分布算法维护的元数据相对较小，并且计算量不能太大。随着集群规模的增加，数据分布算法开销相对比较小。

5.2 Ceph CRUSH算法说明

CRUSH算法的全称为：Controlled Scalable Decentralized Placement of Replicated Data，可控的、可扩展的、分布式的副本数据放置算法。

pg到OSD的映射的过程算法叫做CRUSH 算法。(一个Object需要保存三个副本，也就是需要保存在三个osd上)。

CRUSH算法是一个伪随机的过程，他可以从所有的OSD中，随机性选择一个OSD集合，但是同一个PG每次随机选择的结果是不变的，也就是映射的OSD集合是固定的。

5.3 Ceph CRUSH算法原理

CRUSH算法因子：

层次化的Cluster Map
反映了存储系统层级的物理拓扑结构。定义了OSD集群具有层级关系的静态拓扑结构。OSD层级使得 CRUSH算法在选择OSD时实现了机架感知能力，也就是通过规则定义，使得副本可以分布在不同的机架、不同的机房中、提供数据的安全性。

Placement Rules
决定了一个PG的对象副本如何选择的规则，通过这些可以自己设定规则，用户可以自定义设置副本在集群中的分布。

5.3.1 层级化的Cluster Map

640?wx_fmt=png

ceph_crush

CRUSH Map是一个树形结构，OSDMap更多记录的是OSDMap的属性(epoch/fsid/pool信息以及osd的ip等等)。

叶子节点是device（也就是osd），其他的节点称为bucket节点，这些bucket都是虚构的节点，可以根据物理结构进行抽象，当然树形结构只有一个最终的根节点称之为root节点，中间虚拟的bucket节点可以是数据中心抽象、机房抽象、机架抽象、主机抽象等。

5.3.2 数据分布策略Placement Rules

数据分布策略Placement Rules主要有特点：

a. 从CRUSH Map中的哪个节点开始查找
b. 使用那个节点作为故障隔离域
c. 定位副本的搜索模式（广度优先 or 深度优先）

rule replicated_ruleset  #规则集的命名，创建pool时可以指定rule集
{
ruleset 0             #rules集的编号，顺序编即可
type replicated       #定义pool类型为replicated(还有erasure模式)
min_size 1             #pool中最小指定的副本数量不能小1
max_size 10             #pool中最大指定的副本数量不能大于10
step take default       #查找bucket入口点，一般是root类型的bucket
step chooseleaf  firstn  0  type  host #选择一个host,并递归选择叶子节点osd
step emit       #结束
}

5.3.3 Bucket随机算法类型
640?wx_fmt=png

ceph_bucket

一般的buckets：适合所有子节点权重相同，而且很少添加删除item。

list buckets：适用于集群扩展类型。增加item，产生最优的数据移动，查找item，时间复杂度O(n)。

tree buckets：查找负责度是O (log n), 添加删除叶子节点时，其他节点node_id不变。

straw buckets：允许所有项通过类似抽签的方式来与其他项公平“竞争”。定位副本时，bucket中的每一项都对应一个随机长度的straw，且拥有最长长度的straw会获得胜利（被选中），添加或者重新计算，子树之间的数据移动提供最优的解决方案。

5.4 CRUSH算法案例

说明：

集群中有部分sas和ssd磁盘，现在有个业务线性能及可用性优先级高于其他业务线，能否让这个高优业务线的数据都存放在ssd磁盘上。

普通用户：

640?wx_fmt=png

ceph_sas.png

高优用户：

640?wx_fmt=png

ssd

配置规则：

640?wx_fmt=png

ceph_crush1

6. 定制化Ceph RBD QOS

6.1 QOS介绍

QoS （Quality of Service，服务质量）起源于网络技术，它用来解决网络延迟和阻塞等问题，能够为指定的网络通信提供更好的服务能力。

问题：

我们总的Ceph集群的iIO能力是有限的，比如带宽，IOPS。如何避免用户争取资源，如果保证集群所有用户资源的高可用性，以及如何保证高优用户资源的可用性。所以我们需要把有限的IO能力合理分配。

6.2 Ceph IO操作类型

ClientOp：来自客户端的读写I/O请求。

SubOp：osd之间的I/O请求。主要包括由客户端I/O产生的副本间数据读写请求，以及由数据同步、数据扫描、负载均衡等引起的I/O请求。

SnapTrim：快照数据删除。从客户端发送快照删除命令后，删除相关元数据便直接返回，之后由后台线程删除真实的快照数据。通过控制snaptrim的速率间接控制删除速率。

Scrub：用于发现对象的静默数据错误，扫描元数据的Scrub和对象整体扫描的deep Scrub。

Recovery：数据恢复和迁移。集群扩/缩容、osd失效/从新加入等过程。

6.3 Ceph 官方QOS原理

640?wx_fmt=png

ceph_mclok_qos

mClock是一种基于时间标签的I/O调度算法，最先被Vmware提出来的用于集中式管理的存储系统。(目前官方QOS模块属于半成品)。

基本思想：

reservation 预留，表示客户端获得的最低I/O资源。

weight 权重，表示客户端所占共享I/O资源的比重。

limit 上限，表示客户端可获得的最高I/O资源。

6.4 定制化QOS原理

6.4.1 令牌桶算法介绍

640?wx_fmt=png

ceph_token_qos

基于令牌桶算法(TokenBucket)实现了一套简单有效的qos功能，满足了云平台用户的核心需求。

基本思想：

按特定的速率向令牌桶投放令牌。

根据预设的匹配规则先对报文进行分类，不符合匹配规则的报文不需要经过令牌桶的处理，直接发送。

符合匹配规则的报文，则需要令牌桶进行处理。当桶中有足够的令牌则报文可以被继续发送下去，同时令牌桶中的令牌量按报文的长度做相应的减少。

当令牌桶中的令牌不足时，报文将不能被发送，只有等到桶中生成了新的令牌，报文才可以发送。这就可以限制报文的流量只能是小于等于令牌生成的速度，达到限制流量的目的。

6.4.2 RBD令牌桶算法流程

640?wx_fmt=png

ceph_token1

步骤：

用户发起请求异步IO到达Image中。

请求到达ImageRequestWQ队列中。

在ImageRequestWQ出队列的时候加入令牌桶算法TokenBucket。

通过令牌桶算法进行限速，然后发送给ImageRequest进行处理。

6.4.3 RBD令牌桶算法框架图

现有框架图：

640?wx_fmt=png

ceph_qos2

令牌图算法框架图：

640?wx_fmt=png

ceph_qos_token2

作者：李航，多年的底层开发经验，在高性能nginx开发和分布式缓存redis cluster有着丰富的经验，目前从事Ceph工作两年左右。先后在58同城、汽车之家、优酷土豆集团工作。目前供职于滴滴基础平台运维部负责分布式Ceph集群开发及运维等工作。个人主要关注的技术领域：高性能Nginx开发、分布式缓存、分布式存储。

NCpiro

4Kn磁盘是什么，和512的磁盘有什么区别？
时间：2019-03-28 15:49:32 浏览：127 作者: 都叫兽软件
概要
在与磁盘相关的知识中，我们经常可以看到512与4Kn的字眼，到底512磁盘和4Kn磁盘是什么？它们之间又有什么差异呢？在本文中你将找到相应的答案。

space
硬盘

目录
一、硬盘的512与4K格式
二、关于512与512e硬盘

三、什么是4Kn硬盘

四、什么是4K对齐？

五、如何对SSD进行4K对齐？

硬盘的512与4K格式
在过去很长的一段时间中，硬盘的单位扇区格式是512字节，但是这部分空间无法全部用来存储数据，因为还有用于ECC校验、地址标记等代码，

这些功能性代码约占用了65字节，因此单位扇区格式为512字节的磁盘真正用于存储的空间利用率不到90%。

space
512字节

随着磁盘技术的发展，为了提高磁盘容量，生产厂商开发出了名为“先进格式化磁盘“(Advanced Format)的技术，该技术将磁盘的单位扇区改为4K，这相当8个512字节格式的整合，

而且这8个512字节扇区共用一套功能性代码，因此整体的存储效率得到了大大的提高。4K磁盘的储存空间利用率，能达到97%以上。

space
4K格式

关于512与512e硬盘
由于传统上硬盘的单位扇区大小是512 字节，因此BIOS、操作系统、应用程式等很长时间以来都默认这个定律，并以此进行开发设计，所以激进地直接推出先进格式化硬盘一定会造成相容问题。

为了帮助这些旧式操作系统都能过渡到单位扇区大小为4K的先进格式，硬盘厂发布了512e格式的硬盘，即单位扇区大小为4K的硬盘，但它具有一个模拟的功能，能将4K的硬盘模拟成512字节的逻辑扇区，以此来支持更多不同的旧系统与旧应用程序。

格式逻辑扇区大小物理扇区大小
512 512B 512B
512e 512B 4KB
什么是4Kn硬盘？
”4Kn ”为 4K native 的缩写，意为原生 4K sector 先进格式化硬盘。不再像512e以模拟的方式模拟512字节/扇区的传统硬盘。但是，原生4Kn仍然与部分操作系统以及应用存在兼容性的问题，目前原生4Kn的硬盘仍然是少数，但可以预见这将是日后硬盘技术的发展趋势。

一般来说，硬盘厂商都会在包装的标识上标明该硬盘所采用的格式化方式，用户在购买时根据需求选择即可。

缩写缩写
512e 4Kn
虽然512e仍然是市场的主流产品，但4Kn硬盘也逐渐有不少的产品推出，比如希捷的ST600NM004、ST600NM008、ST1000NX0323，TOSHIBA的MG04ACA400A以及HGST的HGS#0F27408等。

什么是4K对齐？
正如上文提到的，磁盘的读写操作都是以扇区作为最小单位，大多数传统老式磁盘每个扇区的单位是512字节，而512e与4Kn硬盘均为4K。由此，引申出对现代硬盘的基本要求：4K对齐。
space
4K对齐

所谓的4K对齐，实际上是物理扇区与数据簇之间的对齐，当我们没有在4K对齐的磁盘上创建分区时，分区始终不会从物理扇区的起始位置开始读写，这意味着当进行读写操作时，物理扇区和数据簇会发生偏移。

因此，读取保存在一个数据簇的内容时，磁盘将会访问两个扇区，从而增加访问时间并减慢读写速度，同理，写入文件时同样会对两个物理扇区进行操作，必然会增加写入次数并浪费了磁盘空间。

简单来说，没有4K对齐的磁盘在进行读写时，需要进行两次的扇区数据调取操作，进行4K对齐后就能将数据与磁盘的最小存储单元对应，在一次读写操作中就能完成一份数据的调取。

如何对SSD进行4K对齐？
无论是512e还是4Kn硬盘，你在为硬盘进行格式化分区时，使用的是微软Windows 7以上的系统内置磁盘管理工具的话，那么实际上在完成格式化分区操作后，分区就默认成为了4K对齐的分区，用户无需再额外进行设置。

如果你的操作系统版本低于Windows 7，或者当前分区还未进行4K对齐但又不想重做系统，那么可能需要借助第三方软件来实现。
space
硬盘

值得一提的是，无论是什么版本的操作系统，如果想将另一磁盘中的系统迁移到新的SSD硬盘，建议使用都叫兽™备份还原进行迁移，软件在向目标SSD磁盘迁移时可使用100%完美克隆，并自动进行4K对齐，免除用户的后顾之忧。

什么是都叫兽™备份还原？
都叫兽™ 备份还原是一款专业的克隆软件，软件除了支持硬盘、分区的整体数据克隆外，还支持将操作系统完美迁移到其他硬盘上。此外，都叫兽™备份还原还是一款可靠的数据备份软件，支持硬盘、分区、独立文件等不同单位的文件备份与还原操作。

都叫兽™备份还原 – 数据备份还原工具
• 支持完美克隆系统/分区/磁盘到新磁盘

• 支持原生4Kn硬盘的克隆与备份

• 在系统迁移时对SSD自动进行4K对齐

• 支持MBR/GPT任意分区格式的系统迁移

• 支持FAT/NTFS任意文件系统的系统迁移
推荐下载：

数据备份
大小：28MB语言：简体中文

系统：Windows 2K/XP/7/8/10

马上下载

操作步骤
1.在软件主界面选择“克隆”功能，点选“系统迁移”。

space
备份1

2.在弹出的界面中，选择Windows所在的系统磁盘以及需要迁移的目标磁盘，点击确定开始迁移。

space
备份2

3.完成迁移后，在下次开机时在BIOS中选择新磁盘作为开机启动盘，即可在新磁盘完美启动原有系统。

space
启动原有系统

都叫兽结语：
今天的分享就到这里，希望能给你带来帮助，记得给我们转发点赞哦！想要获取更多资讯和干货，请关注都叫兽软件熊掌号。

推荐阅读

NCpiro

ceph开源社区 http://ceph.org.cn/

NCpiro

https://www.reneelab.com.cn/m/what-is-4kn-disk.html

NCpiro

Support for 4k Sector Disks

Documentation

Content Type
Compatibility

Article ID
000005646

Last Reviewed
12/09/2018

Intel® Rapid Storage Technology (Intel® RST) version 9.6 and newer supports 4k sector disks if the device supports 512 byte emulation (512e). Intel RST doesn't support 4k native sector size devices.

Note Information contained in this article isn't relevant to the Intel® Optane™ Memory feature.
What happens if I try to use an older version of the driver?

If you try to install the operating system on a 512e disk with a driver older than Intel RST version 9.6, the install process might not complete.

If the operating system does install, don't try to upgrade to Intel RST version 9.6 without reinstalling your operating system.

How do I install the operating system on a 512e storage device?

RAID

If your system has a supported Intel® RAID Controller, follow these steps to install the operating system on a 512e device:

Download the latest driver files.
Use the Load Driver method to load the driver during operating system install.
AHCI

If your system has a supported AHCI controller, you don't need to load the Intel RST driver during the operating system. If you choose to manually load the driver, load Intel RST version 9.6 or newer.

Related Products

NCpiro

https://www.chiphell.com/thread-1793088-1-1.html

NCpiro

huh728080ale600 8T企业盘，1000元

barrysam

太长了

surben

我理解，原本4K对齐的硬盘，存储10部片子占的空间是20G , 用512字节的硬盘放同样的10部片子，是不是3个G就能放下了？512字节的硬盘数据密度要比4k的大8倍了。是这个意思么？

maithon

太专业了。

freedown

好多，慢慢看。

HaxOr · 发表于 2019-4-8 04:33:51| 字数 20| - 俄罗斯

mark，等我的百级无尘间到货。。。。。

yansy

楼主是在存储行业工作吗？

NCpiro

esxcli storage core device smart get -d t10.ATA_____Hitachi_HUS724030ALE641_________________P8H1SSZR____________
Parameter                   Value  Threshold  Worst
----------------------------  -----  ---------  -----
Health Status                OK    N/A       N/A
Media Wearout Indicator    N/A N/A       N/A
Write Error Count          N/A N/A       N/A
Read Error Count             0    16       N/A
Power-on Hours             21    0       N/A
Power Cycle Count          56    0       N/A
Reallocated Sector Count    0    5       N/A
Raw Read Error Rate          0    16       N/A
Drive Temperature          27    0       N/A
Driver Rated Max Temperature  N/A N/A       N/A
Write Sectors TOT Count    N/A N/A       N/A
Read Sectors TOT Count       N/A N/A       N/A
Initial Bad Block Count    N/A N/A       N/A

NCpiro

esxcli storage core device list

【钢蛋】

欧耶，mark一下。

NCpiro

esxi 6.5 web端登录密码不正确的处理：

https://www.cnblogs.com/netian/p/13897910.html

https://zhujicankao.com/8519.html

一些存储的文章。。。

浏览过的版块

铜牌荣誉勋章(注册8年以上会员)

银牌荣誉勋章(注册10年以上会员)

月全勤勋章

年全勤勋章2018

年全勤勋章2022

金牌荣誉勋章(注册20年以上会员)

年全勤勋章2020

年全勤勋章2024

		自动登录	找回密码
密码			注册