智能锁ecc故障率是什么意思（智能锁显示上锁错误e3）-维修星

本文目录一览

1.IT产品故障率大曝光，普吉特发布《2021最可信任的PC硬件》报告
2.内存的错误校验与纠正码（ECC）：保障数据完整性的关键技术
3.近两年SSD固态硬盘有重大隐患，一线品牌也翻车，很多用户踩雷
4.信服云的ECC机制：有效减少30%服务器宕机故障

1.IT产品故障率大曝光，普吉特发布《2021最可信任的PC硬件》报告

在国内数码圈，有一个为大家所津津乐道的高频词叫“品控”，经常会有很多朋友在一起扎堆讨论，在不同品牌之间对比。

比如，时常会有朋友说，某品牌的产品的做工“品控”差，小毛病多，故障率高，容易出问题、容易坏、容易翻车，调侃买到完全没有任何小毛病的产品像是在“抽奖”等等。某品牌产品的做工“品控”好，长期使用也不会有小毛病，即使配置相同，价格高一点也可以接受等等，有关“品控”话题的讨论可谓经久不衰。

不过，网友所得出来的这些结论往往带有很强的个人主观性，是管中窥豹，只有统计样本数量足够大，得出来的结论才更客观，具有公信力，看到这里可能有朋友会问：

在IT硬件领域，有没有关于产品“品控”和故障率统计方面比较权威、客观、可信的分析统计报告呢？答案是有，最近普吉特系统公司（Puget Systems）就发布了一份《2021 年最可靠的 PC 硬件》报告，在报告中公布了相关数据。

有些朋友可能会提出质疑：没听说过有“普吉特”这么一家数据统计分析公司，其实它不是数据统计分析公司，它是一个电脑定制商，广泛、大量采购各个厂家的IT硬件产品，包括处理器、内存、硬盘、显卡等等。

需要强调的是，普吉公司不是专业的数据统计分析公司，数据统计分析不是该公司的业务，另外，它也不是采购所有厂商品牌的所有产品，数据有一定的局限性，不是绝对的客观全面，它会定期把自己所采购产品的故障率统计数据公布出来，因此在某种程度上，它的数据可以作为一个的参考。

在分享具体数据之前，先要科普两个术语：“自检故障率”（Shop Failure Rate）和“实际故障率”（ Field Failure Rate）。

自检故障率是指公司从供应商采购进来的IT元器件产品，在经组装为成品交付给客户之前，由公司内部在抽检、老化测试和各道检测工序阶段中所发现、统计出来的故障，实际故障率是指成品已经交付给客户之后，客户在使用过程中出现故障，反馈给普吉特公司的统计数据。

如果在公司自检阶段发现某元器件存在质量问题，一般都会予以剔除，更换为好的配件产品，所以，一般来说自检故障率都是大于实际故障率的。

下面言归正传，进入正题。在处理器方面，AMD处理器的总体故障率明显要高于英特尔。在英特尔面向企业级的至强处理器方面，其故障率非常低，其 Xeon W2200甚至达到了0，完全没有故障，其它几款至强处理器故障率也低于1%。

但是，英特尔的消费级处理器，也就是大家最熟悉的、目前最主流的酷睿11代处理器则差了不少，其自检故障率达到了5.28%，实际故障率也达到了1.32%。

AMD方面，其线程撕裂者Pro自检故障率达到了2.48%，但实际故障率为0。其线程撕裂者3000系列自检故障率与实际故障率均为0.8%，质量提升了不少，其主流的锐龙5000系列自检故障率为2.02%，实际故障率为0.77%。

在内存方面，普吉特公司不是按内存的品牌来统计的，而是按内存的类型来统计的，目前该公司使用的所有内存都是 DDR4，主频为 3200MHz，分三类：普通消费级内存，带错误检查和纠正 (ECC) 功能的内存和带寄存器的内存（也支持ECC），后两种是企业级内存。

普通消费级的DDR4 3200MHz内存的自检故障率为0.9%，实际故障率为0.13%，而后两种企业级内存的故障率则相对大幅递减，其实际故障率仅为0.22%和0.07%。

从此可以看出，企业级内存的稳定性更高，故障率更低，这种结果非常正常，这就是为什么相同容量，企业级内存要比普通消费级内存贵很多的原因。

下面到了很多游戏爱好者最关心的显卡部分了，普吉特公司将其采购的显卡分成四类：分别是GeForce RTX 3000系列公版显卡、华硕、EVGA、技嘉、微星和 PNY等公司所生产的GeForce RTX 3000系列品牌显卡、Quadro RTX 系列显卡，和面向特殊领域专业级的RTX A 系列显卡。

Quadro RTX 系列显卡的自检故障率非常高，其主要原因是RTX 4000显卡上的 USB-C“VirtualLink”端口普遍存在制造问题所导致的。

其实际故障率低的原因是，普吉特公司发现问题后主动封存了这些显卡，不向客户提供，并主动提醒客户不要购买使用该型号，但是在问题曝露之前还是搭载出售了一部分，所以其实际故障率仍为0.7%。

另外，小编补充一句，提起显卡，很多朋友对“公版显卡”是嗤之以鼻，看不上眼的，非“品牌显卡”不买，但实际结果是，公版显卡的故障率仅为“品牌显卡”的四分之一。

品牌显卡的自检故障率为1.63%，实际故障率为0.74%，而公版显卡的自检故障率为0.41%，实际故障率仅为0.26%，因此以后千万不要再看不上“公版显卡”了。

RTX A 系列不是针对民用级别的，是针对某些专业计算领域的，其整体销售也不大，所以其故障率较低。

下面到了另外一个大家所关注的重点了，那就是硬盘，包括机械硬盘和固态硬盘，普吉特公司是按品牌和某些热门产品型号进行统计排序的。

西部数据的Ultrastar机械硬盘的故障率较高，其自检故障率为0.73%，实际故障率为0.39%，红盘的自检故障率为0.52%，实际故障率为0.34%，虽然相对数字很高，但是最终的实际故障率均低于0.4%，作为普通用户是可以接受的。

希捷有一款固态硬盘故障率较高，自检故障率为0.65%，但到目前为止，普吉特公司还没有收到用户实际报告该产品出现故障。反观三星的三款固态硬盘的故障率均低于0.1%，这个成绩非常可靠，令人印象深刻。

电源方面，普吉特公司主要采购使用的是EVGA和振华（Super Flower）两个品牌的产品，因此它的分析统计也是基于这两个品牌所进行的，共计统计了6款产品。

总体来看EVGA品牌的电源故障率要高一些，尤其是EVGA SuperNOVA 1600W这一款，其自检故障率为1.21%，实际故障率为0.2%，振华电源的故障率直接低一半，实际故障率不高于0.4%。

——对于这份数据大家怎么看？

2.内存的错误校验与纠正码（ECC）：保障数据完整性的关键技术

近年来，随着计算机系统的不断发展和应用需求的增长，对于内存数据安全和完整性的要求也越来越高。为了解决内存中可能出现的位翻转、噪声干扰等问题，内存的错误校验与纠正码（ECC）技术应运而生。本文将介绍错误校验与纠正码的原理、工作机制，以及它在保障数据完整性方面的重要作用。

一、错误校验与纠正码的基本概念

错误校验与纠正码（Error Checking and Correction Code，ECC）是一种通过在数据中添加冗余信息来检测和纠正错误的技术。它利用数学算法和编码原理，通过向内存数据中添加冗余比特，实现对数据的校验和纠正。

二、错误校验与纠正码的原理

奇偶校验（Parity Check）：奇偶校验是最简单的错误校验码。将每个字节的数据位进行奇偶校验，通过在数据后面添加一个校验位来确保数据中的1的个数为奇数或偶数。当接收到数据后，通过重新计算校验位和接收到的数据进行比较，如果不一致则表示数据出现错误。
海明码（Hamming Code）：海明码是一种广泛应用的错误检测和纠正码。它通过在数据中添加冗余比特，并利用确定的校验矩阵进行校验和纠正。海明码可以检测和纠正单个比特的错误，以及检测多个比特的错误。

三、错误校验与纠正码的工作机制

错误校验与纠正码的工作机制分为两个阶段：校验阶段和纠正阶段。

校验阶段：在数据写入内存之前，ECC编码器会根据选定的错误校验与纠正码技术对数据进行编码，生成对应的冗余校验信息，并将其与原始数据一同存储到内存中。
纠正阶段：当数据被读取时，ECC解码器会使用相同的纠错码进行解码，生成纠错校验信息，并与读取的数据进行比较。如果存在错误，ECC解码器可以自动纠正错误的比特，恢复原始数据。

四、错误校验与纠正码的作用

错误校验与纠正码在保障数据完整性方面发挥着重要的作用，具体包括：

错误检测：通过对数据进行校验，可以及时发现内存中的错误，并提供相关信息用于诊断和修复。
错误纠正：对于那些能够被纠正的错误，ECC技术可以自动纠正，恢复数据的完整性，确保数据的准确性和可靠性。
提高系统可靠性：ECC技术可以有效降低内存故障对系统的影响，提高计算机系统的可靠性和稳定性。

五、总结

错误校验与纠正码是保障内存数据完整性的关键技术。通过添加冗余信息并利用数学算法进行校验和纠正，ECC技术可以实时检测和纠正内存中的错误，提高系统的可靠性和稳定性。在设计和选择计算机系统时，合理使用错误校验与纠正码技术可以有效保障数据的安全和可靠传输，提升系统性能。

3.近两年SSD固态硬盘有重大隐患，一线品牌也翻车，很多用户踩雷

SSD固态硬盘相比大家都不陌生吧。固态硬盘因其优越的性能，成为广大用户心目中装机必备硬件。

大多数人都本着这样一个原则：

电脑里宁可没有HDD机械硬盘，也不能没有SSD固态硬盘，更有甚者，整个电脑一块儿HDD机械硬盘都没有，全部安装的SSD固态硬盘。

由此可见SSD固态硬盘在广大用户心目中的地位了。

但是，SSD固态硬盘虽然性能比HDD机械硬盘优越许多，但是它的使用寿命以及用户存储数据的安全性一直是用户担心的重要问题。

SSD固态硬盘虽然有着传统HDD机械硬盘不具备的读写快、质量轻、能耗低、体积小等特点，其质量也收到自身特点的限制。

即便SSD固态硬盘在质量和故障率等方面做到和传统HDD机械硬盘同一个水平，其自身存在的问题依然难以很好的解决。用户在使用的过程中，硬盘一旦损坏，数据丢失，想要恢复数据非常困难。

然而，即便SSD固态硬盘有这么多问题，一些硬盘厂商仍然不断的搞事情。前几年一些硬盘厂商欺骗消费者的事件想必大家还记忆犹新。

许多硬盘厂商回收旧的颗粒、黑片，然后将其偷换到新的硬盘上，更有甚者直接打磨盖标。类似这样的问题比比皆是、层出不穷。

这样的事件一出，那些自家拥有NAND闪存颗粒的原厂固态硬盘，比如：三星、西部数据、锴侠以及国产品牌致钛等等，便成为了广大用户追捧的对象。

但是，即便是这些备受追捧的原厂固态硬盘，其品质也不见得完全可靠，也会出一些这样的问题。我们拿三星来举例：

众所周知，三星曾经做过一些让用户非常不爽的事，相比之下让用户感觉质量ok的三星固态硬盘，最近也频繁暴雷。

三星旗下的970EP和980 Pro是现阶段大家都非常推崇的两个型号，有些预算有限的用户还会选择价格更低一点的980 Pro OEM。

但是，用户本以为凭借三星大牌的性能和品质，一块固态硬盘可以用个几年没问题。没成想，三星的固态硬盘也能频频暴雷。

近期，有用户晒出硬盘SMART信息中0E错误量增加，硬盘中的数据出现丢失的情况。

0E错误是什么呢？0E错误的全名是Media and Data Integrity Errors 媒体和数据完整性错误。关于这个错误，网上许多解释为主控检测到的未恢复的数据完整性错误，不可纠正的 ECC、CRC 校验错误不包含在内。

出现这一错误，意味着固态硬盘出现了坏块，对于固态硬盘来说，坏块是物理损坏，这种损坏是不可逆的。

固态硬盘出现了0E错误，有可能会直接导致硬盘中数据完整性损坏，硬盘中的资料数据可能会丢失或损坏，电脑的系统也随时有可能崩溃。

即便各个硬盘厂商都会在硬盘上预留一小部分空间，或者采取其他的措施。但仍然无法完全避免0E错误的出现。

而0E错误的出现，实际上与主控、固件、闪存颗粒品质等环节都有着密切的关系，目前出现的这些0E错误中，并没有找到导致错误出现的确切的原因。

因此，小编建议大家，无论使用什么品牌什么型号的固态硬盘，在使用之前都要先检查一下硬盘的SMART信息。此外，还要对硬盘中的数据及时的做好备份工作，做到有备无患。

了解更多

4.信服云的ECC机制：有效减少30%服务器宕机故障

服务器宕机可能是很多运维工程师最可怕的噩梦。谷歌的一项研究表明：大多数死机故障是由内存问题而引起的，而且每年有1/3的谷歌服务器都会出现可纠正的内存故障，而有1/100的谷歌服务器会出现不可纠正的内存故障，后者是造成系统宕机的典型情况之一。

如果有人说，用软件的方式，可以解决硬件的内存问题，还能减少30%的服务器宕机故障，你觉得可靠吗？

当前的数据中心已经走向软件定义的时代，从最初的软件定义网络SDN到软件定义数据中心SDDC。为了防止服务器宕机的意外发生，越来越多的企业开始考虑软件定义的解决方案，并通过软件定义的可靠性屏蔽服务器、内存等硬件故障带来的影响。

那么软件是如何实现对内存以及服务器可用性的提升呢？

基于MCA的内存ECC技术

内存故障非常多，就看系统能不能识别出来，有些故障是内存单个或多个bit字节故障，有些是内存颗粒故障，有些是内存颗粒上的单行或单列的存储单元出现故障，还有firmware故障、内存控制器故障，还有一些是内存金手指焊接点老化、主板上的内存插槽松动或有灰尘等等。

器件质量类的故障只能通过工艺的改进来解决，而信服云要解决的是软件层面可以控制的bit级故障。往往大故障来自于所谓bit级小故障的持续积累，这时要做的就是“防微杜渐”，在小故障发生的时候就抓住它、，隔离它，避免影响扩大。

Intel有一种机制叫做MCA（Machine Check Architecture），可以监测这种类型错误。这个机制的运行方式是：首先需定义出这些错误模型，把可以自动纠正的错误叫做CE（Correctable Error），这些往往是任意单比特错误、部分单颗粒多比特的错误。但是一些错误无法自动纠正恢复，会导致系统宕机，这些错误被定义为UCE（Uncorrectable Error）。根据统计，CE/UCE类的问题类型占内存所有类型问题的59%。所以，如果能够设计一种故障检查和纠正的机制，其价值会非常大！

这个全套的错误检查和纠正的机制就是ECC（Error Checking and Correcting）。ECC在遇到故障时首先会进行问题识别，通过设计内存主动扫描机制，可以设置一天24小时不休（也可以调整）扫描和发现故障；识别后判断故障位置（这里其实用到了一些特殊的bit计算和校验算法），认定故障位置后，就尝试隔离该有问题的内存空间，避免后续业务再次使用该内存空间。

信服云的内存ECC增强技术

业界主流的IT服务商都会利用Intel的MCA机制进行内存错误处理，但是其软件实现的精细化程度不一，比如有些服务商只是把CE错误屏蔽掉，或者只是简单的告警，没有做进一步处理；还有一些服务商即使有告警但是无法准确定位到发生问题的插槽。而信服云则提出了一个风险区机制，一旦发生内存错误，就将问题单元置于一个“缓冲区”进行观察，当CE错误达到一定阈值则立刻自动隔离有风险的内存区域，避免错误继续扩大引起严重的宕机。

近年来，信服云在内存隔离恢复机制上不断优化，在2022年1月推出的超融合HCI6.7.0中还对ECC机制进行了增强。

该增强机制的运行方式是：首先通过CPU的BIOS设置CE Record选项，使得硬件识别出内存错误，一旦发现CE/UCE错误，硬件就会把这个错误上报给信服云的软件。然后轮到软件机制上场，OS系统先是判断这个内存是否被软件（包括应用软件和操作系统）使用，如果没有使用就直接隔离，不允许再分配给软件使用。

如果被软件使用了，就获取软件的上下文，判断区分其是被操作系统内核(in_kernel)或者被用户应用软件(in_user)使用。

■ 如果是被应用软件(in_user)使用，对于CE可纠正错误，信服云的内存ECC增强机制就用一块好的内存区域替换掉有错误的内存区域，这个过程中业务完全不受影响。如果是UCE不可纠正的错误，该机制就重新启动该进程，把错误的内存区域释放出来并隔离出去不再使用。进程重启后就可以使用完全正常的内存了。

■ 如果是被操作系统内核(in_kernel)使用，信服云的内存ECC增强机制就把有错误的内存区域的信息记录下来，在系统再次启动的时候，该机制会隔离这些有错误的内存，以保证其不会被再次使用。

（信服云ECC自动纠错机制原理）

推出上述机制后，信服云在1000台主机环境中进行了验证。结果证明，通过软件控制的ECC机制，信服云能够提前发现内存异常，并且100%自动隔离成功，可以提前处置以规避更大的故障影响，总体上相对原有方式能够减少30%的服务器宕机故障。

回到开头的问题，用软件可以解决硬件层面带来的问题吗？毫无疑问，当然可以！信服云的ECC机制就通过创新性的软件技术更加准确、智能地控制了服务器的内存故障问题，有效地提高了IT系统的可靠性。

以上就是本期《信服云黑板报》关于软件定义可靠性和ECC机制的分享。关注“深信服科技”微信公众号，可以持续获取更多技术干货内容！

雷峰网

智能锁ecc故障率是什么意思（智能锁显示上锁错误e3）

1.IT产品故障率大曝光，普吉特发布《2021最可信任的PC硬件》报告

2.内存的错误校验与纠正码（ECC）：保障数据完整性的关键技术

3.近两年SSD固态硬盘有重大隐患，一线品牌也翻车，很多用户踩雷

4.信服云的ECC机制：有效减少30%服务器宕机故障

基于MCA的内存ECC技术

信服云的内存ECC增强技术

相关推荐

全自动洗衣机不洗涤？8种常见不洗涤故障详

超实用！你不得不知道的家电维修技巧

想要入行，必须要懂都一些家电维修基础知识