专门网论坛

 找回密码
 立即注册

新浪微博登陆

只需一步, 快速开始

快捷登录

【蓝天科技】华为 小米 ThinkPad专门网 纪念品蜗牛家8月最新活动南京Thinkpad港行八达网海淘转运公司
DELL 母鸡兄 母鸡成色创威商务电脑
查看: 2997|回复: 248

千年等一回:ECC内存对于笔记本并非必须

[复制链接] [ 2452字 ]

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
发表于 2019-8-6 13:46:41 | 显示全部楼层 |阅读模式
本帖最后由 crargentino 于 2019-8-19 09:29 编辑

首先声明,如果有内容引起舒适的部分,那完全被逼的,不针对任何正常老哥。大家自己看看那几个喷的人再喷点什么东西。根本不看我的写的帖子就乱喷,或者就是揣着明白装糊涂,还有断章取义抬杠的。既然这些人不总重我的劳动成果,我也不会尊重这些人。

看到dell区有人嚷嚷着说什么现在的内存错误率已经达到惊人的程度,不禁产生怀疑。如果是这样那市面上为什么大部分还是无ecc的内存?如果是这样我们一般用的电脑是不是应该经常死机蓝屏之类的,可是多年的事实表明好象不是这样的。如果是这么高的出错率,以三星美光hynix的出货量显然他们应该已经倒闭了。不知道鼓吹这种内存错误率大的惊人的人到底是出于什么目的?为什么以前没有这种论调,今年突然出现了?难道今年dell的非ecc内存质量超差?还是是我们的生存环境发生了巨变,导致的打到地面的宇宙射线的中子数突然增加了?

抱着疑问,然后查了下一些超算中心的文献,毕竟他们的样本很多,地球上我想找不出有比大型超算中心的数据更有说服力的了。

先上结论,除非你是几百上千上万条内存以上这种规模的计算,否则,对于一般的个人笔记本或电脑,ECC内存不是必须的。

实验统计表明,这种出错的事件数,对于单条内存,是每10亿小时30个事件左右,转化一下,一年大概10^4小时,就是差不多0.0003次/每年,一般4根条子,我的估计,那就是1年0.001次吧,就是千年等一回!而且这个还是你基本上全年无休,而且内存占用率一直很高。可以想想看不知道多少老哥的笔记本是这么用的。很多人这辈子大概都不会碰到了。就算我量级估计有误,实际的大1000倍,那也最多4根条子1年碰到1次这个量级。而且这些概率都是基于你24*365*7运行的情况,个人用户多少人会这样用机器?
这个统计基于2015年劳伦斯伯克利的超算中心差不都20万个core,5万根内存条得出的结论。超算中心基本全年无休,内存占用率一般都是在70%以上。这个统计也就是只有超算中心做起来比较容易,其实也就对超算中心或者比较大规模的数据中心有意义,你想想他们有多少根内存条。你4根条子运行1小时有效时间4小时,他们5万根一小时有效时间就是5万小时。如果你一年碰到0.001flip,lawrence berkeley超算中心就是10来次,Los Alamos超算中心大概20来次每年,所以ecc对他们很重要,而且是reg ecc。

抓重点,内存出错有两种:
1. hard,就是不可恢复的,就是硬件出故障了,就是坏了。
2. soft,简单讲主要由于宇宙射线中高能中子和内存里的硅原子核碰撞造成其移位,导致0和1反转了。这种一般只要不是一次flip的bit数过多,是可以通过软件(Chipkill比如)或者ECC模块修复的。
ECC,服务器上是reg ecc,一般可以修复多个bit flip。笔记本上的都是最普通的single bit ecc,就说万一两个bit位flip,他就不行了。其实不管有没有ecc模块,都可以用Chipkill技术进行软纠错。可能linux下面有组件好象有MCE什么会记录这个ecc事件数。总之服务器版的操作系统里面原则上应该可以查看到这个事件数。他们这统计应该就是查看系统日志得出的事件数。
上面说的30个事件没十亿小时,是hard+soft事件。而且内存硬件本身出错的事件数和soft error五五开差不多。

看两篇文章:
1. 关于内存错误,就是我结论的来源:
https://www.cs.virginia.edu/%7Egurumurthi/papers/asplos15.pdf

eccvu.jpg

我主要是看fig3. 注意他的单位是10亿小时,FIT代表10亿小时。是VU CS专业的学术论文。该图中,每个bin是大致10亿小时,我说的30个/billion小时是第一个bin,已经非常保守了。其实运行几天之后,error/bin已经平均降到20左右了,permanent fault已经趋近于0了。原则上更实际是取最后几个bin的数据,差不多就是20/billion hours, 总而言之吧,反正1跟条子每年0.0002-0.0003次左右的事件数吧。4根条子差不多就是千年等一回
此外,本文在section7质疑了2009年google的愚蠢报告。指出google的统计方法根本就是错的,他们统计的包括是软件本身的错误并非真正内存的flip。
google在2009年大概也做过一个统计,作者叫bianca也不知道谁和两个google的人写的好像。可是那篇文章我看了两页就看不下去了,惨不忍睹,看了半天也没太明白它到底用什么系统做的测试,可能就是6台不同的机器,样本极小,而且写的太差了太业余了。而且由于统计错误,他们错误的包含了软件本身的故障而并非真正的ecc错误(而且似乎对比的看错了人别人的数据,拿自己的数据和对别人对数坐标下的数据对比),估算出的数量级不合常理的大,比超算中心的结果大了好几个量级。google他们是25000Fit/Mbits, 算了下大概意思转成1根8GB的条子大概就是至少一小时2次左右事件数,引起了广泛的质疑。照这个水平,以几大内存厂商的出货量,他们早就倒闭了。那篇文章唯一有点用的大概就只有参考文献那部分。我付的wiki talk里有提到这个质疑。


2. 关于宇宙射线引起的soft error:
http://web.cecs.pdx.edu/~cgshirl ... %20Soft%20Error.pdf

还有wiki talk,https://en.wikipedia.org/wiki/Talk%3AECC_memory 一些讨论。好像里面有个老哥说他自己的机器连续跑了几周也不知道几个月反正也没发现一次flip。

最后我也没找到今年宇宙射线强度变大的任何报道和数据。

综上所述,大家只要不是几百上千上万条内存以上这种规模而且不是超算那种强度,对于个人电脑,完全可以开开心心放心购买非ecc的内存条。

至于那些突然鼓吹非ecc内存在个人电脑上错误率大的惊人的人,我就不知道你们到底怎么回事了,毕竟你们说的东西并不科学。既不符合常识也不符合科学研究数据。如果说错误率大的惊人要拿出实实在在的数据,比如告诉我们多少次事件单条每小时,这样任何老哥都可以自己测试了,如果你说一小时5次,那大家把内存占满,比如虚拟机,放一小时,看看会不会就突然某个时刻死机了。我想这个不用测也知道,这是不可能发生的,如果这样就是生产商自己质检这块都过不了。

另外某些人宣称非ECC内存错误率大的惊人的人,你们自己有没有动脑子想过,三星美光hynix这种厂每年出货多少万根内存条?有个指标叫FIT,就是每10亿小时的故障数,或者有的指标叫MBTF,就是每百万小时故障率,你们觉得他们设这些指标是不是闹着玩的?你们有没想过,按你们的所谓google估计,这个FIT我帮你们算下,按照8GB单条算,至少25000 Fit/Mbits, 1Byte=8bit,那就是 25000*8*1024*8=1.6*10^9 Fit!  这个是惊人的!就说一根8GB的内存条,1小时1.6次soft error! 非ECC如果的FIT这么高,这么多soft error,以他们的出货量结合FIT,这个故障率我估计他们应该已经倒闭了!

我只是说下我个人粗略研究得出的结论,我没说我是100%对的。根据统计结果,我觉得笔记本上ECC不是必须的,但是有也没坏处。就是这样的。我发这个帖主要就是在线备份一下。有兴趣的老哥可以自己调研。
我已经预料到会有那么固定的几个号会冒出来喷,我请你们不要乱喷。我也就是很粗略的估算一下,不要上纲上线。就算我不小心估算错了,就算实际是大个一千倍,4根条子也就是1年碰到一次事件这个量级。
老哥们,我有些尖锐的话不是针对你们的,仅仅是针对个别人你们懂的,谢谢。

点评

好好一个技术帖子,搞成吵架的了,要不去茶馆吧。  发表于 2019-8-11 10:29
回复@song_1118 : 我问一下,这个J开头的人疯狂辱骂,你们视而不见?是不是应该给个说法?  发表于 2019-8-8 05:21
回复@crargentino : 有奖有罚,功不抵过,过不抵功,不能混为一谈。不是你说要给就给的,也不是你说要扣就扣的,还有,我不是管理员,我是版主。  发表于 2019-8-7 16:59
我说管理员你做的也太明显了吧。底下有几个灌水的回帖你都慷慨的给了每人每次51个币,我这个你给102币,再说我没要求你给币哦。我说了句汪汪汪,你就扣了204币,请问下你这是尝试羞辱我呢还是怎么的?佩服佩服!  发表于 2019-8-7 09:17

评分

参与人数 2技术分 +1 资产值 +102 收起 理由
yansy + 1 原创内容
song_1118 + 102 多谢分享

查看全部评分

入门会员 Rank: 1

帖子
363
积分
0.3
技术分
0 分
资产值
6048 nb
联谊分
0 分
注册时间
2016-11-21
发表于 2019-8-6 14:40:05 来自安卓客户端来自安卓客户端| 显示全部楼层
路过习惯性帮顶

点评

谢谢!  发表于 2019-8-9 14:21
回复 支持 1 反对 0

使用道具 举报

版主 Rank: 7Rank: 7Rank: 7Rank: 7Rank: 7Rank: 7Rank: 7

帖子
956
积分
0.4
技术分
0 分
资产值
5320 nb
联谊分
0 分
注册时间
2009-10-28
发表于 2019-8-6 14:50:16 来自手机版 | 显示全部楼层
本帖最后由 qianxideyu 于 2019-8-6 15:09 编辑

路过,看看了解一下

点评

谢谢!  发表于 2019-8-9 14:21
回复 支持 1 反对 0

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1362
积分
13.8
技术分
12.8 分
资产值
13851 nb
联谊分
0 分
注册时间
2006-8-12
银牌荣誉勋章(注册8年以上会员)金牌荣誉勋章(注册10年以上会员)
发表于 2019-8-6 15:04:48 来自手机版 | 显示全部楼层
支持楼主。
我直观的感觉和楼主是一样的,只是没有统计数据支持,不好说啥。
在笔记本上鼓吹ECC应该是本末倒置了。

点评

谢谢老哥支持!嗯,如果非ecc内存错误率真的很高的话,我想就算连内存生厂商自己的质检也不过不了。  发表于 2019-8-6 17:03
回复 支持 1 反对 1

使用道具 举报

入门会员 Rank: 1

帖子
1352
积分
0.4
技术分
0 分
资产值
3619 nb
联谊分
0 分
注册时间
2017-5-11
发表于 2019-8-6 15:44:24 来自苹果客户端来自苹果客户端| 显示全部楼层
不错,绑定。。

点评

谢谢!  发表于 2019-8-9 11:56
回复 支持 1 反对 0

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
45822
积分
9.6
技术分
1.1 分
资产值
118566 nb
联谊分
0 分
注册时间
2004-6-14
金牌荣誉勋章(注册10年以上会员)首批微信订阅号关注用户(限量200个)银牌荣誉勋章(注册8年以上会员)年全勤勋章2018
发表于 2019-8-6 17:05:06 来自苹果客户端来自苹果客户端| 显示全部楼层
进来支持一下楼主

点评

谢谢老哥!  发表于 2019-8-9 11:56
回复 支持 1 反对 0

使用道具 举报

入门会员 Rank: 1

帖子
3
积分
0
技术分
0 分
资产值
223 nb
联谊分
0 分
注册时间
2014-6-3
发表于 2019-8-6 17:27:43 | 显示全部楼层
想请教一下楼主,笔记本上的CPU是不是也没必要买XEON的呢?谢谢!
回复 支持 1 反对 0

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-6 19:20:37 | 显示全部楼层
本帖最后由 crargentino 于 2019-8-7 06:52 编辑
QUOTE:
luoshuang435 发表于 2019-8-6 17:27
想请教一下楼主,笔记本上的CPU是不是也没必要买XEON的呢?谢谢!


不客气。我认为至少没有必要上目前的这种笔记本Xeon。
一般说的工作站级别的xeon是指至少E5级别的,有一些特有的功能,比如内存4通道,有更多的pcie等。但是所有笔记本上的这些都不是E5,是所谓的E3,就是i9加了个ecc,或者就是把i9屏蔽的ecc打开了,仅此而已。而且科学统计数据放在这里,这辈子大概也未必能碰上一次soft error也用不着ecc。而且似乎我也没有发现任何统计数据表明笔记本上的xeon比一般的i7,i9稳定。
所以我的觉得实际上的确是没有必要的。不过若觉得心里爽也是很重要的,那么xeon和ecc也没坏处那是肯定的。
回复 支持 1 反对 0

使用道具 举报

入门会员 Rank: 1

帖子
1
积分
0
技术分
0 分
资产值
54 nb
联谊分
0 分
注册时间
2014-5-7
发表于 2019-8-6 19:53:50 | 显示全部楼层
本帖最后由 xinqingweidao 于 2019-8-6 19:59 编辑

误导人!
ECC内存:https://en.wikipedia.org/wiki/ECC_memory?tdsourcetag=s_pctim_aiomsg

There was some concern that as DRAM density increases further, and thus the components on chips get smaller, while at the same time operating voltages continue to fall, DRAM chips will be affected by such radiation more frequently—since lower-energy particles will be able to change a memory cell's state.[4] On the other hand, smaller cells make smaller targets, and moves to technologies such as SOI may make individual cells less susceptible and so counteract, or even reverse, this trend. Recent studies[6] show that single-event upsets due to cosmic radiation have been dropping dramatically with process geometry and previous concerns over increasing bit cell error rates are unfounded.
Work published between 2007 and 2009 showed widely varying error rates with over 7 orders of magnitude difference, ranging from 10−10 error/bit·h (roughly one bit error per hour per gigabyte of memory) to 10−17 error/bit·h (roughly one bit error per millennium per gigabyte of memory).[6][7][8] A large-scale study based on Google's very large number of servers was presented at the SIGMETRICS/Performance’09 conference.[7] The actual error rate found was several orders of magnitude higher than the previous small-scale or laboratory studies, with between 25,000 (roughly 2.5 × 10−11 error/bit·h) and 70,000 (roughly 7 × 10−11 error/bit·h, or 5 bit errors per 8 gigabytes of RAM per hour) errors per billion device hours per megabit. More than 8% of DIMM memory modules were affected by errors per year.
The consequence of a memory error is system-dependent. In systems without ECC, an error can lead either to a crash or to corruption of data; in large-scale production sites, memory errors are one of the most-common hardware causes of machine crashes.[7] Memory errors can cause security vulnerabilities.[7] A memory error can have no consequences if it changes a bit which neither causes observable malfunctioning nor affects data used in calculations or saved. A 2010 simulation study showed that, for a web browser, only a small fraction of memory errors caused data corruption, although, as many memory errors are intermittent and correlated, the effects of memory errors were greater than would be expected for independent soft errors.[9]
Some tests conclude that the isolation of DRAM memory cells can be circumvented by unintended side effects of specially crafted accesses to adjacent cells. Thus, accessing data stored in DRAM causes memory cell to leak their charges and interact electrically, as a result of high cell density in modern memory, altering the content of nearby memory rows that actually were not addressed in the original memory access. This effect is known as row hammer, and it has also been used in some privilege escalation computer security exploits.[10][11]
An example of a single-bit error that would be ignored by a system with no error-checking, would halt a machine with parity checking, or would be invisibly corrected by ECC: a single bit is stuck at 1 due to a faulty chip, or becomes changed to 1 due to background or cosmic radiation; a spreadsheet storing numbers in ASCII format is loaded, and the character "8" (decimal value 56 in the ASCII encoding) is stored in the byte that contains the stuck bit at its lowest bit position; then, a change is made to the spreadsheet and it is saved. As a result, the "8" (0011 1000 binary) has silently become a "9" (0011 1001).

以上来自维基百科:
下面为谷歌翻译:
2007年至2009年期间发布的工作表明,错误率差异很大,超过7个数量级的差异,范围从10 -10错误/位·h(每小时每千兆字节存储器大约一位错误)到10 -17错误/位·h (每千兆每千兆内存大约有一位误差)。[6][7][8]在SIGMETRICS / Performance'09会议上展示了基于谷歌大量服务器的大规模研究。[7]发现的实际错误率比之前的小规模或实验室研究高出几个数量级,在25,000(大约2.5×10 -11错误/位·h)和70,000(大约7×10 -11)之间。错误/位·h,或每小时每8 GB RAM 5位错误)每兆位设备小时数每兆位错误。超过8%的DIMM内存模块每年都会受到错误的影响。
内存错误的后果与系统有关。在没有ECC的系统中,错误可能导致崩溃或数据损坏; 在大型生产站点中,内存错误是机器崩溃最常见的硬件原因之一。[7]内存错误可能导致安全漏洞。[7]如果记忆错误改变了既不会导致可观察到的故障也不会影响计算中使用的数据或保存的记忆错误,则不会产生任何后果。2010年的模拟研究表明,对于Web浏览器,只有一小部分内存错误导致数据损坏,尽管由于许多内存错误是间歇性和相关性的,因此内存错误的影响大于独立软错误的预期影响。[9]
一些测试得出结论,DRAM存储器单元的隔离可以通过特殊访问相邻单元的意外副作用来规避。因此,访问存储在DRAM中的数据导致存储器单元泄漏其电荷并且由于现代存储器中的高单元密度而电交互,从而改变在原始存储器访问中实际上未被寻址的附近存储器行的内容。此效果称为行锤,它也已用于某些权限提升计算机安全漏洞[10][11]
没有错误检查的系统将忽略的单比特错误的示例将停止具有奇偶校验的机器,或者将通过ECC无形地纠正:由于芯片故障,单个位卡在1处,或由于背景或宇宙辐射而变为1; 加载以ASCII格式存储数字的电子表格,并且字符“8”(ASCII编码中的十进制值56)存储在包含最低位位置的卡住位的字节中; 然后,对电子表格进行更改并保存。结果,“8”(0011 100 0二进制)已无声地变为“9”(0011 100 1)。

点评

没错,你这个的确是误导人。google这篇文章给出了严重错误的结果引起了广泛的质疑。我帖子早就写了很明白了。  发表于 2019-8-8 18:31
我说管理员你做的也太明显了吧。底下有几个灌水的回帖你都慷慨的给了每人每次51个币,我这个你给102币,再说我没要求你给币哦。我说了句汪汪汪,你就扣了204币,请问下你这是尝试羞辱我呢还是怎么的?佩服佩服!  发表于 2019-8-7 09:17

评分

参与人数 1资产值 +51 收起 理由
song_1118 + 51 多谢分享

查看全部评分

回复 支持 1 反对 1

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-6 20:19:01 | 显示全部楼层
本帖最后由 Jasl-光誓 于 2019-8-7 01:50 编辑

就跟开车强制买保险一样,首先没人希望出事故,其次出事故可能就是大问题,所以为了避免事故的后果无法承担必须买保险。再一个就是对后果的容忍度有多高了,所以除了有最基本的保险,还可以选买更多保障更多情况、保额更高的保险,另外前阵子听了个新闻讲钢琴家郎朗给自己的双手买了上亿理赔额的保险。

回到 ECC,是否需要就是看对错误的容忍度如何。

我做 Web 系统的,服务器 7x24 小时跑,实际上这世界上绝大多数的 Web 系统,对错误的容忍度都很高,内存里数据错了可能只影响一个请求,程序挂了大不了重启,甚至数据库里的数据不满足一致性了都可能不是什么大问题。
在 Google 做深度学习相关的朋友给我讲过,他们发现一些偶然引入的数据错误反而让训练出来的模型效果更好,于是乎甚至有人去研究怎样可控的引入异常数据。

但另一方面我也有同学做机械行业需要计算机跑物理仿真,跑一次有的时候需要一周,如果计算过程中内存中的数据就算只错了一位,结果会出现非常大的误差,这意味着整个计算就要推导重来了,而他仅有的三年的工作经验里就撞上过。

IT 行业有个说法(也可能是互联网行业特有的),硬件是最廉价的资源。加 ECC 只需要多一点钱,就能避免潜在的问题,这是非常划算的。

统计结果也有两面性,一方面可以说明现在的计算机很可靠,另一方面,也说明了故障还是有概率发生的,如果恰好赶上了,谁买单呢?
ECC 就是避免这 0.001 的概率,哪怕把 0.001 变成 0.0001 也是值得的。

对于移动“工作站”,如果用户有需求进行类似的出错后果很严重的运算,那厂商自然就会拿出适合这种场景的产品来。

最后再重申一遍观点,是不是真的有必要,看需求。




点评

我想问一下,你确定你说的这些错误真的是内存的soft error?你说的容错什么的看上去更像是程序本身的bug,未必是内存的soft error.  发表于 2019-8-9 17:47
我说管理员你做的也太明显了吧。底下有几个灌水的回帖你都慷慨的给了每人每次51个币,我这个你给102币,再说我没要求你给币哦。我说了句汪汪汪,你就扣了204币,请问下你这是尝试羞辱我呢还是怎么的?佩服佩服!  发表于 2019-8-7 09:15

评分

参与人数 2技术分 +1 资产值 +51 收起 理由
yansy + 1 原创内容
song_1118 + 51 多谢分享

查看全部评分

回复 支持 1 反对 2

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1362
积分
13.8
技术分
12.8 分
资产值
13851 nb
联谊分
0 分
注册时间
2006-8-12
银牌荣誉勋章(注册8年以上会员)金牌荣誉勋章(注册10年以上会员)
发表于 2019-8-6 21:49:55 | 显示全部楼层
1. 首先讨论的是笔记本上是否需要ECC,不是服务器上是否需要ECC。
2. 现在大家的笔记本都装Win10了,如果真的要考虑错误率,操作系统本身可能出现的Bug以及应用软件的Bug的概率比内存出问题的概率不知道大多少倍,所以在这种情况下讨论ECC有多大价值,其实答案是不言而喻的。就像一个人天天抽鸦片,然后说是不是吃米饭对身体也有伤害啊。

点评

老哥说的是。有些喷的我都不知道他们是不是真的搞明白他们说的是程序本身的bug呢,还是真正的内存soft error事件。而且意思我否定ecc一样。我哪里否定了,帖子里写的清清楚楚。这里说的就是一般的笔记本。  发表于 2019-8-9 17:52
回复 支持 3 反对 1

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
95
积分
1
技术分
1 分
资产值
429 nb
联谊分
0 分
注册时间
2018-6-2
发表于 2019-8-6 23:06:32 | 显示全部楼层
你这应该是2009年之前的数据吧,2007-2009年,谷歌进行了一项实验,发现一条内存(DIMM)出现可修复的错误(也就是单bit错误)是一年3.751次,四条就是一年15次,平均二十多天一次。
你的数据是理论结果,新闻里面也说了“DIMM error rates are hundreds to thousands of times higher than thought”,也就是实验数据是理论数据的一百到一千倍。
来源:https://www.zdnet.com/article/dr ... are-on-dimm-street/

QQ截图20190806230000.jpg

点评

我帖子里也的很清楚了,我是2015年的数据,文章里section7专门讨论了google这篇2009的文章的错误。我帖子里面已经说了,怎么不看?这个有点揣着明白装糊涂吧,有点不尊重人了吧。  发表于 2019-8-9 17:37
这句话的意思分明是实际数据是之前被认为的概率的几百到几千倍  发表于 2019-8-6 23:58
回复 支持 0 反对 1

使用道具 举报

入门会员 Rank: 1

帖子
739
积分
0.3
技术分
0 分
资产值
3658 nb
联谊分
0 分
注册时间
2014-4-18
发表于 2019-8-7 02:17:05 来自手机版 | 显示全部楼层
单条ECC有32g嘛 没有?不买

点评

正在量产中,投放市场应该快了。  发表于 2019-8-11 09:08
回复 支持 反对

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-7 02:28:02 来自手机版 | 显示全部楼层
本帖最后由 crargentino 于 2019-8-7 17:32 编辑

注意哦,哈哈哈,有些人果然又冒出来了,就这么几个号。能力不行还装糊涂,引来引去还在拿2009google那个愚蠢的错误百出的报告说事情,还大几个数量级,大大大大大,大个球球。还google翻译也来了。你们根本就没看过那个愚蠢的报告,可能也看不懂。
早就知道你们会这样说。我帖子已经说的清清楚楚了,我是2015年来自劳伦斯伯克利和洛斯阿拉莫斯超算中心统计数据的实验结果的专业论文,google那篇2009年早就引起了广泛的质疑,测试方法有误,包括的都是软件错误而不是内存的flip,样本数也只有6个,完全就是笑话,拿自己图和人家对数坐标的图比,大了好几个数量级,wiki talk上也有讨论,照google那个2009年那篇错误百出的文章和他们给出的错误率几大内存厂早就关门了,你们没自己估算过,请问脑子在哪里?
我帖子都写的清清楚楚,拜托你们能不能稍微有点尊重,把我的帖子仔细看看,仔细查阅文献,有点技术含量好不好?这些人的能力真的低的令人发指,毛骨悚然。
我周围的人和做的计算都是世界上的开山鼻祖和最尖端水平,注意是最,这个我一点都不谦虚,事实。我看他们没有人用所谓移动工作站的,笔记本就是很普通的笔记本,自然没有ecc。计算任务要么台式机,要么就是超算。
真的不想和这些既业余又不谦虚也没有独立思考能力还自以为是的人士打交道,自己就那么点水平还以为全世界和他们都一样。你们这个水平让我想起了当年福岛核危机一大帮人听风是雨去抢购盐一样,可笑可笑。哈哈哈哈哈。

点评

我申明一下,我这样说话完全是被逼的。几个喷我的完全就是揣着明白装糊涂,不看我的帖子就来乱喷。他们说的我早就在帖子里面说的清清楚楚了。既然这些人不尊重我的劳动成果,那我也没必要和他们客客气气说话了。  发表于 2019-8-9 17:41
回复 支持 2 反对 0

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
95
积分
1
技术分
1 分
资产值
429 nb
联谊分
0 分
注册时间
2018-6-2
发表于 2019-8-7 03:17:45 | 显示全部楼层
本帖最后由 EPer-gck 于 2019-8-7 03:28 编辑
QUOTE:
crargentino 发表于 2019-8-6 13:46
看到dell区有人嚷嚷着说什么现在的内存错误率已经达到惊人的程度,不禁产生怀疑。如果是这样那市面上为什么 ...

你这个计算方法就不对,看你那张图,一个bin是30天,不是10亿小时。而且我下了论文,仔细读了一遍,发现是整个Hopper系统在30天内会出现30个内存错误。作者在前面说过,整个Hopper系统有48000根内存条。一根内存在一个月内出现错误的概率也就是1/1600,四根就是1/400,就是大约30年一次,而不是1000年。
顺便FIT真正的意思是Failure In Time,给定时间段的错误个数,和10亿小时没有任何关系。
而且更重要的是,文章指出,有些研究计算的是“error”不是“fault”,fault,也就是你提到的flip,一般由宇宙射线导致。而error的来源就很多了,包括环境,硬件,软件,系统等等。ECC内存也可以对其中一些error进行校验,不仅仅是fault。Error发生的频率确实在一年10次左右,和谷歌的研究相符。即使只有十分之一的error能被ECC内存校验,也是一年一次。一年一次的蓝屏,普通用户确实不会在意,但是工作站用户会很在意。
那么剩下九次怎么办?剩下的error,是由工作站自身的做工、系统的优化以及专业软件供应商的debug来解决的。
买普通笔记本,一年出现10次错误;买移动工作站,一年出现1次错误,买移动工作站+ECC内存,一年出现0次错误。这个提升虽然小,但对于一些用户来讲,还是值得的。
说句公道话,一天连续运行十几个小时不出错,这不完全是,或者大部分都不是ECC内存的功劳。这主要是因为大厂+商用笔记本的系统和硬件足够稳定。(其实我当时买ECC主要是因为买了至强,而买至强的原因是因为八代i7阉割三缓让我很不爽)

点评

自己没看懂就不要随随便便说别人是错的,已经回复,自己看看明白再来说话。  发表于 2019-8-12 03:06
不过说句实话,这位朋友还是读了读文章的,这个还是值得肯定的。至少喷我的内容是经过思考的。  发表于 2019-8-7 18:42
我说管理员你做的也太明显了吧。底下有几个灌水的回帖你都慷慨的给了每人每次51个币,我这个你给102币,再说我没要求你给币哦。我说了句汪汪汪,你就扣了204币,请问下你这是尝试羞辱我呢还是怎么的?佩服佩服!  发表于 2019-8-7 09:17

评分

参与人数 2技术分 +1 资产值 +51 收起 理由
yansy + 1 多谢分享
song_1118 + 51 热心回复网友问题

查看全部评分

回复 支持 1 反对 1

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 03:21:10 | 显示全部楼层
本帖最后由 Jasl-光誓 于 2019-8-7 03:39 编辑
QUOTE:
crargentino 发表于 2019-8-7 02:28
注意哦,哈哈哈,有些人果然又冒出来了,就这么几个号。能力不行还装糊涂,引来引去还在拿2009年google那个 ...

开源届顶级教父 RMS 用龙芯笔记本呢还... 不能说你身边人不用就没这需求不是?而且你自己就是 “ThinkPad P72 | Powerful, Mobile Workstation” 拥有者...

再者笔记本是 unbuffered ECC,你说你身边的大佬用台式机跑计算任务的,台式机就没有 unbuffered ECC 了?你的靶子应该是讲 unbuffered ECC 没用要用就用 reg ECC,而不是笔记本不该上 ECC,然后你还得批判 unbuffered ECC 就是收智商税才对嘛

点评

我没有说你就是那几个小号或那几个人之一,看你口气好像你觉得我针对你,如果你觉得自己是业余的,要抬杠,那这个是你自己对号入座了。  发表于 2019-8-9 11:37
回复 支持 0 反对 1

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-7 03:39:08 | 显示全部楼层
QUOTE:
Jasl-光誓 发表于 2019-8-7 03:21
开源届顶级教父 RMS 用龙芯笔记本呢还... 不能说你身边人不用就没这需求不是?

再者笔记本是 unbuffer ...

又来了,上纲上线,我说的台式机就是台式工作站,reg ecc。 我就笼统点说了台式机,不要把名字弄得那么高大上。
笔记本确实是unbuffered而且1bit ecc的大家都知道的呀,一般台式机我不清楚。
我可没说笔记本不该上ecc,我的结论是,笔记本的ecc不是必须的。
已经说了,你计算规模很大,好多跟内存条,当然建议ecc咯!那你笔记本就4根条子,是不是必须的呢?我说不是必须的。但你想上就上呗,没人说你不应该上。

回复 支持 反对

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
95
积分
1
技术分
1 分
资产值
429 nb
联谊分
0 分
注册时间
2018-6-2
发表于 2019-8-7 03:45:14 | 显示全部楼层
即使谷歌的研究不可靠,那么领域里的专家说的话总有一些依据吧?
我之前看的那篇报道里,有这样一句话:“IBM stated . . . that at sea level, a soft error event occurs once per month of constant use in a 128MB PC100 SDRAM module. Micron has stated that it is closer to once per six months . . . .”
IBM认为错误率是每月一次,而镁光认为是6个月一次。我就不评论这种错误率值不值得买ECC了,都是个人的选择。

点评

是你自己拿google错误报告来说事情的,现在自己又说就算不可靠了。不知道你所谓的专家说的出处哪里基于什么说的,而且看sdram应该是20多年前的东西了。  发表于 2019-8-12 03:15
回复 支持 0 反对 1

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 03:49:19 | 显示全部楼层
本帖最后由 Jasl-光誓 于 2019-8-7 03:54 编辑
QUOTE:
crargentino 发表于 2019-8-7 03:39
又来了,上纲上线,我说的台式机就是台式工作站,reg ecc。 我就笼统点说了台式机,不要把名字弄得那么高 ...

桌面版 E3 也是不支持 reg ECC 的,本身移动“工作站”就是劣化版的工作站而已

其次,reg ECC 虽然纠错能力更强,但是延迟等指标也会更差,要不要上是一个 trade off

还有,ECC 跟计算规模没有直接关系,就我在的领域而言 ECC 对于一些针对内存的攻击手段,比如 Row Hammar 是有防御效果的。

点评

你扯上e3干什么?已经说至强至少e5起步。ECC本来就和计算规模关系很大。你说的什么攻击看上去明明是软件的问题,别人要黑你的话ecc能有什么用?  发表于 2019-8-12 03:21
ecc和计算规模很有关系,我帖子已经写了很清楚了。  发表于 2019-8-9 11:58
回复 支持 1 反对 0

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 04:00:10 | 显示全部楼层
回到主题,ECC 内存显然不是必须的,不然早就成标配了,至于需不需要,看需求,不知道我第一个回帖你反对是反对哪里。

”脱离业务场景来谈架构都是耍流氓“

点评

我的帖子,还有slangmgh老哥的回复,已经讲了很清楚了。这里仅仅是说ECC内存对于笔记本不是必须的,既然你同意这点,那你后面的话就真的不知所云了,我没说“不需要ecc”。  发表于 2019-8-9 12:02
回复 支持 反对

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-7 04:19:12 | 显示全部楼层
本帖最后由 crargentino 于 2019-8-12 09:26 编辑
QUOTE:
EPer-gck 发表于 2019-8-7 03:17
你这个计算方法就不对,看你那张图,一个bin是30天,不是10亿小时。而且我下了论文,仔细读了一遍,发现 ...


这位网友,不知道你有什么时候资格上来就说别人的是错的?仔细读过文章会说这样的话?
把文章真的仔细读读再来说话,OK?文章section7已经讨论了google的结果是错误的。不知道你是怎么所谓仔细读的。
真的有兴趣可以把google的那篇(Google就6个样本,结果还是错的,你自己去读一读,我说的文章section7也有讨论),和我说的这篇翻译出来给大家解释解释如何?
否则你和某些人要咬文嚼字的话,大家也没有个中文的参照,对不对?

FIT当然是failure in time的意思,而且行业上指的就是10亿小时的故障数,和10亿小时有很大关系哦,可懂?和MTBF等等一个意思,
http://www.bb-elec.com/Learning-Center/All-White-Papers/Fiber/MTBF,-MTTR,-MTTF,-FIT-Explanation-of-Terms.aspx

内存,硬盘等等,厂商出货的都会有这个类似的指标,比如常见的百万小时故障率。厂商设这个指标是很重要的,可以预计出货的东西会有多少在多少时间内出现故障。他当然有个时间作为基准的参考!FIT就是10亿小时。否则这个指标有什么用?
而且fig3 一共18个bin,共22billion hours,一个bin就是1biliion左右,而且说的是fault rate,注意是rate,不是number。他说的FIT就是10亿小时的事件数,而且应该是projected的数据,你觉得5万个条子跑一年有22 billion hours,1billion都不到好不好?而且已经说了,我给的文章section7有讨论的,实在不清楚,直接发邮件去原文作者,这个最直接了,OK?根据Google的结果,我帖子也已经写了不知道你看了没有,25000 FIT/Mbits, 就是对于一条8GB内存,1小时1.6次soft error,OK? 这个故障率你觉得内存厂商还不倒闭?

你说的一年10次和google相符怎么算出来的?依据在哪里呢?

你搞搞清楚为什么说宇宙射线才是主要来源。当然,你说有其他来源,但是和宇宙射线的比,微不足道,我说的文章,30FIT已经包括了你说的所有错误,就这么点事件数。
你说的那些什么软件错误,不用ecc硬件也可以纠正的。不是说了吗,IBM的chipkill技术,基本上就是内存里做个镜像之类的,和硬盘raid相似。server级的系统肯定有类似的技术。

再说,我又不是说ecc没用,你大规模计算当然要用ecc,所以数据中心,超算中心都配ecc,而且是reg ecc。 我又没说不允许在笔记本上用ecc内存,或者说笔记本用ecc都是脑残。只是是不是真的有没有必要的问题。你想用就什么就用什么个人自由,没必要和我抬杠。

评分

参与人数 1技术分 +0.5 收起 理由
yansy + 0.5 多谢分享

查看全部评分

回复 支持 反对

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-7 04:35:18 | 显示全部楼层
本帖最后由 crargentino 于 2019-8-8 06:37 编辑
QUOTE:
Jasl-光誓 发表于 2019-8-7 03:49
桌面版 E3 也是不支持 reg ECC 的,本身移动“工作站”就是劣化版的工作站而已

其次,reg ECC 虽然纠 ...

一声叹息。这位朋友你到底怎么回事?
ecc和计算规模当然有直接关系,已经写了,为什么大型数据中心和超算中心要配ecc。你几根条子,人家几根条子?你1000年碰不到一次,人家一年就要碰到数十次。怎么和规模没关系,可笑。
不要跟我说这种话,这个朋友,我不是说不尊重你,我的计算规模不是你和你朋友能比的, 美国在搞更快更强的超算,不是说形象工程因为瓶颈不在我们这里,接下去就是量子计算,我只能说到这里。
而且你说了什么AI计算,deep learning这种对吧?那些人用所谓移动工作站做计算?用这种双精度倍阉掉的quadro?开玩笑?不都是V100这种计算卡吗?quadro只有GV100能谈谈。
你说的什么攻击,不用ecc的,软件也可以纠错的。而且人家真的要攻击你,你ecc有什么用?你reg ecc又能纠错几位?真是的。
我没发现reg ecc有啥问题,我和超算比过,没觉得超算的reg ecc慢。就算你民用级别的,也不会也不可能慢多少,如果真的慢到无法忍受,那应该检查程序是不是有问题,有很多低效的部分,比如数组是不是使用allocate属性,on heap or stack, 或者其他等等等。已经说了,毕竟你这个民用的能用到多少条子?这个不是你的主要瓶颈。
而且我也是个数量级上的估算,从千年等一回,到一年1次这种数量级都是可能的,没必要上纲上线。总之我没有说不能上ecc,只是数据放在这里,对于笔记本这种,我觉得可能不是必须的。你想上就上,没说笔记本用ecc都是脑残。

评分

参与人数 1资产值 +510 收起 理由
yansy + 510 多谢分享

查看全部评分

回复 支持 1 反对 0

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 04:52:12 | 显示全部楼层
本帖最后由 Jasl-光誓 于 2019-8-7 05:19 编辑
QUOTE:
crargentino 发表于 2019-8-7 04:35
一声叹息。这位朋友你到底怎么回事?
ecc和计算规模当然有直接关系,已经写了,为什么大型数据中心和超 ...

我是做软件开发的,前中国某顶级硬件公司的系统架构师,我们的后端系统要服务全球客户,而且服务器储存的数据很敏感,ECC 不是搞科学计算的专利。

ECC 对于我们来说一方面是防止内存错误导致系统崩溃,更大的作用是保护系统安全,这件事硬件有条件必须要兜底,但我们的集群不一定每台机器都是E5、E7,出于成本考虑用 E3 也是有可能的。

我对一些开发技术的经验在国内(甚至在国际)也是顶尖了,讨论问题就好好讨论问题

点评

我已经说了是针对笔记本的ecc。我没有否定ecc在大规模计算中的用途。而且我不清楚你说的内存错误到底是软件bug引起的还是真的soft error事件。  发表于 2019-8-9 17:57
我说管理员你做的也太明显了吧。底下有几个灌水的回帖你都慷慨的给了每人每次51个币,我这个你给102币,再说我没要求你给币哦。我说了句汪汪汪,你就扣了204币,请问下你这是尝试羞辱我呢还是怎么的?佩服佩服!  发表于 2019-8-7 09:17

评分

参与人数 1资产值 +51 收起 理由
song_1118 + 51 多谢分享

查看全部评分

回复 支持 0 反对 1

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 04:56:17 | 显示全部楼层
本帖最后由 Jasl-光誓 于 2019-8-7 05:20 编辑

对于我自己,移动”工作站“ 就是可带走的服务器,用 ECC 是有潜在的信安考量在里面。我个人、还有公司的服务器集群,承受不起”万一“出问题导致的后果。
当然了,我自己也主要以苹果为主,很少带 7530 出门,除非长时间出差,大多数工作直接连到服务器足够

点评

工作站永远都只是工作站,不管移动不移动,服务器才是真正的服务器。  发表于 2019-8-20 09:51
回复 支持 0 反对 1

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 05:02:02 | 显示全部楼层
本帖最后由 Jasl-光誓 于 2019-8-7 05:23 编辑
QUOTE:
crargentino 发表于 2019-8-7 04:35
一声叹息。这位朋友你到底怎么回事?
ecc和计算规模当然有直接关系,已经写了,为什么大型数据中心和超 ...

> 而且你说了什么AI计算,deep learning这种对吧?那些人用所谓移动工作站做计算?用这种双精度倍阉掉的quadro?开玩笑?不都是V100这种计算卡吗?quadro只有GV100能谈谈。

不,中小企业一般 Geforce 足矣,朋友(现同事)在 Google 跑 TensorFlow 任务用 CPU 集群(几千个 CPU 核),国内某大佬偏爱捡垃圾用 RX 290(跑 OpenCL)

点评

坦率地讲,不知道你说的中小企业要小到什么程度才会用geforce的卡。不清楚你是不是真的了解AI,deep learning, machine learning. 好点的公司人家真的不用geforce。你后面说的tensor和捡垃圾和ecc有啥关系?  发表于 2019-8-11 09:18
回复 支持 0 反对 1

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-7 05:22:12 | 显示全部楼层
本帖最后由 crargentino 于 2019-8-7 07:42 编辑
QUOTE:
Jasl-光誓 发表于 2019-8-7 04:52
我是做软件开发的,前中国某顶级硬件公司的系统架构师,我们的后端系统要服务全球客户,而且服务器储存的 ...


你既然讨论计算机,那超算当然是计算机最前沿最爆炸的领域了,这里面的数据最有说服力了。
就好比你开车,你要说单纯的速度,技术感,那当然是一级方程式。其实再是威航这种了。一级方程式的很多技术当然可以用在超跑上。科学也一样,很多最尖端的技术都来自科学最前沿,然后再传到民用领域。你看很多ecc纠错的文章,弄到底不都是物理学吗?宇宙射线,离子化等等。

你说的数据安全是个软硬件结合的东西,不是说光有ecc就行了。已经说了你ecc能纠错几位?真的要攻击你,ecc有啥用?

这里仅仅是说笔记本上有无必要上ecc,不是说ecc有没有用,我没否定ecc在大规模计算的用处,该说的我都说了。

评分

参与人数 1资产值 +510 收起 理由
yansy + 510 有理有节有耐心

查看全部评分

回复 支持 反对

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-7 05:33:06 | 显示全部楼层
本帖最后由 crargentino 于 2019-8-7 06:40 编辑
QUOTE:
Jasl-光誓 发表于 2019-8-7 05:02
> 而且你说了什么AI计算,deep learning这种对吧?那些人用所谓移动工作站做计算?用这种双精度倍阉掉的q ...

我不和你抬杠,你是不是顶尖和我没关系,我不评论你也不评论google。
可能你同事的计算根本不需要双精度或者根本没意识到这个问题,还在用单精度的卡,如果他的计算明明需要双精度但是用了单精度,那会出问题的。也可能财力有限。我周围的都是V100,有几百块,用1080ti的也逐渐转到V100了。
你说国内,我想不是他们不想用V100,第一未必有钱。第二,这种卡美国ZF管制的,你没有路道,nv不卖给你。这种卡NV他们都是第一时间送到美国顶尖大学和机构的。第三,可能就是你说的足矣,因为他们的计算没到那个程度,对速度也没那个追求,他们只要把结果算出来就可以了,最后的设备就需要那个结果。至于一星期算好还是1天算好没区别。
至于你说什么geforece足以,那依你对ecc的追求,他们这个就很不专业了,虽然便宜,然而geforce的显存的没有ecc校验的,这个就不安全按你说法对不对?你如果用几百上千块没有ecc显存的校验的geforce,当然可能一年碰到几回出错的事件。

回复 支持 反对

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 05:44:14 | 显示全部楼层
QUOTE:
crargentino 发表于 2019-8-7 05:33
我不和你抬杠,你是不是顶尖和我没关系,我不评论你也不评论google。
可能你同事的计算根本不需要双精度 ...

回到 ECC,是否需要就是看对错误的容忍度如何。

我做 Web 系统的,服务器 7x24 小时跑,实际上这世界上绝大多数的 Web 系统,对错误的容忍度都很高,内存里数据错了可能只影响一个请求,程序挂了大不了重启,甚至数据库里的数据不满足一致性了都可能不是什么大问题。
在 Google 做深度学习相关的朋友给我讲过,他们发现一些偶然引入的数据错误反而让训练出来的模型效果更好,于是乎甚至有人去研究怎样可控的引入异常数据。

我觉得第一个回复就已经讲清楚了

点评

我不清楚你所说的容错指的容软件的bug造成的错误还是真的内存soft error. 你所描述的错误看上去更像是软件本身的bug。  发表于 2019-8-9 18:01

评分

参与人数 1资产值 +510 收起 理由
yansy + 510 鼓励友好交流

查看全部评分

回复 支持 反对

使用道具 举报

高级会员 Rank: 4Rank: 4Rank: 4Rank: 4

帖子
1822
积分
9.6
技术分
9.1 分
资产值
7105 nb
联谊分
0 分
注册时间
2016-6-7
 楼主| 发表于 2019-8-7 05:57:40 | 显示全部楼层
本帖最后由 crargentino 于 2019-8-7 06:39 编辑
QUOTE:
Jasl-光誓 发表于 2019-8-7 05:44
回到 ECC,是否需要就是看对错误的容忍度如何。

我做 Web 系统的,服务器 7x24 小时跑,实际上这世界 ...

ecc没什么好讲的了,已经说了。
你google朋友,跟他去说,就明讲,出现这种问题,十有八九是程序bug引起的。应该做的是查bug,用给定seed的随机数发生器,确保每次运行都是产生相同的伪随机数序列,重现问题,一步步排查。不是什么研究异常数据。这个异常数据也十有八九不是内存flip引起的,是程序bug引起的。不就是采样吗?让他检查自己对比 新旧 接受几率的函数是不是有bug。有时候步长太大也会出现这种问题,或者round off error,我很怀疑你朋友的数据用的是单精度还是双精度,单精度弄的不好时很容易出问题的。但是只要出现这种问题基本可以确定是bug,程序就算再牛的人也不能保证说自己的程序100%没有bug,除非你这个错误是真的完全无法重复的。
不是争对说你朋友不灵光,只是这种民用的程序的很多都不能看,就和google那个愚蠢的报告一样水平。
然后我很奇怪,你朋友用geforce跑程序的?他不知道geforce的显存没有ecc吗?大规模用geforce他没考虑过这个问题?

回复 支持 反对

使用道具 举报

初级会员 Rank: 2Rank: 2

帖子
105
积分
1.9
技术分
1.8 分
资产值
1614 nb
联谊分
0 分
注册时间
2018-8-6
发表于 2019-8-7 05:59:57 | 显示全部楼层
本帖最后由 Jasl-光誓 于 2019-8-7 06:04 编辑
QUOTE:
crargentino 发表于 2019-8-7 05:57
ecc没什么好讲的了,已经说了。
你google朋友,跟他去说,就明讲,出现这种问题,十有八九是程序bug引起 ...

只能说隔行如隔山,保持谦虚吧。
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Powered by Discuz! X3.2 © 2001-2018 Comsenz Inc & 51nb.com

GMT+8, 2019-8-24 20:22 , Processed in 0.181593 second(s), 129 queries , Gzip On, OPcache On, Redis On.

手机版|小黑屋|客户端|Archiver|||专门网 ( 粤B2-20050246 )

返回顶部