【原创】Lucid的HydraEngine的“超线性提升性能”的解读--让SLI和交火见鬼去吧

FallInMatrix

Lucid的HydraEngine的“超线性提升性能”的解读

1+1不可能大于2，凡人是这么认为的。

Intel投资的Lucid公司，研究着的产品Hydra Engine，号称支持任意型号的显卡并联工作。有网友称之为：让SLI和交火见鬼去吧。

不管是SLI还是交火，都在为同一个事情而头痛：显卡越强，并联后提升的性能百分比就越低。举个例子，两张GF6800卡SLI并联后能提升90%的性能，但两张GF9800并联后性能提升只有50%左右。对此，Lucid公司道出问题结症是：NVIDIA和AMD的多显卡方案都采用的是分割帧渲染（SFR）或交替帧渲染（AFR）模式，这两种模式都存在固有缺陷。

Lucid公司宣称，当使用HYDRA方案并联两块或两块以上显卡时，可获得“接近线性到超线性” 的性能提升。对于这个“超线性”的性能提升，大多数网民表示看不明白，网民问：“不存在的计算力能凭空蹦出来吗？开什么玩笑。”

本文，意图从社会分工学角度，针对上述疑问作一翻解读，起个抛砖引玉作用，欢迎参与讨论。

先举个容易理解的例子。锻造一把铁剑，需要A和B两道工序。甲工匠很善长A工序，略懂B工序。乙工匠相反，他很善长于B工序，略懂A工序。让甲和乙各自独立锻造铁剑，两人每天能各自打出5把剑。现在老板让甲工匠只负责A工序，乙工匠只负责B工序，从此以后两人每天能打出总共12把剑，比以前每天总共10把多了2把。
这是社会分工学的基本原理，让专人去干善长的活，就能实现1+1大于2的效果。

上述例子很简单，你可以把锻剑换成财务结算，把甲乙工匠换成会计和出纳，表达出来的意思也是一样的。你也可以把锻剑换成C/S结构的IT项目，把甲乙工匠换成写JAVA服务的程序员和写C#界面的程序员，因为我估计混51NB的不少人是软件工程师，这样换会更容易懂。

现在，我们回到GPU并联的话题来。甲显卡很善长于2D的全屏抗锯齿和模型贴图，但3D很弱。而乙显卡很善长于3D，但2D比较弱。现在Lucid公司的九头蛇估算过后，把大部分的三角形顶点计算工作和工作分给乙显卡，把大部分的像素渲染工作交给甲显卡，最后九头蛇把两者的计算结果合成一个完整的画面。
当然，我举的例子只是简单地用2D和3D去区分甲乙显卡所善长的能力，这样子举例过于粗糙了，如果我再举一些深一点的技术术语，例如浮点运算器，光线追踪计算，3D模型贴皮，物理碰撞计算，等等，也许效果会更好。但是我相信，即使我举的例子这么粗糙，你一样能够理解我想要表达的意思，对不对？
没错，我想说的就是社会分工学的基本原理，让胜任的计算单元去干善长的活，就能实现1+1大于2的效果，也就是Lucid所宣称的“接近线性到超线性” 的性能提升了。

下面，引用一段能随便就能GOOGLE到的资料，免去你累于搜索了：

HYDRA引擎是一项完全独立于GPU的图形分布式计算技术，实现途径包括一颗专用SoC片上系统芯片和对应的软件。目前NVIDIA和AMD的多显卡方案都采用的是分割帧渲染（SFR）或交替帧渲染（AFR）模式，Lucid则认为这两种模式都存在固有缺陷。在SFR模式下，每块显卡都需要重复保存所有的纹理和几何信息，单块显卡显存带宽和几何着色单元的限制仍然存在。而在AFR模式下，每帧画面都需要切换在显卡间切换，导致存在延迟。
HYDRA引擎芯片采用了完全不同的模式。该芯片并不负责任何GPU运算工作，它的职责在于将图形渲染工作实时分配到各GPU身上。另外，整个运算架构还包括一款独立的软件驱动，在DirectX架构和GPU厂商驱动间进行交互。

HYDRA引擎会在NVIDIA或AMD驱动前，读取来自于游戏或其他应用程序传输到DirectX的信息，并将信息划分为多个任务。某一项任务可能是一个特定的光照效果，一种后期处理，一个特定模型的绘制等等。如何将一个复杂的游戏画面划分为多个任务，正是Lucid专利算法的关键所在。
任务被划分完成后，就会通过PCI-E总线传输到HYDRA芯片，随后分配到2至4颗GPU中。GPU完成自己的运算任务后，会把结果，可能是一部分数据，也可能是一些像素交还HYDRA芯片，该芯片再这些信息交给其中一颗GPU做最后的混合输出。简单地说，HYDRA既不简单的直线分割每一帧画面，也不会机械的将各帧画面分配给各个GPU，而是将整个画面渲染工作灵活的分配完成。

Lucid公司表示，整个任务分配工作几乎不会消耗任何CPU资源，相比单卡渲染也不会有明显的延迟。他们的方案可以支持任何厂商的任何显卡，可以是ATI或NVIDIA的任何不同代显卡互联，但无法支持N卡+A卡混合（操作系统不支持，并非HydraEngine不支持）。当在系统中使用不同类型显卡时，HYDRA驱动会识别各款显卡的类型，并估计其运算能力，在分配任务时将合适的运算量分配给它。如果某块显卡在渲染当中拖了后腿，HYDRA引擎会即时调整分配比例，将更多的任务分给较早完成的GPU，一切动态分配工作都在后台实时完成。

上面两张图片就展示了HYDRA的独特分配方式，系统中使用了两块GeForce 9800 GT显卡，运行《UT3》游戏，其中一块GPU渲染的内容是窗棂和支柱，另外一块则负责渲染其他物体，混合起来就组成了完整的游戏画面。

下面的这张图片则对比了混合后的画面和剔除一块显卡渲染内容（地板）的效果。

[ Edited by FallInMatrix on 2008-9-18 00:07 ]

rubbishplace

恩，有前途的技术

皓皓

类似于内存双通道的思维去理解就不困难了吧?

FallInMatrix

QUOTE:

Posted by 皓皓 on 2008-9-17 21:10

类似于内存双通道的思维去理解就不困难了吧?

嗯，这个理解比较接近了。意思就是真正的并联计算，而不是直线分割帧画面，也不会机械地将分配奇偶帧画面。

[ Edited by FallInMatrix on 2008-9-17 21:21 ]

FallInMatrix

QUOTE:

Posted by rubbishplace on 2008-9-17 21:09

恩，有前途的技术

这是Intel用来围剿SLI和交火的技术，算得上是并联GPU的小革命吧。

askzya

这个技术确实值得推广！但这种技术应用在笔记本上暂时还不太可能。
它和奇偶数交替渲染完全不是一个概念，但还是要把图形分为部分进行渲染。
关键是Logix's Hydra这个芯片，目前好像只能集成于主板上，同时可能还毕须要安装相应驱动。
拿台式机来说，如果你手上有两个以上同品牌的GPU产品，当然，是同一品牌但型号相同或不同的显卡都可以，
Hydra Engine将会使得这几个GPU高效地协同合作起来。

另：其中的多显示屏加速Multi-monitor acceleration技术可以实现在一个PC平台上，一个输出显示器看电影，另一个输出显示器玩游戏。
Logix's Hydra芯片能够使得多个GPU在一个显示器上加速游戏画面的同时向另一个显示器输出高品质视频画面。

[ Edited by askzya on 2008-9-18 01:58 ]

FallInMatrix

QUOTE:

Posted by askzya on 2008-9-18 00:31

这个技术确实值得推广！但这种技术应用在笔记本上暂时还不太可能。

其实，我觉得这种技术最大的市场应该是在笔记本上，而不是台式机上。

它要应用到笔记本上，必须要等到16X的PCI-E外置接口的上市，据Intel说，PCI-E延长线接口要等到2010年初才能上市。唉。

看这篇：PCI-E新规范：迎接外置显卡

另外，AMD XGP基于PCI SIG标准组织的“PCI-E外接线缆v1.0”规范，并加入了AMD自己的一些东西。本质上来说，它就是一个PCI-E 2.0规格外置显卡，因此任何支持PCI-E 2.0标准的设备都能使用它。

看起来，AMD要在Intel面前抢跑了。

ckf99111102

理论上可行,这个基本属于广告口水站形式

实际上问题很多的,多想想就知道了

FallInMatrix

楼上是说本文的观点呢，还是在说Hydra Engine呢。

		自动登录	找回密码
密码			注册

[显卡] 【原创】Lucid的HydraEngine的“超线性提升性能”的解读--让SLI和交火见鬼去吧

浏览过的版块