##1 由“OpenCL是什么?”想到的……
“OpenCL到底是什么?”。在执笔《日经电子》2008年12月15日号刊登的报道“苹果主导下的‘OpenCL’,为处理器带来自由”期间,同事及上司多次这样询问笔者。虽然笔者自以为随着对OpenCL采访的不断深入,已理解了其内含及意义,但却难以满意地回答这种问题。
万般无奈之下,笔者在报道中这样写道,“简而言之,OpenCL是在异构(Heterogeneous)多处理器平台上将硬件差异抽象化的技术”。对各位读者来说,也许这种表达方式很难理解。惭愧的是,目前还没办法用一句话回答“OpenCL到底是什么?”。笔者在与致力于推进OpenCL标准化的Khronos Group的总裁Neil Trevett见面谈及此事,他苦笑道:“业界人士能马上理解OpenCL的概况及其必要性。但是,要简洁地传达给业界以外的人却很难。我们也为此而头痛”。
既然OpenCL难以简单进行描述,为什么笔者还要予以关注,笔者想借此机会略作介绍。
假设在数字化民用产品上运行的应用软件的开发者,需要根据事先确定的系统结构编写程序。例如,在“该产品上配备A公司的CPU及B公司的DSP”的前提条件下,需要编写A公司的CPU用程序、以及B公司的DSP用程序。还需要规定CPU与DSP之间的通信步骤。
CPU、GPU及DSP等处理器有各自的长处和短处,并具有根据处理器厂商的不同、适合执行某种处理的特点。在上述例子中,本来也许C公司的DSP更适合,或者将部分处理工作交给D公司的GPU,从执行速度及耗电量等方面来看更恰当。但是,改变处理器的种类并非易事。由于根据处理器的厂商及种类不同,程序编写的方法也不同,因此,如果不大幅改写程序,就不能在其他的系统结构下工作。也就是说,不仅是改用不同的处理器很难,确定哪种结构为最佳也很难。按照已确定的系统构造编写程序,就意味着剥夺了选择处理器的自由。
可将软件开发者制作的程序拿到许多厂商推荐的多种处理器上试用,并自由地选择处理器的组合。OpenCL的目的就是提供这样的平台。OpenCL规定了无需修改已制作完成的程序,即可在配备与原系统不同种类处理器的系统上执行的标准API。
参与OpenCL制定工作的某半导体厂商技术人员对笔者表示,明确区分软件开发者与半导体厂商职责范围的分界线就是OpenCL。当时,正值笔者产生了“即使造成此前拥有的客户流失也在所不惜?”的疑问。他的回答是这样的。“这才是健康的竞争环境。在这种竞争环境中,(厂商)会为了得到客户的认可而全力以赴。在半导体产品上精益求精,是我们的天职”。有了OpenCL这种API的分隔,软件开发者及设备厂商将可获得处理器选择的自由,而半导体厂商则可获得处理器开发的自由。
顺便提一下,Khronos Group的Trevett是已开始在手机等领域得到广泛应用的图形处理API“OpenGL ES”的提案人。他表示,“虽然如今OpenGL ES被广泛采用,但从制定性能指标到普及为止花费了4年的时间”。由于性能指标制定后经过了2年半导体才面世,因此OpenGL ES的价值未能得到充分的认识。
Trevett预计,与OpenGL ES面世时不同,OpenCL将会及早得到普及。“再过2个月适用性试验就将开始,预计各公司的处理器也将迅速提供支持。苹果已向我们表示,将在新一代操作系统中提供技术支持。虽然也许难以用语言描述OpenCL,只要能看到实际运行的情形,大家肯定会马上认识到它的价值”(Trevett)。真可谓“百闻不如一见”。
## 2 Altera的野望
在这一主软件例程执行期间的某一点,某一功能有可能需要很大的计算量,这就可以利用并行器件的高度并行加速功能,例如CPU、GPU、FPGA等器件。要加速的功能被称为OpenCL内核。采用标准C编写这些内核。下图中的例子对两个数组a和b进行矢量加法,将结果写回输出数组中。矢量的每一元素都采用了并行线程,当采用像FPGA这类具有大量精细粒度并行单元的器件进行加速时,能够很快的计算出结果。主程序使用标准OpenCL应用程序接口(API),支持将数据传送至FPGA,调用FPGA内核,传回得到的数据。
CPU与GPU的并行性来自于把并行线程在不同的内核中执行,而FPGA是把内核内核功能传送到专用深度流水线硬件电路中,使用流水线并行处理概念,而本质上就是多线程的。这些流水线的每一条都可以复制多次,与一条流水线相比,提供更强的并行处理功能。如图示,可以通过级联功能单元实现矢量加法内核,在OpenCL描述中实现每一操作,进行复制以满足实际应用的吞吐量和延时要求。虽然所显示的只是一个简单表征,但每个功能单元都可以是深度流水线,以保证最终电路的工作频率足够高。此外,编译器可以建立电路来管理与外部系统的通信。
文章评论(0条评论)
登录后参与讨论