GPU概述

GPU是异构、众核处理器，针对吞吐优化。

GPU架构是围绕一个流式多处理器(SM)的可拓展阵列搭建的。可以通过复制这种架构的构建块来实现GPU的硬件并行。

GPU中的每一个SM都能支持数百个进程并行执行，每个GPU通常有多个SM，所以在一个GPU上可以并行执行数千个进程。

当启动一个内核网格时，它的线程块被分布在了可用的SM上执行。线程块一旦被调度到一个SM上，其中的线程只会在那个指定的SM上并发执行。多个线程块可能会被分配到同一个SM上。同一线程中的指令利用指令级并行性进行流水线化。

Fermi架构

以NVIDIA GeForce GTX 480为例：

相比Fermi架构更复杂，但基本概念相似。

值得注意的是_global__的返回值必须是void。

这是数据并行处理函数。通过调用kernel函数在设备端创建轻量级线程。线程由硬件负责创建并调度。

gpu内存访问关系见上。

cudaMalloc()分配的是global memory。

线程同步只发生在线程块内，全局的线程没有同步机制。

线程块内的所有线程同步。可以保证数据的一致性。

调用__syncthread()创建一个同步点，每个线程块内的所有线程都执行到同步点之后才能够继续向下执行。

mds[i] = md[j];
__syncthread();
func(mds[i], mds[i+1]);

如在上例中，如果没有线程同步，可能会造成数据不可重复度。

可能造成死锁。如下例：

if(someFunc())
{
    __syncthread();
}
else
{
    __syncthread();
}