先ほどのコードをGeForce GTX 480上で実行したときの結果。ベクトルの要素数は10万で、warp単位で実行すると、スレッド(CUDAコア)単位で実行したときに比べて、10倍近くも高速化されている