2009-11-29 CUDA最適化実習 CUDA いろいろあって、次の3つの関数をCUDAで最適化しないといけない。 512x512の大きさの正方行列同士の乗算 2048x2048の正方行列の転置 128k個のfloatの値の総和 とりあえず乗算は終わった。 時間は毎回のぶれが大きいが速いときは3msぐらい。 最適化せずにcpuでやると300msとか掛かっていたからまあまあかな。