CUDA最適化実習

いろいろあって、次の3つの関数をCUDAで最適化しないといけない。

  • 512x512の大きさの正方行列同士の乗算
  • 2048x2048の正方行列の転置
  • 128k個のfloatの値の総和

とりあえず乗算は終わった。
時間は毎回のぶれが大きいが速いときは3msぐらい。
最適化せずにcpuでやると300msとか掛かっていたからまあまあかな。