CUDA最適化実習(2)
2048 x 2048のCUDAを使った行列の転置も完成。
最適化していないCPUでの実行の10倍ぐらいは速くなった。
この処理の場合はHostとDevice間の転送がボトルネックになってくるから、その部分をどうするかが鍵になるな。
と言っても、選択肢はそれ程ないけど。
2048 x 2048のCUDAを使った行列の転置も完成。
最適化していないCPUでの実行の10倍ぐらいは速くなった。
この処理の場合はHostとDevice間の転送がボトルネックになってくるから、その部分をどうするかが鍵になるな。
と言っても、選択肢はそれ程ないけど。