2009-11-29から1日間の記事一覧

CUDA最適化実習(2)

2048 x 2048のCUDAを使った行列の転置も完成。 最適化していないCPUでの実行の10倍ぐらいは速くなった。この処理の場合はHostとDevice間の転送がボトルネックになってくるから、その部分をどうするかが鍵になるな。 と言っても、選択肢はそれ程ないけど。

CUDA最適化実習

いろいろあって、次の3つの関数をCUDAで最適化しないといけない。 512x512の大きさの正方行列同士の乗算 2048x2048の正方行列の転置 128k個のfloatの値の総和 とりあえず乗算は終わった。 時間は毎回のぶれが大きいが速いときは3msぐらい。 最適化せずにcpu…

本購入

昔からずっとMakefileの文法をちゃんと覚えたいと思っていつかは本を買おうと思っていたが、思い切って買ってみた。make 改訂版 (A nutshell handbook)作者: Andrew Oram,Steve Talbott,矢吹道郎,菊池彰出版社/メーカー: オライリー・ジャパン発売日: 1997/0…