2009-11-27から1日間の記事一覧

global memoryからshared memoryへの大量の読み込み

複数のthreadを利用して画像のような矩形領域をglobal memoryからshared memoryへ読み込む場合、しかも全てのthreadがint型で読んでも1回じゃ読み切れない場合にはint型で複数回読むのとuint4型で読むのとどちらが良い速いのか。(uint4でなら1回で読み込…

CUDA Profileで値が0ばっかりで正しい値が取れていないときには

blockの数を増やしてみるとうまくいくことがあるらしい。

CUDAの初期化を速くする(ただし今が遅い場合に限る)

今日はCUDAについて、良い情報がいろいろ得られた。 しかし、どれも会社の別の人が編み出した事ばかりなのでどこまで書いて良いか微妙。 なので、ほどほどな感じで書く予定。CUDAのプログラムで初期化(最初に呼んだCUDA API)が1秒近くかかるのは改善可能。…