CUDA

勉強会

明日の土曜は内輪でのCUDAの勉強会。 かなり長時間やるようだ。終わったら飲み会ぐらいあればいいのだが。そうそう。 CUDA compute capability 1.3では(Kernelのレジスタ数の4の倍数への切り上げ)x Block内のKernel数が16384を超えると正しく動作しない。 …

Fermiの設計思想

今回も後藤さんが詳しく纏めてくれている。【後藤弘茂のWeekly海外ニュース】NVIDIA Fermiのマルチスレッディングアーキテクチャ - PC WatchFermiはより汎用コンピューティング向けに進化している。そのためにNVIDIAが選んだのはメモリ階層を深くしてメモリ…

Occupancyの読み方

CUDA Profileを使うと次のようなログが取れるが、その中にoccupancyというのがある。 # CUDA_PROFILE_LOG_VERSION 1.4 # CUDA_DEVICE_NAME 0 GeForce GTX 280 timestamp,method,gputime,cputime,occupancy timestamp=[ 2155.302 ] method=[ _Z10fhaar1dwtdiP…

CUDA profileの読み方

さっそくCUDA profileを利用してみた。logファイルの中に以下のような関数ごとの時間が大量にでる。 timestamp=[ 2155.302 ] method=[ _func_name ] gputime=[ 7.808 ] cputime=[ 74.730 ] occupancy=[ 1.000 ] gputimeとcputimeの意味がいまひとつ分からず…

CUDAの復習とか

特に用事が無かったので一日引きこもってしまった。今日はNVIDIAのサイトにアップされた資料を使って、CUDAについての復習を行った。 座学のみだけど・・。CUDA Education & Training | NVIDIA Developer次の2つのpdfを直ぐには関係なさそうな箇所を飛ばし…