CUDA勉強会
内輪の勉強会に行ってきた。
10時から15時ぐらいまで。
残念ながら終わっても飲みは無かった。
とりあえず、今日の話を聞いて試してみようと思ったのは次の事。
- __device__をつけて変数を用意すればcudaMalloc()無しでdevice用のメモリが確保できるらしいので試してみる。
- __global__関数は関数ポインタを取れるとの事なので、templateで関数を複数生成したときに関数ポインタのテーブルを使ってみる。
- global memoryから複数のthreadを利用してshared memoryへデータを読み込むときにfloat2とかのvector型を利用して、float型で読み込むときとの速度を比べてみる。
その他、CUDAに直接は関係ないけど・・