CUDA実験

cudaMalloc()を一切使わないで、代わりに__device__変数を利用してみた。
結果としては、アプリケーション全体では大した差は出なかった。
もともとcudaMalloc()を一回しか呼ばないようにしてたしなぁ。

たくさんcudaMalloc()呼んでるプログラムなら、もう少し差が出るかもしれない。
コードは手元に資料がないので、覚えていたら週末にもう少し詳しく書く・・かも