global memoryからshared memoryへの大量の読み込み

複数のthreadを利用して画像のような矩形領域をglobal memoryからshared memoryへ読み込む場合、しかも全てのthreadがint型で読んでも1回じゃ読み切れない場合にはint型で複数回読むのとuint4型で読むのとどちらが良い速いのか。(uint4でなら1回で読み込める場合)

普通にやるとint型で複数回読むのが速いようだ。
bandwidthもint型で読む方が高い傾向がある。
なので最初はint型で読むコードを組めば良いと思う。

ただ、場合によっては組み方を工夫すればuint4型で読むことでint型で読むよりも数倍速くなることもある・・と思っている。
とりあえず自分が組んだコードではintで読むよりかなり速い。
intの方が速い派の人達に逆転されたらこの主張は取り消す。