たしかにビット毎に配列アクセスになるのはありますね、それだけだと遅いかも。 ただ4*4単位にしておけば、おそらく大半のアクセスを占めるであろう全ビット同じの処理を16or32ドット一括で処理できそうな気がします。他に問題点とかありそうですか?