Ответ: Clear Engine (Понятный движок)
simd однозначно лучше на ассемблере. потому как компилятор далеко не всегда может сам распаралелить цикл или т. п. У себя в двиге кое-где заюзал, но пока очень мало - оптимизацию на потом оставил, так что точнее сказать не смогу, но теоретически на x64 где 16 xmm регистров можно соответственно добиться ускорения в 8 раз. avx еще больше.
На С++ интринсики работают чуть хуже.
Однако если у тебя с производительностью все нормально то от ассемблера стоит воздержаться.
|