В описанных случаях соглашусь про нужность ручной оптимизации. Автоматическое SSE какое-то вялое и бесполезное, векторный код лучше явно прописывать. Данные раскладывать для наименьших миссов вообще главная задача оптимизации (
https://twitter.com/tom_forsyth/stat...10626462560256 )