(Оффтоп)
Скажем так: я лично видел, как мой товарищ переписал bottleneck на ассемблере, после чего производительность упала еще сильнее. Нынешние процессоры — такие капризные существа, с ихними конвейерами, тремя уровнями кэша, спекулятивным выполнением, предсказателем ветвлений и прочими наворотами.
А бывает с точностью до наоборот, когда компилятор не догадывается, что можно сделать иначе, и ускорение после вставки __asm получается до сотен процентов. Типичный пример такой задачи -
0004. Такого рода задачи, я считаю, без ассемблера вообще писать нельзя. Даже intrinsic не помогает. В нём, например, не поддерживается инструкция adc.