Предыдущие ответы на этот вопрос охватывали большинство существенных моментов, но я хочу добавить один комментарий по этому поводу:
MKL имеет преимущество для некоторых задач?
Команда MKL имеет уникальную возможность узнать о будущих наборах команд Intel и их реализации в конкретных процессорах. Кроме того, они имеют доступ к проприетарным имитаторам процессоров и опытному оборудованию, которое никто за пределами Intel не может использовать. Таким образом, MKL имеет преимущество в отношении степени знаний о будущих продуктах и когда они получают эти знания. Таким образом, не должно быть слишком удивительно, если они производят лучшие реализации BLAS, чем кто-либо еще, по крайней мере на ранних этапах жизненного цикла продукта с новыми функциями.
С другой стороны, Intel довольно открыто рассказала о наборе инструкций AVX-512 и предоставила эмулятор разработки программного обеспечения Intel® (SDE), который позволяет разработчикам эмулировать инструкции AVX-512 для процессоров, которые не поддерживают их изначально. По этой причине неудивительно, что высококачественные реализации BLAS с открытым исходным кодом доступны для процессоров Intel, которые поддерживают AVX-512 на ранних этапах существования этих продуктов.
Конечно, то, насколько важно иметь детальную информацию о конкретном процессоре по сравнению с основами алгоритмов плотной линейной алгебры, не полностью решено. Следующая цитата решает эту проблему лучше, чем я:
В теории нет разницы между теорией и практикой. Но на практике есть.
Полное раскрытие: я работаю на Intel.