Предположим, что запуск вершинного шейдера составляет 100 флопов, тогда это означает, что вы можете обрабатывать 1000e9 / 100 = 10e9 вершин в секунду.
Нет, это, безусловно, нет.
По сути, вы должны рассматривать любые вычисления скорости выполнения любого кода, основанные исключительно на числе «FLOPS», как подозрительные. В самом деле, лучше всего, если вы полностью игнорируете FLOPS.
Вы не определили термин «параллельная единица»; без этого определения мы могли бы только догадываться о том, что вы хотите.
Возьмите Radeon 5870. У него 1600 единиц с плавающей запятой. Это означает, что для каждого цикла он может выполнять одновременно 1600 скалярных операций с плавающей точкой. Однако каждый код операции VLIW работает с 5-сторонними векторными математическими регистрами. Таким образом, наименьшая возможная степень детализации реального кода составляет 1600/5 или 320 (примечание: это огромное упрощение). Это 320 потоков.
Однако это не совсем так. У вас нет 320 отдельных путей исполнения. Вы не можете иметь 320 различных частей кода, выполняющихся на 320 различных модулях. Видите, 5-сторонние VLIW сами сгруппированы в 4-сторонние SIMD-ядра. Каждая SIMD может иметь свой собственный путь выполнения и собственный исходный код. Каждый VLIW в ядре SIMD может иметь отдельные данные, так что они вычисляют отдельные значения. Но каждый VLIW в ядре SIMD выполняет те же инструкции на шаге блокировки, что и другие VLIW в этом ядре.
Так что на самом деле у вас всего 320/4, или 80 общих потоков. Но опять же, это зависит от того, о каком «параллельном блоке» вы говорите. Технически, 1600, 320 и 80 - все законные ответы.
И это только для одной конкретной архитектуры. Линейка NVIDIA Fermi (GeForce 4xx и выше) использует совершенно другую архитектуру. Линия ATI Cayman (Radeon 69xx) изменяет VLIW с 5 путями на VLIW с 4 путями. Их следующая архитектура также может иметь некоторые существенные различия.
Не зная, что вы ищете, просто невозможно ответить на вопрос.