Flops

Инфраструктура проекта Aurora

Конструкция суперкомпьютера Aurora базируется на базе двух сотен унифицированных кластерных систем Cray Shasta, объединенных межузловой шиной (интерконнектом) Cray Slingshot и программным стеком Shasta.


Инфраструктура суперкомпьютера Aurora

Каждая система Shasta базируется на процессорах Intel Xeon Scalable нового поколения, вычислительной архитектуре Intel Xe, энергонезависимой памяти Intel Optane Datacenter Persistent Memory нового поколения, с использованием программного стека Intel One API.

Как отмечают в Cray, сочетание программных компонентов Intel и системного ПО Cray для систем Shasta обеспечит модульность суперкомпьютера Aurora и удобства по дальнейшему наращиванию его системных ресурсов в любое время. Унифицированные вычислительные стойки Shasta с интерконнектом Slingshot в сочетании с единой инфраструктурой управления и разработки приложений позволят, по задумке разработчиков, оптимизировать рабочие нагрузки суперкомпьютера и сэкономить время ученых и других пользователей.

Выручка Cray по этому контракту, оцениваемая более чем в $100 млн, станет одной из крупнейших в истории компании. Создание суперкомпьютера Aurora станет вторым крупным внедрением систем Shasta за последние полгода. Первым стал контракт на $146 млн по строительству системы Perlmutter для Федерального научного энергетического вычислительного центра США (National Energy Research Scientific Computing Center, NERSC) в Беркли, Калифорния.

Определение и составляющие

Производительность видеокарты – это важный аспект, влияющий на качество работы самого адаптера и компьютера в целом (скорость воспроизведения видео, полноту, яркость и объёмность выводимых на экран картинок, быструю и корректную работу игр), а потому поговорим о том, как и по каким характеристикам можно узнать её величину.

Терафлопс

Современные видеокарты, наконец, доросли до того, что их производительность начали измерять в терафлопсах. Терафлопс – величина, равная триллиону (двенадцать нулей после единицы) операций за секунду. Первопроходцем и покорительницей данной вершины стала видеоплата ATI Radeon HD 4850, её мощность на момент производства (лет десять назад) составляла 1 Teraflops. По итогам 2017 года лидирующие позиции по данному показателю заняла модель Nvidia Titan Xp — 12.15 TFLOPS.

Графический процессор

Начнём с графического процессора, вернее, с тактовой частоты его работы. От этой величины зависит быстродействие карты — чем выше количество мегагерц (МГЦ), тем больше процессор выполняет необходимых операций за отведённое время.  Нельзя руководствоваться только этим критерием, необходимо смотреть на совокупность показателей.

Видеопамять

Важным аспектом являются характеристики видеопамяти адаптера, установленной на нём в виде отдельного чипа. Стоит учесть такие показатели — тип (стандарты GDDR3, GDDR5), частота и объём (чем больше, тем круче) и разрядность / ширина шины (до 256 бит считаются слабыми, рекомендуется брать выше).

Другие факторы

Обязательно следует учесть следующие факторы:

  • Должна быть хорошая система охлаждения (минимум один вентилятор, а не радиатор).
  • По размеру карта должна подходить к системному блоку, иначе её невозможно будет установить.
  • Стоит учесть и требования к блоку питания — мощные модели потребляют больше энергии и стандартного блока недостаточно.
  • Соединение двух менее производительных карт даёт супер мощность и неплохую экономию.

Тестирование

При покупке любого подключаемого оборудования, влияющего на работу ПК, настоятельно рекомендуется его тестировать при первой же возможности. В местах продаж это сделать практически невозможно, а по приходу домой необходимо провести тестирование приобретённого продукта всеми доступными средствами, дабы не выкинуть деньги на ветер.

Утилиты


Остановимся на том, как и с помощью каких утилит можно узнать производительность видеокарты на компьютерах с операционной системой Windows 10, 8, 7 и более ранних версиях

В принципе, практически все утилиты универсальны и сгодятся для любых версий «Виндовс», а где будет проводиться тестирование – на стационарном компьютере или ноутбуке — не важно. Вот список самых популярных и надёжных программ, качественно проверяющих видеоплаты, предоставляющих достоверные результаты и проверенных мною лично:

  • FurMark.
  • OCCT.
  • 3DMARK.
  • Aida64 (Everest).
  • GPU Z.
  • ATITool.
  • Video Card Stability Test.

В основном все они распространяются бесплатно и действуют по принципу экстремальной стрессовой нагрузки оборудования и сбору данных о его работе — показателя FPS (количество кадров в секунду), максимальной температуры нагрева (не должна превышать 85 градусов по Цельсию), наличия ошибок (пятен, полос, зависаний)…

Игры

Вышеперечисленные показатели важны в основном для геймеров, так как влияют на функционирование игр. Протестировать процессор и видеокарту, дабы узнать их производительность можно прямо во время игры, не отрываясь от игрового процесса, как это сделать сейчас расскажу. Требуется лишь установить небольшую специальную программку — MSI Afterburner, настроить параметры тестирования, включить отображение результатов тестов в игре и начать играть. MSI Afterburner проведёт анализ и расскажет о параметрах:

  • Температуры процессоров (графического и центрального) и их уровень загрузки.
  • FPS – показатель частоты кадров видеоплаты и скорость вращения её кулера.
  • Разные частоты, напряжения, информацию о файлах подкачки и многое другое.

Эта замечательная утилита поможет не только посмотреть производительность процессора и адаптера, но и с лёгкостью справится с такими задачами, как разгон видеокарты, запись видеороликов игрового процесса и захват скриншотов.

Онлайн

Если не хочется устанавливать на комп лишнее ПО из-за веских причин, таких как недостаток места или боязнь нахватать вирусов при скачивании, то узнать производительность видеокарты можно и в режиме онлайн. В основном это применяется для проверки, тянет ли «видюха» какую-то конкретную игру. Это доступно на сайтах производителей видеокарт, таких как NVIDIA, но посмотреть показатели производительности не получится. Система сайта протестирует видеооборудование, установленное на ПК, касательно заданной игры и выдаст лишь результат совместимости.

Первый американский «экзафлопс»

США официально включились в мировую гонку по запуску первого в мире суперкомпьютера с производительностью более 1 экзафлопс. Представители Министерства энергетики США (U.S. Department of Energy), которое выступает заказчиком, официально подтвердили, что создаваемый компаниями Intel и Cray суперкомпьютер Aurora, способный «обеспечить устойчивую производительность порядка одного экзафлопса», будет запущен в строй в Аргоннской национальной лаборатории (Argonne National Laboratory) ближе к концу 2021 г.

Производительность системы Aurora в один экзафлопс, соответствующая выполнению 1018 (квинтиллион, или миллион триллионов) операций с плавающей запятой в секунду, планируется обеспечить с помощью новой секретной архитектуры Intel Xe (в маркетинговых целях пишется как Xe — «икс в степени экспоненты») следующего поколения, о которой до сих пор известно очень мало.

Впервые завеса секретности над проектом Intel Xe была в самых общих чертах приоткрыта в рамках суперкомпьютерной конференции SC18 в конце прошлого года. Первые подробности были озвучены 15 марта на специальном закрытом брифинге Intel для профильных специалистов.

Intel построит суперкомпьютер Aurora для Минэнергии США

Финальная версия контракта на создание суперкомпьютера Aurora (в ранних описаниях контракта проект фигурировал под названием CORAL) подразумевает инвестиции в сумме более $500 млн. Несмотря на ряд изменений в контракте, компания Intel по-прежнему фигурирует в качестве основного подрядчика, компания Cray заявлена субподрядчиком проекта.

Чем будет заниматься Aurora

По словам представителей партнеров проекта — Минэнергетики США, Аргоннской лаборатории, Intel и Cray, суть проекта не только в достижении «горизонта экзаскейла», основная роль проекта Aurora – в ускорении сближения высокопроизводительных вычислений с традиционными методиками моделирования с применением анализа данных и искусственного интеллекта.

По словам Рика Стивенса (Rick Stevens), замдиректора Арагоннской лаборатории по вычислениям и компьютерным наукам, Aurora будет «эксклюзивно сконфигурирована» в качестве лучшей платформы для глубокого машинного обучения.


Комментируя огромный скачок, который придется совершить в приросте Aurora (более экзафлопа, или более 1000 петафлопс) по сравнению с самой мощной на сегодня системой Summit (порядка 150 петафлопс) всего за три года, Рик Стивенс отметил: «Исследования и разработки для достижения «экзаскейла» велись более десятилетия… да, система появится только через три года, но за это время потребуется сделать рывок с ускорением для создания архитектуры и ПО под такую производительность».

По словам Рика Стивенса, вычислительные возможности нового суперкомпьютера в сочетании с технологиями аналитики данных позволят Аргоннской лаборатории расширить сотрудничество с Национальным институтом исследований и предотвращения рака (National Institute of Cancer Prevention and Research) и Администрацией по делам ветеранов. В рамках этих исследований, в частности, предполагается использовать машинное обучение и анализ больших данных для оценки риск-факторов и разработки стратегий в случаях суицидальных наклонностей у пациентов, для глубокого изучения природы сердечных приступов и последствий черепно-мозговых травм.

Со стороны Минэнергетики США предполагается расширение программ по материаловедению, в том числе, в плане разработки материалов для улучшенных электрических батарей, более эффективных фотогальванических элементов для солнечной энергетики, новых материалов для ветроэнергетических установок и ядерных реакторов. В списке проектов также числятся расширенные исследования в области угрозы землетрясений, улучшения эффективности турбин, предсказания погоды и т.д.

Перспективы «экзаскейла» в мире

В прошлом году Министерство энергетики США уже получило в свое распоряжение два суперкомпьютера, с ходу занявших первую и вторую строчки в мировом рейтинге суперкомпьютеров Top500.

Занявшая первую строчку система Summit на базе модулей IBM Power System AC922 с процессорами IBM POWER9 22C 3,07 ГГц и графическими ускорителями NVIDIA Volta GV100, установленная в национальной лаборатории Oak Ridge, показала производительность на уровне 143,5 петафлопс (пиковая 200,8 петафлопс). На второй строчке расположилась система Sierra Ливерморской лаборатории на базе систем IBM Power System S922LC с процессорами IBM POWER9 22C 3,1GHz и графическими ускорителями NVIDIA Volta GV100, обеспечившая производительность 94,6 петафлопс (на пике до 125,7 петафлопс).

С запуском систем Summit и Sierra США вернули себе лидерство в Top500, уступленное несколько лет назад китайским суперкомпьютерам Sunway TaihuLight и Tianhe-2A.

Китай также не теряет время даром: еще в начале 2017 г. КНР сообщила о начале разработки суперкомпьютера с производительностью в один экзафлопс, с запуском системы в работу уже в 2020 г.

По заявлению разработчиков, новый суперкомпьютер Tianhe-3 будет полностью изготовлен в КНР «от процессоров до операционной системы». Система, как сообщалось, будет доступна «для публичного использования», помогая в решении научных вопросов и «закрепляя за Китаем звание мирового лидера в сфере компьютерного оборудования». В частности, планируется его использование для анализа последовательностей генов и белковых структур, что может в итоге привести к открытию новых лекарств. Экономическая выгода Китаю от работы суперкомпьютера предположительно составит 10 млрд юаней ($1,49 млрд).

Летом 2016 г. планы по созданию компьютера мощностью в один экзафлопс также объявила японская Fujitsu. Ожидается, что машина будет создана на базе архитектуры ARM.

О намерении создать экзафлопсную систему также ранее заявляли в американской корпорации Intel и саровском ядерном центре (РФЯЦ-ВНИИЭФ), Россия.

  • Короткая ссылка
  • Распечатать

Архитектура Xe: «будет круто», но пока все расплывчато

Изначально, в момент анонса архитектуры Xe на форуме SC18, ряд сетевых обозревателей поспешили окрестить ее как «новый бренд графических ускорителей Intel». Рассказывая на закрытом брифинге об архитектуре Xe, Раджиб Хазра (Rajeeb Hazra), вице-президент Intel и глава подразделений Data Center Group и Enterprise and Government Group, так и не представил никаких технических подробностей о проекте. Ни слова о строении архитектуры или о роли, занимаемой в ней графическими ускорителями Intel, отмечают обозреватели HPCwire.

Слайд, показанный на презентации Intel в рамках SC18

Использование новой архитектуры в рамках проекта Aurora представители Intel описали как «новые техпроцессы, разработка эффективного кремния и, что наиболее важно, новые способы… упаковки кремния»

«Шесть столпов» Intel для достижения «экзаскейла»


Как было отмечено в рамках презентации проекта, «Xe представляет огромный объем научно-исследовательских работ и инноваций для соответствия современным рабочим нагрузкам, в частности, возникающим на стыке задач HPC, искусственного интеллекта и аналитики данных».

Тем не менее, Крис Хук (Chris Hook), отвечающий за маркетинг в подразделении Intel по разработке графических систем, внес уточнение, пояснив, что Xe представляет собой «переход Intel от экономичной графической архитектуры Gen к полностью масштабируемой графической архитектуре Xe».

«Переход Intel от архитектуры Gen к архитектуре Xe»

«Это не название бренда вроде Radeon или GeForce», отметил Крис Хук на своей странице в Twitter. Сегодня, упомянув официальный запуск проекта суперкомпьютера Aurora, Крис Хук также написал «наш первый заказчик Xe!».

Страница Криса Хука в Twitter

Таким образом, архитектура Xe вне всяких сомнений имеет прямое отношение к графическим ускорителям Intel нового поколения. Вопрос лишь в том, что архитектура этих ускорителей до сих пор остается закрытой для широкой публики.

Как ранее рассказали в Intel, графические решения на базе архитектуры Xe будут развиваться двумя самостоятельными архитектурными потоками – в виде дискретных и интегрированных решений для рынка бытовых систем, и в виде дискретных карт для ЦОДов и HPC. Появление графики нового поколения было обещано Intel ближе к 2020 г., по мере освоения техпроцесса 10 нм.

Согласно официальным заявлениям Intel, графические решения на базе архитектуры Xe будут обеспечивать производительность «от терафлопсов до петафлопсов». Тем не менее, число таких решений на архитектуре Xe в составе суперкомпьютера Aurora пока не оценено даже приблизительно.

Полезная информация и советы

Друзья, ловите несколько полезных советов по выбору видеооборудования.

Игры

При покупке новой или дополнительной видеокарты непосредственно для поднятия уровня графики в играх, нужно учесть параметры, влияющие на её производительность:

  • FPS – для средних игр данный показатель должен быть не менее 30, но лучше, если значение перевалит за 60 кадров в секунду.
  • Объём памяти – минимум 1 гигабайт.
  • Ширина шины – от 256 бит.
  • Остальные показатели по принципу «чем больше, тем лучше».

Майнинг

Не менее важна производительность видеокарты, приобретаемой для майнинга. В этом случае рекомендуемые параметры такие:

  • Объём памяти – от 2 (лучше 4-8) гигабайт.
  • Тип памяти – стандарт GDDR5.
  • Разрядность шины – от 256 бит.
  • Должна присутствовать хорошая система охлаждения — ожидается длительный непрерывный перегруз видеооборудования.
  • Остальные параметры по тому же принципу, что и для игр.

Для вышеописанных целей я рекомендую выбирать следующие «видюхи» — AMD Radeon RX 470 / 480 / 580 или Nvidia Geforce GTX 1060 / 1070 / 1080.

FLOPs by microarchitecture[edit]

x86edit

Microarchitecture FLOPs ISA
Intel Microarchitectures
CorePenrynNehalem EUs 1 × 128-bit Multiplication + 1 × 128-bit Addition SSE (128-bit)
DP 4 FLOPs/cycle 2 FLOPs + 2 FLOPs
SP 8 FLOPs/cycle 4 FLOPs + 4 FLOPs
Sandy BridgeIvy Bridge EUs 1 × 256-bit Multiplication + 1 × 256-bit Addition AVX (256-bit)
DP 8 FLOPs/cycle 4 FLOPs + 4 FLOPs
SP 16 FLOPs/cycle 8 FLOPs + 8 FLOPs
HaswellBroadwellSkylakeKaby LakeAmber LakeCoffee LakeWhiskey Lake EUs 2 × 256-bit FMA AVX2 & FMA (256-bit)
DP 16 FLOPs/cycle 2 × 8 FLOPs
SP 32 FLOPs/cycle 2 × 16 FLOPs
Skylake (server) EUs 2 × 512-bit FMA (varies by SKU) AVX-512 & FMA (512-bit)
DP 32 FLOPs/cycle 2 × 16 FLOPs
SP 64 FLOPs/cycle 2 × 32 FLOPs
Intel MIC Microarchitectures
Knights Landing EUs 2 × 512-bit FMA (varies by SKU) AVX-512 & FMA (512-bit)
DP 32 FLOPs/cycle 2 × 16 FLOPs
SP 64 FLOPs/cycle 2 × 32 FLOPs
AMD Microarchitectures
K10 EUs 1 × 128-bit Multiplication + 1 × 128-bit Addition SSE (128-bit)
DP 4 FLOPs/cycle 2 FLOPs + 2 FLOPs
SP 8 FLOPs/cycle 4 FLOPs + 4 FLOPs
BulldozerPiledriverSteamrollerExcavator EUs 2 × 128-bit FMA (per two cores) AVX & FMA (128-bit)
DP 8 FLOPs/cycle 2 x 4 FLOPs
SP 16 FLOPs/cycle 2 x 8 FLOPs
ZenZen+ EUs 2 × 128-bit FMA AVX2 & FMA (256-bit)
DP 8 FLOPs/cycle 2 x 4 FLOPs
SP 16 FLOPs/cycle 2 x 8 FLOPs
Zen 2 EUs 2 × 256-bit FMA AVX2 & FMA (256-bit)
DP 16 FLOPs/cycle 2 x 8 FLOPs
SP 32 FLOPs/cycle 2 x 16 FLOPs
Centaur Microarchitectures
CHA EUs 2 × 256-bit FMA AVX-512 & FMA (512-bit)
DP 16 FLOPs/cycle 2 x 8 FLOPs
SP 32 FLOPs/cycle 2 x 16 FLOPs

ARMedit

Microarchitecture FLOPs ISA
ARM Microarchitectures
Cortex-A57 EUs 1 × 128-bit FMA ARMv8 (128-bit)
DP 4 FLOPs/cycle 4 FLOPs
SP 8 FLOPs/cycle 8 FLOPs
Cortex-A76 EUs 2 × 128-bit FMA ARMv8 (128-bit)
DP 8 FLOPs/cycle 2 x 4 FLOPs
SP 16 FLOPs/cycle 2 x 8 FLOPs
AppliedMicro/Ampere Computing Microarchitectures
StormShadowcatSkylark EUs 1 × 64-bit FMA ARMv8 (128-bit)
DP 2 FLOPs/cycle 2 FLOPs
SP 4 FLOPs/cycle 4 FLOPs
Cavium Microarchitectures
Vulcan EUs 2 × 128-bit FMA ARMv8 (128-bit)
DP 8 FLOPs/cycle 2 x 4 FLOPs
SP 16 FLOPs/cycle 2 x 8 FLOPs
Samsung Microarchitectures
M1M2 EUs 1 × 128-bit FMA + 1 × 128-bit Addition ARMv8 (128-bit)
DP 6 FLOPs/cycle 1 x 4 FLOPs + 1 x 2 FLOPs
SP 12 FLOPs/cycle 1 x 8 FLOPs + 1 x 4 FLOPs
M3 EUs 3 × 128-bit FMA ARMv8 (128-bit)
DP 12 FLOPs/cycle 3 x 4 FLOPs
SP 24 FLOPs/cycle 3 x 8 FLOPs
Phytium Microarchitectures
Xiaomi EUs 1 × 128-bit FMA ARMv8 (128-bit)
DP 4 FLOPs/cycle 1 x 4 FLOPs
SP 8 FLOPs/cycle 1 x 8 FLOPs
HiSilicon Microarchitectures
TaiShan v110 EUs 1 × 128-bit FMA ARMv8 (128-bit)
DP 4 FLOPs/cycle 1 x 4 FLOPs
SP 8 FLOPs/cycle 1 x 8 FLOPs

Примечания

  1. . Oak Ridge National Laboratory (8 мая 2019). Дата обращения 8 мая 2019.
  2. . The Next Platform (8 декабря 2016). Дата обращения 13 декабря 2016.
  3. ↑ .
  4.  (недоступная ссылка). Дата обращения 17 августа 2009. these are single precision GPU peak numbers
  5.  (недоступная ссылка). Дата обращения 17 августа 2009. HPL is a software package that solves a dense linear system in double precision (64 bits)
  6. Jack Dongarra.  (англ.). Argonne Training Program on Extreme-scale Computing. Argonne National Laboratory (13 August 2014). Дата обращения 13 апреля 2015.
  7. . SberCloud. Дата обращения 27 декабря 2019.
  8. . РИА Новости (20191108T1123+0300Z). Дата обращения 8 ноября 2019.
  9. . РИА Новости (23 февраля 2012). Дата обращения 24 февраля 2012.
  10. Производительность вычислений одинарной точности у большинства процессоров ровно в 2 раза выше указанных значений.
  11. Ryan Crierie.  (англ.). Alternate Wars (13 March 2014). Дата обращения 23 января 2015.
  12. Jack J. Dongarra.  (англ.) (15 June 2014). Дата обращения 23 января 2015.
  13. . МЦСТ.
  14. . АО «МЦСТ».
  15. По шесть 64 разрядных FMAC блоков в каждом ядре: 8х1.3х6х2 = 124.8 ГФлоп/с пиковой производительности при вычислениях двойной точности
  16. По два 128 разрядных FMAC блока в каждом модуле, объединяющем пару ядер, работающих на частоте 4 ГГц: 4х4х2х2х128/64 = 128 ГФлоп/с пиковой производительности при вычислениях двойной точности
  17. Alex Voica.  (англ.) (недоступная ссылка) (3 September 2015). Дата обращения 4 февраля 2017.
  18. По два 128 разрядных FMAC блока в каждом ядре: 8х3.4х2х2х128/64 = 217.6 ГФлоп/с пиковой производительности при вычислениях двойной точности
  19. . АО «МЦСТ».
  20. .
  21. По шесть 128 разрядных FMAC блоков в каждом ядре: 8х1.5х6х2х128/64 = 288 ГФлопс пиковой производительности при вычислениях двойной точности
  22. По два 256 разрядных FMAC блока в каждом ядре: 8х3.6х2х2х256/64 = 460 ГФлоп/с
  23. По два 256 разрядных FMAC блока в каждом ядре: 8х3.6х2х2х256/64 = 460 ГФлоп/с
  24. По два 256 разрядных FMAC блока в каждом ядре: 16х3.5х2х2х256/64 = 896 ГФлоп/с
  25. Указанное количество инструкций за такт способны исполнять только старшие представители этих архитектур, продающиеся под маркетинговыми наименованиями Xeon Platinum и Xeon Gold начиная с серии 6ххх, которые имеют по два 512 разрядных FMAC блока в каждом ядре для выполнения AVX-512 инструкций. У всех младших моделей: Xeon Bronze, Xeon Silver и Xeon Gold 5ххх один из FMAC блоков отключен и поэтому максимальный темп исполнения инструкций с плавающей точкой снижен в 2 раза.
  26. Блок обработки операций с плавающей запятой (FPU) является общим на модуль — пару ядер процессора. При одновременном исполнении плавающих операций на обоих ядрах он разделяется между ними.
  27. Данная микроархитектура относится к классу VLIW и имеет 6 параллельных каналов исполнения инструкций, 4 из которых оснащены 64 разрядными блоками вычислений с плавающей точкой типа FMAC.
  28. В 4 м поколении архитектуры 64 разрядные FMAC блоки имеются уже на всех 6 каналах исполнения инструкций.
  29. В 5 м поколении архитектуры разрядность всех FMAC блоков была увеличена с 64 до 128.
  30. Сергей Уваров. . IXBT.com (23 сентября 2013).
  31. . IBM developerWorks (29 ноября 2005). Дата обращения 6 апреля 2006.
  32. . University of Tennessee (31 июля 2005). Дата обращения 11 февраля 2011.
  33. Anand Lal Shimpi.  (англ.). Anandtech (англ.) (22 May 2013).
  34. . Playstation. Дата обращения 14 декабря 2018.
  35. . РИА Новости (20200318T2333+0300). Дата обращения 20 марта 2020.
  36.  (англ.). Xbox Wire (24 February 2020). Дата обращения 24 февраля 2020.

Overview[edit]

FLOPS are a measure of performance used for comparing the peak theoretical performance of a core, microprocessor, or system using floating point operations. This unit is often used in the field of high-performance computing (e.g., supercomputers) in order to evaluate the peak theoretical performance of various scientific workloads. Traditionally, the FLOPS of a microprocessor could be calculated using the following equation:

EquationFLOPS Subscript core Baseline equals StartFraction FLOPs Over cycle EndFraction times StartFraction cycles Over second EndFraction

With the advent of multi-socket and multi-core architectures, additional levels of explicit parallelism have been introduced resulting in the following modified equation:

EquationFLOPS Subscript node Baseline equals StartFraction FLOPs Over cycle EndFraction times StartFraction cycles Over second EndFraction times StartFraction cores Over node EndFraction

and,

EquationFLOPS Subscript system Baseline equals StartFraction FLOPs Over cycle EndFraction times StartFraction cycles Over second EndFraction times StartFraction cores Over node EndFraction times StartFraction nodes Over system EndFraction

Modern microprocessors exploit data parallelism further through the introduction of various vector extensions such as x86’s AVX and ARM’s SVE. With those extensions, it’s possible to perform multiple floating-point operations within a single instruction. For example, a typical fused multiply-accumulate (FMAC) operation can perform two floating-point operations at once. For a single core, this can be expressed as

EquationFLOPS Subscript core Baseline equals StartFraction instructions Over cycle EndFraction times StartFraction operations Over instruction EndFraction times StartFraction FLOPs Over operation EndFraction times StartFraction cycles Over second EndFraction

And for a full system, this can be extended to:

EquationFLOPS Subscript system Baseline equals StartFraction instructions Over cycle EndFraction times StartFraction operations Over instruction EndFraction times StartFraction FLOPs Over operation EndFraction times StartFraction cycles Over second EndFraction times StartFraction cores Over node EndFraction times StartFraction nodes Over system EndFraction

Nomenclatureedit

  • KiloFLOPS / KFLOPS: 103 FLOPS
  • MegaFLOPS / MFLOPS: 106 FLOPS
  • GigaFLOPS / GFLOPS: 109 FLOPS
  • TeraFLOPS / TFLOPS: 1012 FLOPS
  • PetaFLOPS / PFLOPS: 1015 FLOPS
  • ExaFLOPS / EFLOPS: 1018 FLOPS
  • ZettaFLOPS / ZFLOPS: 1021 FLOPS
  • YottaFLOPS / YFLOPS: 1024 FLOPS

С этим читают