Выпуск #6/2018
Ю. Митропольский
Концепция стратегического развития вычислительной техники
Концепция стратегического развития вычислительной техники
Просмотры: 3041
Анализируются исторические этапы и перспективы развития высокопроизводительных вычислительных систем, описываются концепции и системные решения для построения объединенной мультиархитектурной вычислительной суперсистемы, выделяются задачи и приоритетные направления разработок, направленные на развитие отечественных суперЭВМ и вычислительной техники в целом.
DOI: 10.22184/1992-4178.2018.177.6.100.112
УДК 004.382.2 | ВАК 05.13.15
DOI: 10.22184/1992-4178.2018.177.6.100.112
УДК 004.382.2 | ВАК 05.13.15
Теги: computer architecture exaflops systems heterogeneous computing supersystems multiarchitecture scalable processor scalar and vector computers supercomputers архитектура эвм масштабируемый процессор мультиархитектура неоднородные вычислительные суперсистемы системы с экзафлопсной производительностью скалярные и векторные эвм суперэвм
Возникает естественный вопрос: «Продолжать закупки вычислительной техники или возродить отечественную электронику и производство вычислительных машин?» Ответ на этот вопрос лежит в трех плоскостях. Во-первых, это вопрос обеспечения безопасности и суверенитета страны. Во-вторых, это экономический вопрос, поскольку импорт может быть выгоден лишь в течение короткого времени. Организация собственного производства в конечном счете приведет к снижению цен, а также обеспечит развитие экономики и занятость населения. В-третьих, это вопрос развития науки и повышения интеллектуального потенциала нации. Кроме того, следует подчеркнуть, что исследования и разработки в различных направлениях взаимосвязаны, и слабость одного направления неизбежно сказывается на других.[1]
В статье предлагается возможный подход к решению указанной проблемы. Необходимым условием преодоления отставания и зависимости от внешних факторов является комплексный подход создания отечественной технологии и электронного машиностроения, отечественной архитектуры процессоров и вычислительных систем и отечественного системного и прикладного программного обеспечения. Локальное импортозамещение в отношении ряда программных систем и их экспорт (оффшорное программирование) – это работа в интересах западных монополий, которая не сокращает нашу зависимость в области аппаратуры и системного программного обеспечения.
Автор в ряде статей в журнале «ЭЛЕКТРОНИКА: Наука, Технология, Бизнес» и в других публикациях уже поднимал указанную проблему [1–3].
В выступлении на круглом столе «Судьба электроники России», организованном редакцией журнала «ЭЛЕКТРОНИКА: Наука, Технология, Бизнес» в 2002 году [4], автор в заключение сказал: «Суперкомпьютеры могут быть катализатором развития микроэлектроники. Нужна серьезная государственная программа, ответственно выполняемая. Пример экономики США показывает – такую область отдать рынку невозможно. Нужно сосредоточить усилия на производстве СБИС для суперкомпьютеров. Нет необходимости выпускать их сотнями миллионов, как для массовой вычислительной техники. Но можно достичь высокого уровня технологии и использовать ее в массовом производстве. Поэтому задача на ближайшее время – создание суперкомпьютеров на отечественной элементной базе и подъем технологии на уровень, необходимый для такого производства. Тем более, что примеров, когда создание суперкомпьютеров стимулировало развитие электронных технологий, немало. А собственная элементная база в специальном оборудовании – это еще и вопрос национальной безопасности».
Далее приведен анализ развития высокопроизводительных систем, изложены основные концепции проекта объединенной мультиархитектурной вычислительной суперсистемы [5–10] и сформулированы предложения по стратегии развития рассматриваемой отрасли в нашей стране.
ИСТОРИЯ И ПЕРСПЕКТИВЫ РАЗВИТИЯ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ МАШИН
В истории развития высокопроизводительных вычислительных машин можно выделить следующие этапы.
Первый этап связан с созданием скалярных транзисторных систем, таких как CDC 6600 [11], CDC 7600 [12], IBM Stretch [13], БЭСМ‑6 [14]. Главным аспектом при разработке этих систем было решение инженерных и технологических проблем с целью обеспечения высокой производительности и эффективности. На этом этапе повышение производительности обеспечивалось использованием самых высокочастотных логических схем и оригинальных конструктивных решений с целью сокращения длин линий связи между схемами, компенсации сравнительно низкой скорости памяти, а также усилиями программистов, которые знали и учитывали особенности аппаратных средств. В рамках этого этапа велись и разработки машин широкого применения. Наиболее важной была разработка системы IBM System / 360, в которой впервые была реализована идея серии машин с одинаковой архитектурой, но с разной производительностью. В первую очередь это был коммерческий, рыночный проект. Не случайно младшая модель имела предельно сокращенную аппаратуру и крайне низкую цену. В этой системе не удалось сохранить совместимость при создании высокопроизводительных систем.
Второй этап связан с созданием векторных суперкомпьютеров, начиная с Cray‑1 [15] и включая все векторные машины фирмы Cray Research, японские разработки, особенно системы фирмы NEC, а также отечественные разработки – системы «Электроника СС БИС» [16, 17] и модульный конвейерный процессор (МКП) [18]. На данном этапе в основу было положено решение инженерных и технологических проблем. Инженерный подход был возможен благодаря финансированию этих работ со стороны государства. Структура векторно-конвейерных процессоров была основана на использовании синхронных функциональных устройств, что привело к резкому повышению степени параллелизма и увеличению мощности. В результате были использованы жидкостные системы отвода тепла. Новые архитектуры потребовали разработки новых программных средств для векторизации программ, создания эффективных вычислительных методов, а во многих случаях дополнительных усилий со стороны программистов для оптимизации программ.
Третий этап связан с широким использованием микропроцессоров для построения массивно-параллельных систем. В основе этого – коммерческий подход, поскольку наиболее важным критерием были низкие цены микропроцессоров, которые зависели от масштабов производства. Широкое использование персональных компьютеров привело к тому, что центр тяжести сместился с проблем эффективности на проблемы удобства использования. Параллелизм в процессорах был сосредоточен на уровне команд, производительность определялась тактовой частотой и особенностями микроархитектуры процессоров. Так, для микропроцессоров типа Intel х86 характерны следующие особенности, снижающие их эффективность: преобразование сложных команд в систему простых микроопераций, малоэффективная двухадресная система команд, усложнение аппаратной реализации параллелизма на уровне команд и др. При создании крупных систем были разработаны системы связи между процессорами с высокой пропускной способностью. Это потребовало модернизации самих микропроцессоров. Следует подчеркнуть, что выполнение функций операционной системы в микропроцессоре снижает его эффективность при решении задач. Это несущественно для персональных и малых систем, однако в крупных системах это приводит к большим накладным расходам.
Однако к середине 1990-х годов рынок суперкомпьютеров, зависящий от государственных заказов, резко сократился в связи с окончанием холодной войны. Сохранялся только спрос на самые большие системы стоимостью от 1 до 5 млн долл. Возник рынок «малых» суперкомпьютеров – от 100 тыс. до 1 млн долл. Лидером в этом секторе была фирма Silicon Graphics. Кроме того, резкий рост производительности микропроцессоров и использование их в мультипроцессорных и мультимашинных высокопроизводительных системах привел к снижению цен. В результате банкротства фирма Cray Research была поглощена фирмой Silicon Graphics. Широко было распространено мнение, что микропроцессоры-киллеры вытеснят векторные суперкомпьютеры.
Имели место попытки возврата к инженерному подходу. В 2002 году японская система Earth Simulator, основанная на архитектуре SX‑6 фирмы NEC, превысила производительность 40 Тфлопс [19]. Каждый из 5 120 процессоров, специально разработанных для системы, включает суперскалярный модуль, векторный модуль, состоящий из восьми векторных процессоров, и модуль управления доступом к памяти, размещенные на одном кристалле. В результате воздействия системы Earth Simulator была возрождена фирма Cray, которая разработала ряд векторных систем с использованием собственных кристаллов и мультичипных конструкций. Система Cray X1 достигла производительности 52,4 Тфлопс [20]. В 2006 году фирма Cray анонсировала создание гибридного варианта системы Cray XT5h и провозгласила концепцию адаптации архитектуры к потребностям задач [21]. В состав системы, кроме модулей на скалярных микропроцессорах, были включены модули на векторных процессорах. Однако система не имела коммерческого успеха. Аналогично были вытеснены с рынка микропроцессоры Alpha, i860 и Cell Broadband Engine (Cell BE).
Четвертый этап характеризуется использованием так называемых акселераторов и сопроцессоров. По существу, это было продолжением развития, основанного на коммерческом подходе. Так, фирма NVIDIA, владеющая основной долей рынка графических процессоров для персональных компьютеров, разработала усовершенствованные варианты этих процессоров и специальную программную систему CUDA для их использования при выполнении вычислительных задач, в которых имеется большая доля алгоритмов с параллелизмом на уровне данных. Такой квазивекторной системе фирма Intel противопоставила векторный сопроцессор Xeon Phi, однако она не отказалась от сохранения совместимости даже при разработке векторного процессора. В результате прикладное и системное программное обеспечение оказались сосредоточены в каждом узле, состоящем из стандартных процессоров Xeon и сопроцессоров Xeon Phi. Характерно, что фирма Cray решила использовать обе разработки в системе XC30 (Cascade), в которой в качестве неоднородных ускорителей используются как кристаллы Xeon Phi, так и графические процессоры Tesla фирмы NVIDIA. Кроме того, фирма Cray анонсировала систему CS300 (Catalyst), предназначенную для обработки больших массивов данных (Big Data Systems). На фоне этих разработок выделяется векторный микропроцессор, разработанный фирмой NEC для системы SX-ACE. Фирма NEC является единственной среди крупных изготовителей суперсистем, продолжающей разработку и выпуск новых вариантов векторного микропроцессора, в частности для новой системы SX-Aurora TSUBASA [22].
В 2008 году лидером стала система IBM Roadrunner, которая с производительностью 1,37 Пфлопс стала первой универсальной системой, преодолевшей рубеж в 1 Пфлопс [23]. Она была первой гибридной системой, в которой использовались 8-ядерные неоднородные кристаллы Cell и двухъядерные микропроцессоры AMD Opteron.
Рубеж 100 Пфлопс был преодолен в 2016 году: китайский суперкомпьютер Sunway TaihuLight с производительностью 93 Пфлопс на пакете программ LINPACK вышел на первое место [24]. Полная система имеет пиковую производительность 125,4 Пфлопс, включает 10,6 млн ядер и память объемом 1,31 Пбайт. Все аппаратные ресурсы системы, включая вычислительные и сетевые средства, разработаны и производятся в Китае.
Пятый этап связан с переходом к системам с экзафлопсной производительностью и характеризуется вынужденным возвратом к инженерному подходу для преодоления «стен» мощности и памяти, то есть резкого увеличения как локальной мощности на уровне кристаллов и модулей, так и глобальной – на уровне системы, а также для преодоления снижения производительности из-за потерь при обращении к памяти на всех уровнях иерархии.
Энергетические затраты на выполнение логических и арифметических операций по мере развития технологии снижаются относительно затрат на перемещения данных как внутри кристалла, так и между кристаллами, модулями и стойками. Для сокращения длин связей необходимо построение схемотехники на основе принципа близкодействия. Наиболее эффективным является использование синхронных конвейерных структур при повышении тактовой частоты и увеличении числа станций конвейера. В таких структурах потребуется локальная синхронизация и самосинхронизация.
Обеспечить локальность данных и сократить их пересылку можно за счет интеллектуализации обмена и перенесения части функций по управлению данными с аппаратных средств и операционной системы на прикладные программы. Для этого необходимо расширить использование адресуемых регистров вместо кэш-памяти, использовать программно-управляемый обмен между иерархическими уровнями памяти в системе. Указанные меры приведут к снижению потребления энергии, а также уменьшат потери на ожидание данных, что дополнительно снизит потребление энергии. Таким образом, обеспечение локальности данных способствует энергетической эффективности.
Получила всеобщее признание предложенная в нашем проекте концепция построения неоднородных систем, как главного фактора повышения производительности и эффективности [5, 25]. Достижение экзафлопсной производительности возможно только при использовании и согласовании всех форм параллелизма. Также признается большая роль программистов при разработке параллельных программ и взаимной адаптации аппаратных и программных ресурсов. Кроме использования высокопроизводительных вычислительных систем имеет место расширение использования систем для обработки больших массивов данных (Big Data Systems) и ставятся задачи создания комплексных систем, ориентированных на оба класса задач. Если на первом этапе специализация сводилась к узкому кругу задач, то на втором векторные машины охватывали достаточно широкий их класс. Адаптация архитектуры позволяет повысить эффективность для еще более широкого класса задач. Предложенная в нашем проекте взаимная адаптация за счет использования масштабируемых мультиархитектурных процессоров, свободных от накладных расходов, присущих стандартным микропроцессорам, иерархической сети памяти с программно-управляемой локализацией данных при наличии соответствующего программного обеспечения позволит в еще большей степени повысить эффективность аппаратных средств. В итоге необходима совместная разработка новых алгоритмов, архитектур, технологий, процессоров, методов проектирования, подходов к компоновке систем, средств обеспечения надежности и т. п.
Еще в большей степени обостряются указанные проблемы при создании объединенных вычислительных суперсистем, включающих традиционные суперкомпьютерные подсистемы, ориентированные на различные задачи моделирования, а также подсистемы больших данных, подсистемы аналитики и подсистемы нейрокомпьютеров – так называемые системы искусственного интеллекта. Потребности объединения указанных подсистем связаны с их взаимодополнением при решении многих задач. Так, для решения проблем обработки больших массивов данных необходимо увеличение масштабов обычных баз данных и повышение производительности вычислительных средств для работы с ними. Решение задач искусственного интеллекта требует доступа к большим массивам данных и новых подходов к их обработке. Кроме того, нейросетевые методы обработки данных в ряде случаев оказываются более эффективными, чем традиционные методы построения математических моделей.
Внедрение этих методов охватывает почти все классы машин. Это обостряет конкуренцию в области создания специализированных процессоров, однако ведущие фирмы – Intel и NVIDIA – продолжают сохранять преемственность своих архитектур – соответственно х86 и графических процессоров, что сдерживает развитие более рациональных и радикальных подходов. Тем не менее имеют место и оригинальные разработки, в частности японских фирм NEC и Fujitsu.
Несмотря на монопольное положение фирмы Intel, имеется большое разнообразие архитектур высокопроизводительных вычислительных систем, а ведущие фирмы готовы выпустить новые серии процессоров: Intel – «Skylake» Xeon-SP, AMD – «Naples» Epyc и «Vega», IBM – Power9, NVIDIA – «Volta» Tesla V100. Самостоятельные разработки процессоров ведутся и в Японии, и Китае. Однако, по мнению многих экспертов, без перехода на новые архитектурные решения, которые связаны с созданием нового программного обеспечения и преодоления проблем переноса программ, продвижение к экзафлопсным системам сильно тормозится. Необходима радикальная смена архитектур и алгоритмов для повышения эффективности. Например, руководство фирмы Cray считает, что системы, планируемые к установке в 2019, 2020 или 2021 годах, вероятно, будут заменены на системы, построенные на совершенно новых технологиях и принципах [26].
В США объявлены две программы экзафлопсных систем [27].
В объявленных Министерством энергетики США планах указывается, что имеется два момента, связанные с риском – переход для системы в Аргоннской национальной лаборатории на совершенно новую архитектуру и перенос срока с 2023 на 2021 год. Первоначально машина Aurora планировалась к выпуску в 2018 году с производительностью 180 Пфлопс. По новому плану выпуск экзафлопсной системы (1 000 Пфлопс) намечен на 2021 год. Фирмы Intel и Cray планировали выпустить систему Shasta на основе процессора Knights Hill. В новой системе предполагается использовать кристаллы со сравнительно небольшим числом ядер x86 – один-два десятка, при добавлении широкомасштабной векторной обработки и существенном увеличении объема памяти на основе мультиканальной памяти MCDRAM3, в которой используется этажерочная конструкция на микросборках, а также увеличить пропускную способность сети Omni-Path 3 до 400 Гбит / с. Для сравнения: в кристалле Knights Hill использовались 72 ядра, в каждом из которых по два 512-разрядных векторных процессора, скромный объем памяти и сеть Omni-Path 1 с пропускной способностью до 100 Гбит / с.
Вторая программа связана с системой Summit и ее продолжением NERSC‑9, предназначенными для Национальной лаборатории Ок-Ридж. Архитектура системы основана на графических процессорах Volta фирмы NVIDIA и кристаллах Power9 фирмы IBM. Система должна начать функционировать на задачах в 2018 году с производительностью 200 Пфлопс. Применение матричной обработки Tensor Cores в графическом процессоре Tesla V100 позволит достичь на задачах нейрообработки производительности 3,3 Эфлопс на 16–32-разрядных операндах. Планируется продвижение по этой программе по пути достижения экзафлопсной производительности, однако о деталях архитектуры будущей системы не сообщается.
В Китае для будущих систем планируется использовать семейство процессоров ShenWei, которые уже используются в системе Sunway TaihuLight, занимающей первое место в списке Top500 с пиковой производительностью 125,4 Пфлопс и выполненной на китайских процессорах. Второе направление связано с системой Tianhe‑2A, при модернизации которой сопроцессоры «Knights Corner» Xeon Phi фирмы Intel заменяются на собственные процессоры Matrix2000 DSP, что повысит производительность системы до величины выше 100 Пфлопс при существенном снижении мощности. Прототип системы Tianhe‑3 будет изготовлен в 2018 году и доведен до законченного варианта через два года. Третье направление базируется на системе Sugon Machine, использующей архитектуру x86 [28, 29].
В Японии несколько проектов направлено на разработку экзафлопсных систем.
В направлении развития системы K computer (8,2 Пфлопс) планируется создание Post-K computer, который должен быть в 100 раз более производительным. Объявлено о переходе с архитектуры кристаллов SPARC64 на кристаллы ARMv8-A фирмы ARM, лицензию на которые приобрела японская фирма Fujitsu, которая и разрабатывает систему. Новая архитектура имеет более широкое распространение, что будет способствовать созданию программного обеспечения. Первоначально планировавшийся срок – 2020 год – изменен на 2021 или 2022 годы [30].
Фирма Fujitsu совместно с фирмой Hewlett Packard Enterprise (HPE) на основе графического процессора Pascal ведет работы по созданию системы глубокого обучения для ряда японских исследовательских центров.
Сообщается, что недавно созданная фирма ExaScaler Inc. совместно с университетом Кэйо организовала работу трех фирм по ключевым направлениям разработки компонентов экзафлопсной системы – процессора с большим числом простых ядер (manycore processor), эффективной жидкостной системой охлаждения и многослойной объемной памятью. Уже разработан прототип с высокой энергетической эффективностью – 6,67 Гфлопс / Вт [31].
ИСТОРИЯ И УРОКИ РАЗВИТИЯ ОТЕЧЕСТВЕННОЙ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ
На первых этапах развития вычислительной техники наше отставание было незначительным. Так созданная в 1967 году ЭВМ БЭСМ‑6 была самой быстродействующей в Европе и была разработана на два года позже соизмеримой с ней американской машиной CDC 6600. Успешная и рекордная по продолжительности эксплуатация БЭСМ‑6 объясняется ее оригинальностью и надежностью. Система АС‑6, в состав которой входила БЭСМ‑6, в 1975 году использовалась при проведении работ по программе совместного советско-американского проекта «Апполон – Союз». В системе АС‑6 были впервые реализованы новые идеи, явившиеся основой разработок суперЭВМ и фундаментальных исследований по архитектуре перспективных вычислительных систем.
Проблемы в отечественной вычислительной технике были связаны с двумя факторами. Во-первых, разделение функций между Министерством электронной промышленности СССР (МЭП) и Министерством радиопромышленности СССР (МРП) привело к тому, что вместо проведения собственных комплексных разработок МЭП копировало зарубежные интегральные схемы примитивным методом, а МРП искало прототипы разработок для их освоения. Второй фактор – это решение о копировании аппаратных средств моделей системы IBM System / 360 и заимствовании программного обеспечения в рамках системы ЕС ЭВМ. В такой ситуации отставание было запрограммировано. Кроме того, специалисты, вынужденные осваивать зарубежные схемы и программы, теряли квалификацию.
Работа в направлении объединения технологических возможностей МЭП и опыта по разработке высокопроизводительных систем была осуществлена под руководством заместителя главного конструктора БЭСМ‑6 и главного конструктора АС‑6 академика В. А. Мельникова. В соответствии с совместным решением Министерства электронной промышленности СССР и Академии наук СССР в 1978 году была поставлена задача создания системы с предельной производительностью на основе проведения широкого фронта исследований по микроэлектронике, оптоэлектронике и другим направлениям. В рамках создания системы «Электроника СС БИС‑1» было разработано большое число новых технологий, компонентов и узлов. В 1991 году были проведены испытания системы «Электроника СС БИС‑1», изготовлены и налажены четыре образца. Был разработан аванпроект системы «Электроника СС БИС‑2» с производительностью 10 Гфлопс. Отставание от американских систем составляло около пяти лет. Однако в 1993 году было принято решение о прекращении работ. Естественно, это привело к разрушению всех коллективов, организованных за более чем 10 лет работы. Были утеряны научные и технологические заделы по многим направлениям, в том числе работы по решению больших задач на векторно-конвейерной машине. Опыт разработки, производства и наладки системы «Электроника СС БИС‑1» показал необходимость широкой кооперации академических институтов и промышленности.
ПРОЕКТ ОБЪЕДИНЕННОЙ МУЛЬТИАРХИТЕКТУРНОЙ ВЫЧИСЛИТЕЛЬНОЙ СУПЕРСИСТЕМЫ
После прекращения работ по системе «Электроника СС БИС» исследования по архитектуре и возможности реализации неоднородных вычислительных суперсистем были продолжены. В этих исследованиях в основу был положен комплексный подход с учетом как проблем, связанных с аппаратной реализацией системы, так и проблем, связанных с созданием программного обеспечения.
Концепции построения неоднородных вычислительных суперсистем и предложения по архитектуре и подходам к их реализации были опубликованы в 1995 году [5]. Впервые была предложена архитектура неоднородной суперсистемы, основанной на тесном взаимодействии процессоров для скалярной, векторной и параллельной обработки, которая дает возможность обеспечения высокой эффективности при решении больших задач, содержащих фрагменты с различными формами параллелизма. В результате исследований по применению перспективных ультрабольших интегральных схем была впервые разработана и опубликована в 1997 году архитектура векторного модульного масштабируемого унипроцессора, обеспечивающего выполнение десятков и сотен операций в один такт [6]. В дальнейшем был предложен ряд оригинальных концепций, опередивших зарубежные разработки [7–10], описание которых приводится ниже.
Неоднородная система.
Мониторно-моделирующая подсистема
Основы построения неоднородных вычислительных систем были заложены при разработке систем АС‑6 и «Электроника СС БИС‑1», проектов систем «Электроника СС БИС‑2» и «Электроника СС БИС‑3». В указанном выше докладе 1995 года [5] были изложены новые подходы к созданию суперсистем. В аннотации доклада сказано:
«Рассмотрены проблемы параллелизма, неоднородности и оптимизации программ в высокопроизводительных вычислительных системах. Обоснована концепция создания неоднородной суперсистемы, основанной на тесном взаимодействии процессоров для скалярной, векторной и параллельной обработки. В систему входит также мониторно-моделирующая подсистема для анализа и подготовки задач, дисковая подсистема и подсистема ввода-вывода. Рассмотрены подходы к повышению эффективности суперсистем».
В марте 2006 года фирма Cray объявила о планах создания архитектуры, объединяющей несколько типов процессоров. Для сравнения приведем цитату из статьи [21].
«20 марта 2006 г. Фирма Cray Inc. сегодня объявила о планах разработки суперкомпьютеров, в которых концепция неоднородных вычислений поднимается на совершенно новый уровень путем объединения ряда различных процессоров на единой платформе».
Из сравнения указанных публикаций видно, что концепция неоднородной системы, объединяющей в одной системе процессоры с различной архитектурой, и идея создания программной подсистемы для предварительного анализа задач в России были сформулированы в весьма близких терминах на 10 лет раньше.
Масштабируемый процессор
В 1997 и 1998 годах были опубликованы работы по архитектуре мультиконвейерного модульного масштабируемого унипроцессора, предназначенного для неоднородной суперсистемы [6, 32]. В аннотации доклада [6] сказано:
«Описана архитектура унипроцессора, являющегося частью неоднородной вычислительной суперсистемы. Унипроцессор выполняет только те части больших задач, которые могут эффективно использовать зацепление векторных операций и параллельное выполнение многих векторных и скалярных операций. Унипроцессор может масштабироваться и включать различные наборы конвейерных модулей для обработки и коммутации данных. Цепочки и параллельные ветви, состоящие из модулей, обеспечивают высокую производительность благодаря их топологии с наикратчайшими связями между функциональными устройствами. В максимальной конфигурации унипроцессор может включать до 1 024 модулей и обеспечивать выполнение до 4 тысяч операций с плавающей точкой в такт или 4 TFLOPS».
В начале 2000-х годов фирма IBM совместно с фирмами Sony и Toshiba начала разработку кристалла Cell, сообщения о котором появились в 2005 году, в частности говорилось следующее [33]:
«Cell – это неоднородный мультипроцессорный кристалл, состоящий из ядра IBM 64-bit Power Architecture, дополненного восемью специализированными сопроцессорами, построенными на основе новой архитектуры типа „одна инструкция – множественные данные“».
Этот кристалл использовался в суперкомпьютере Roadrunner фирмы IBM, который в 2008 году впервые достиг производительности в 1 Пфлопс.
В указанных выше работах [6, 32] термин унипроцессор подчеркивал тот факт, что на нем может выполняться единая программа. Однако фактически его структура основана на объединении модулей, каждый из которых является векторным или скалярным процессором. Таким образом, можно утверждать, что имеет место концептуальный приоритет.
Кристалл Xeon Phi фирмы Intel, объявленный в 2012 году, включает 61 векторный процессор, каждый из которых может обрабатывать в векторном режиме операнды шириной 512 бит, что эквивалентно 16 операциям с плавающей запятой с 32-разрядными операндами или 8 операциям с 64-разрядными операндами [34].
Масштабируемый процессор основной машины с самого начала рассматривался как самостоятельный компонент, являющийся основой для реализации различных по архитектуре структур, состоящих из равноправных машин в том смысле, что ни одна из структур не является сопроцессором. В отличие от масштабируемого процессора графические процессоры и кристалл Xeon Phi являются сопроцессорами и функционируют совместно со стандартными микропроцессорами.
В новом кристалле Knights Hill векторные устройства изолированы от скалярной части и от компилятора. Необходимо отметить, что в нашем проекте мультиархитектурной системы основные машины, включающие скалярные и векторные модули, освобождены от функций управления и трансляции, которые полностью выполняются мониторно-моделирующей системой, основанной на управляющих машинах, объединенных в сети управления [6].
Китайская система Sunway TaihuLight имеет ряд особенностей, весьма схожих с предложенными в нашем проекте. Это касается разделения функций между вычислительными и управляющими процессорами и простоты векторного вычислительного процессора [28].
Фирма NEC представила новую платформу SX-Aurora TSUBASA с векторными процессорами, выполняющими основную работу. Процессор Intel Xeon выполняет только вспомогательные задачи: управление подсистемой ввода-вывода, обработка вызовов ОС и прочие вспомогательные вычисления, в том числе скалярные. Каждый кристалл имеет восемь ядер и развивает производительность порядка 2,45 Тфлопс. Общая оперативная память типа HBM2 имеет объем 48 Гбайт. Эти параметры существенно выше, чем у конкурентов [22].
Масштабируемый процессор отличается наличием трех координат изменения степени параллелизма – длина цепочки для выполнения связанных векторных операций, число цепочек в процессоре и число процессоров (машин) в узле.
Мультиархитектура
На следующем этапе исследований в 2003 году в докладе [35] впервые предложен термин «мультиархитектура» применительно к неоднородным вычислительным системам. Приведем цитату из этого доклада.
«Для создания суперсистемы, обеспечивающей высокую эффективность при решении больших задач с фрагментами с различными формами параллелизма, целесообразно тесное объединение двух подсистем – мультиконвейерного векторного процессора, ориентированного в основном на параллелизм на уровне данных, и мультипроцессора, ориентированного в основном на параллелизм на уровне задач. Такая мультиархитектурная суперсистема должна обладать свойствами масштабируемости на всех уровнях, а также быть открытой для подключения подсистем с другой архитектурой».
В указанной выше статье [21], опубликованной в 2006 году и посвященной планам фирмы Cray, было сказано:
«Фирма Cray будет внедрять адаптивные супервычисления поэтапно. На первом этапе, которому присвоено название „Rainier“, будет обеспечена интеграция всех платформ фирмы Cray в интересах пользователей. На втором этапе будет создана полностью интегрированная мультиархитектурная система, и на заключительном этапе дальнейшее развитие систем фирмы Cray будет заключаться в создании программного обеспечения для динамического распределения ресурсов, что приведет к автоматизации адаптивных супервычислений».
Идея создания подсистемы для распределения ресурсов и анализа задач на предмет формы параллелизма была предложена в 1995 году в работах [5, 36], где сказано:
«Задачи через подсистему ввода-вывода поступают в мониторно-моделирующую подсистему, где, во‑первых, анализируются на предмет формы параллелизма. Для этого анализа и трансформации алгоритмов могут использоваться средства программного моделирования, позволяющие оценить эффективность распределения задачи внутри вычислительной подсистемы. При этом возможно интерактивное взаимодействие с программистом.
Работа мониторно-моделирующей подсистемы на этом этапе завершается статической подготовкой пакетов заданий – программ и данных для вычислительной подсистемы и помещением этой информации в системную или дисковую память.
Динамическое распределение заданий осуществляется за счет работы системы очередей, где хранятся директивы – описатели заданий и директивы – описатели результатов выполнения заданий. Последние поступают в очередь на входе мониторно-моделирующей подсистемы».
В аннотации статьи, названной «Мультиархитектура – новая парадигма для суперкомпьютеров» [3] и опубликованной в 2005 году, сказано:
«Мультиархитектурные вычислительные суперсистемы, по мнению автора предлагаемой статьи, – это следующее поколение суперкомпьютеров. Они не только обеспечивают наилучшее согласование алгоритмов задач с возможностями аппаратных средств, но позволяют наиболее эффективно использовать перспективные СБИС с ультравысокой степенью интеграции.
Изложенный в статье подход начал формулироваться в начале 90-х годов. Сегодня уже разработаны концепция, принципы построения и собственно проект мультиархитектурной вычислительной суперсистемы».
Мультиархитектура – это инструмент конфигурирования и масштабирования при повышении эффективности и возможности развития путем включения новых модулей и подсистем. Такие системы могут охватывать практически все классы машин от суперкомпьютеров до персональных компьютеров [37, 38].
Сеть памяти, обменно-редактирующая машина
Концепция специализации сетей имеет большую историю. В рамках проекта мультиархитектурной системы концепция сетевой структуры со специализированными сетями была сформулирована в 2009 году [7]. Первые шаги были сделаны в 1985 году при разработке внешней полупроводниковой памяти в системе «Электроника СС БИС‑1» [39, 40].
В [7] была обоснована эффективность выделения иерархической сети памяти, в которой передача данных с одного уровня иерархии на другой осуществляется с помощью обменно-редактирующей машины. Эта машина выполняет широкий спектр задач по управлению массивами данных, а также редактирование данных при обмене. На каждом уровне иерархии имеется общая память, которая на разных уровнях имеет различный объем и физическую реализацию.
Китайская система Sunway TaihuLight также использует 5-уровневую иерархию сетевой структуры.
Аналогичный подход построения иерархической структуры использован фирмой Cray в многоуровневой иерархической адаптивной системе памяти (Tiered Adaptive Storage) [41], а также в специальной системе ускорения ввода-вывода DataWarp, предложенной для системы Cray XC40 [42]. В последней системе используется идея использования специального пикового буфера burst buffer, реализованного на флеш-памяти и обеспечивающего высокую пропускную способность при обмене с дисками.
Указанные средства необходимы при планировании последовательности выполнения, распределении и подготовке программ с их данными с целью обеспечения локализации данных и эффективного использования памяти и каналов обмена.
Межузловая сеть
Межузловая сеть имеет узкую специализацию обеспечения взаимодействия между вычислительными узлами. При этом все пересылки массивов данных выполняются в рамках сети памяти, а управляющая информация направляется по сети управления. Межузловая сеть является горизонтальной сетью, то есть в ней отсутствует иерархическая структура, а взаимодействие между программами определяется динамикой выполнения программ и не зависит от централизованного управления программами в рамках мониторно-моделирующей подсистемы. В результате повышается эффективность взаимодействия программ, выполняемых в различных вычислительных узлах.
Функционально-специализированные машины
В состав системы входит целый ряд машин, предназначенных для выполнения программ операционной системы, управления распределением и выполнением программ на основных машинах и управления обменом данными в рамках сетевых структур. Управляющие машины, объединенные сетью управления, присутствуют на всех уровнях иерархии системы. Центральная управляющая машина выполняет основные функции операционной системы и выдает задания управляющим машинам в соответствии с их иерархией. Последние в свою очередь выдают задания основным, сетевым, обменно-редактирующим и периферийным машинам.
Новая парадигма программирования и трансляции прикладных программ для мультиархитектурной вычислительной системы состоит из следующих условий:
• разделение программы на модули обработки с разными формами параллелизма и подготовка соответствующих программ;
• разделение программы на модули обработки, выполняемые на основной машине, и модули управления данными;
• выполнение этих модулей на разных по архитектуре машинах;
• формулирование требований к архитектуре управляющих и обменно-редактирующих машин;
• разделение модулей управления данными на модули для управляющих машин и модули (задания) для обменно-редактирующих машин. Возможен вариант, при котором модули управления данными выполняются в обменно-редактирующих машинах, а в управляющих машинах выполняются только функции операционной системы.
В мультиархитектурной вычислительной системе операционная система представляет собой распределенную мониторно-моделирующую подсистему, состоящую из сети управления и управляющих машин всех уровней с их программами. Часть функций операционной системы выполняет обменно-редактирующая машина, однако она выполняет и функции прикладных задач по подготовке данных.
Функционально-специализированные машины, входящие в состав системы, существенно отличаются от масштабируемых основных машин прежде всего в силу сокращения количества форматов данных за счет исключения операций с плавающей запятой, а также за счет применения более простых схем выполнения операций и меньшей глубины конвейерных схем. В основе всех указанных машин использован единый модуль процессора – базовый процессор. Функционально-специализированная машина состоит из базового процессора, оперативной памяти, модуля расширения для процессора, специализированных модулей и адаптера сети памяти.
Развитие системы
Возможности развития архитектуры системы заложены в самой ее структуре. Дальнейшее развитие системы связано с разработкой архитектуры объединенной мультиархитектурной вычислительной суперсистемы, включающей традиционную суперкомпьютерную подсистему и подсистемы больших данных, аналитики и нейросетевых компьютеров. В рамках этих исследований планируется разработка следующих аспектов вычислительной суперсистемы.
Архитектура вспомогательных машин, занимающих промежуточное положение между проблемно-ориентированными и функционально-специализированными машинами и выполняющих, кроме пересылки данных, более сложные задачи контекстного поиска, фильтрации, преобразования форматов и т. п.
Структура дополнительных уровней сети памяти с соответствующими специализированными вспомогательными машинами.
Архитектура обменно-редактирующих машин трех уровней, предназначенных для унификации форматов данных внешних источников, для форматирования данных в соответствии с алгоритмами обработки и для управления распределением фрагментов программ и данных в памяти.
Адаптация архитектуры основной машины с целью повышения эффективности решения двух основных классов задач: традиционных суперкомпьютерных вычислений и так называемых задач искусственного интеллекта.
Архитектура скалярной основной машины и векторной основной машины с учетом повышения эффективности. Новые структуры сети межмодульных связей для построения специализированных машин, сети подкачки данных и прямые межмодульные связи в виде программируемой межмодульной сети. Объединение нескольких основных машин в кристалле.
Исследование развития системы для решения задач искусственного интеллекта по следующим направлениям:
• создание новых алгоритмов с использованием конфигурации векторной основной машины;
• разработка узкоспециализированных модулей и создание соответствующей конфигурации основной машины;
• разработка специализированной машины, ориентированной на обработку матричных операндов.
Исследование расширения функций мониторно-моделирующей подсистемы интегрированной мультиархитектурной системы в связи с увеличением номенклатуры проблемно-ориентированных и вспомогательных машин.
Формирование многоуровневой межузловой сети, состоящей из подсетей для объединения различных узлов.
Сопоставление полученных результатов наших исследований с мировым уровнем показывают концептуальный приоритет по основным направлениям. Следует подчеркнуть исключительную важность отечественной разработки всех аспектов создания вычислительных суперсистем, а именно разработки архитектуры, элементной базы и конструкции, программного обеспечения, методов проектирования и технологии изготовления.
ЗАКЛЮЧЕНИЕ
Основной задачей при создании суперкомпьютеров является достижение сверхэффективности за счет простоты, сокращения паразитных потерь и специализации (взаимной адаптации). Для суперкомпьютеров первого поколения выполнялась разработка элементов, архитектуры и конструкции, предназначенных именно для машин с предельной производительностью. В отличие от этого, системы на микропроцессорах использовали элементы, первоначально разработанные для персональных компьютеров или для машин малой производительности. Кроме того, сохранение совместимости программного обеспечения приводит к дополнительным ограничениям, к потерям эффективности из-за паразитных потерь и избыточной энергии, а также к необходимости введения искусственных средств адаптации в операционной системе Microsoft в каждом процессоре Intel и системе CUDA в графических процессорах NVIDIA.
Возврат к нормальному развитию, то есть к первичной самостоятельной разработке вычислительных суперсистем неизбежен. Это приведет к созданию новых архитектур, которые в дальнейшем могут быть использованы и для массовых компьютеров. Сейчас процесс начинается с акселераторов и сопроцессоров, но эти «половинчатые» решения должны привести к замене микропроцессоров на специализированные мультиархитектурные конструкции, в которых объединяются наборы процессоров для прикладных программ с различными формами параллелизма и наборы функционально-специализированных процессоров. Таким образом, в мультиархитектурной системе будут объединяться различные, но равноправные процессоры.
В настоящее время в США, Японии, Китае, Индии, России и Европейском союзе предложены планы создания систем с экзафлопсной производительностью. По мнению большинства экспертов для следующего этапа потребуются исследования и разработки неоднородных систем, новой архитектуры, новой элементной базы, а также нового подхода к программированию. Вопрос состоит в том, какая из фирм первой перейдет на новую архитектуру.
В нашей стране собственные исследования и разработки проводились в условиях отсутствия производства микропроцессоров и других компонентов, что привело к необходимости ориентации на использование импортных изделий. По существу, должна ставиться задача развертывания исследований и разработок всего спектра технологий, включая электронное машиностроение. При этом программа работ не должна повторять ошибочный с технической точки зрения путь (выгодный с точки зрения быстрого получения прибыли) – от персональных компьютеров к суперсистемам, а наоборот – должна строиться в направлении от суперсистем ко всем классам машин, включая персональные.
При создании новых систем необходимо отдать приоритет системам на отечественной элементной базе. Основными причинами такого подхода являются обеспечение безопасности и экономической целесообразности. Надежность систем зависит и от фактора внешнего или запрограммированного воздействия, что при применении импортной элементной базы исключить нельзя. Развитие собственной элементной базы является важным фактором стимулирования экономического развития, оказывающим влияние практически на все отрасли экономики. Следует подчеркнуть, что известная практика импортозамещения, являющаяся практически копированием зарубежных образцов, должна быть сведена к минимуму. Кроме того, на развитие элементной базы сильное влияние и сдерживающее воздействие оказывает крайняя степень монополизации в отрасли. В новых разработках необходимо опираться на последние достижения отечественной и мировой науки для создания отечественной технологической базы. Заделом таких разработок являются исследования по мультиархитектурным вычислительным суперсистемам, выполненным в Физико-технологическом институте РАН [8–10].
К числу основных оригинальных концепций, лежащих в основе проекта суперсистемы, относятся: неоднородность и мультиархитектура вычислительных средств; масштабируемая и конфигурируемая основная машина; функционально-специализированные вспомогательные машины; специализация сетей; обеспечение локальности данных; распределенная операционная система; взаимная адаптация прикладных программ, архитектуры и операционной системы. Многие концепции, предложенные при проведении исследований, опережали зарубежные разработки на 5–10 лет.
Основные преимущества концептуального проекта мультиархитектурной вычислительной суперсистемы основаны на взаимной адаптации аппаратной реализации, архитектуры и программного обеспечения. Высокая степень масштабирования обеспечивает возможность суперсистем с производительностью более 1 Эфлопс. Изложенные в проекте концепции и архитектурные решения могут быть применены и при создании новых систем, включающих нетрадиционные подходы. Так, наиболее вероятной структурой квантовых компьютеров будет та или иная форма их объединения и взаимодействия с классическими компьютерами. Таким образом, развитие концепции мультиархитектуры в перспективе может быть использовано для совершенствования классических вычислений на основе новых технологий и повышения эффективности аппаратных и программных средств, а также для создания уникальных новых систем.
Для реализации проекта мультиархитектурной системы необходимо выполнение государственной программы, включающей комплекс НИР и ОКР, а также работы по освоению новых технологий и организации новых производств. Определение приоритетных направлений обеспечит рациональное планирование работ в соответствии с потребностями. Планирование должно предусматривать параллельные и согласованные работы по всем направлениям под единым научным руководством. Необходима четкая кооперация всех участников проекта, перевод предприятий в статус стратегически важных.
На первом этапе целесообразно проведение согласованных исследований по алгоритмам новых больших задач и моделирование основных особенностей системы команд, сетевых средств и методов анализа задач.
Затем, после корректировки архитектурных решений необходима разработка макетных образцов основных модулей и создание инструментария для построения аппаратно-программных моделей как среды для параллельной разработки аппаратных решений и программного обеспечения, в том числе САПР.
Параллельно с указанными работами необходимо освоение технологии изготовления всего комплекса БИС, в том числе масштабируемых, то есть состоящих из заданного для данного класса задач набора модулей. Необходимо освоение технологии изготовления блоков и средств межсоединений, а также систем питания и охлаждения (отвода тепла).
На завершающем этапе должны быть проведены ОКР по всему фронту разработки, изготовления и наладки системы.
ЛИТЕРАТУРА
1. Митропольский Ю. И. Суперкомпьютеры и микропроцессоры. Каким будет их завтрашний день? // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 1998. № 3–4. С. 19–22.
2. Митропольский Ю. И. Суперкомпьютеры и микропроцессоры. Приоритеты исследований и разработок // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2000. № 2. С. 18–21.
3. Митропольский Ю. И. Мультиархитектура – новая парадигма для суперкомпьютеров // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2005. № 3. С. 42–47.
4. Круглый стол «Судьба электроники России». Встреча первая // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2002. № 2. С. 4–11.
5. Митропольский Ю. И. Концепции построения неоднородных вычислительных суперсистем // Сборник «Распределенная обработка информации». Труды Пятого Международного семинара. – Новосибирск: Институт физики полупроводников СО РАН, 1995. С. 42–46.
6. Митропольский Ю. И. Мультиконвейерный унипроцессор // Сборник «Вычислительные машины с нетрадиционной архитектурой. Супер ВМ». Выпуск 5. Неоднородные вычислительные суперсистемы. – М.: ИВВС РАН, 1997. С. 50–64.
7. Митропольский Ю. И. Принципы построения сетевой структуры мультиархитектурной вычислительной системы // Суперкомпьютерные технологии: разработка, программирование, применение (СКТ‑2010) // Материалы Международной научно-технической конференции. Т. 1. – Таганрог: Изд-во ТТИ ЮФУ, 2010. С. 136–140.
8. Митропольский Ю. И. Проблемы разработки новой архитектуры процессоров и вычислительных систем // Труды Физико-технологического института РАН/ Гл. ред. А. А. Орликовский. – М.: Наука. Т. 23. 2013. С. 109–140.
9. Митропольский Ю. И. Элементная база и архитектура будущих суперкомпьютеров // Микроэлектроника. 2015. № 3. С. 163–179.
10. Митропольский Ю. И. Концептуальный проект мультиархитектурной вычислительной суперсистемы. – М.: ТЕХНОСФЕРА, 2016. 146 с.
11. Thornton J. Design of a Computer – The Control Data 6600 // Glenview, Il: Scott, Foresman and Co, 1970.
12. Control Data 7600 Computer System. Preliminary System Description // http://s3data.computerhistory.org/brochures/cdc.7600.1968.102646087.pdf.
13. Planning a Computer System: Project Stretch. Edited by W. Buchholz. – New York: McGraw-Hill Book Company, 1962. 322 p.
14. Митропольский Ю.И. БЭСМ‑6, АС‑6 и их влияние на развитие отечественной вычислительной техники // Информационные технологии и вычислительные системы. 2002. № 3. С. 49–58.
15. Russell R. M. The CRAY‑1 Computer System // Communications of the ACM. Jan. 1978. V. 21. № 1. PP. 63–72.
16. Мельников В.А., Митропольский Ю. И., Шнитман В. З. Научные, технологические и методические аспекты создания вычислительной системы «Электроника СС БИС‑1» // Юбилейный сборник трудов Отделения информатики, вычислительной техники и автоматизации Российской академии наук. – М.: ОИВТА РАН, 1993. С. 28–41.
17. Melnikov V. A., Mitropolski Yu. I., Reznikov G. V. Designing the Electronica SS BIS Supercomputer // IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part A. June 1996. Vol.19. No. 2. PP. 151–156.
18. Производство и плюсы вычислительной системы «Эльбрус 3–1» // http://mosprivod.ru/proizvodstvo-i-plyusy-vychislitelnoj-sistemy-%E2%80%9Celbrus‑3-1%E2%80%9D/
19. Japanese 'Computenik' Earth Simulator shatters US supercomputer hegemony. – http://www.hoise.com/primeur/02/articles/weekly/AE-PR‑05-02-59.html.
20. Dunigan T. H., Jr., Fahey M. R., White J. B. III, Worley P. H. Early Evaluation of the Cray X1 // Proceedings of the IEEE/ACM SC2003 Conference. 2003. Nov. 15–21.
21. Cray Will Leverage an «Adaptive Supercomputing» Strategy to Deliver the Next Major Productivity Breakthrough // Seattle, Wa, March 20, 2006. – http://investors.cray.com/phoenix.zhtml?c=98390&p=irol-newsArticle&ID=833494&highlight=.
22. Morgan T. P. A Deep Dive Into NEC‘s Aurora Vector Engine, November 22, 2017 // https://www.nextplatform.com/2017/11/22/deep-dive-necs-aurora-vector-engine/.
23. Barker K. J., Davis K., Hoisie A., Kerbyson D. J., Lang M., Pakin S., Sancho J. C. Entering the petaflop era: The architecture and performance of Roadrunner // Proceedings of the 2008 ACM/IEEE Conference on Supercomputing SC '08, 2008. PP. 1–11.
24. Hemsoth N. A Look Inside China‘s Chart-Topping New Supercomputer, June 20, 2016 // https://www.nextplatform.com/2016/06/20/look-inside-chinas-chart-topping-new-supercomputer/.
25. Toward Exascale Computing with Heterogeneous Architectures. – http://sc10.supercomputing.org/schedule/event_detail.php-evid=pan129.html.
26. Morgan T. P. Cray Looks Forward To Supercomputing Rebound, October 31, 2017 //
https://www.nextplatform.com/2017/10/31/cray-looks-forward-supercomputing-rebound/.
27. Larzelere A. R. Momentum Builds for US Exascale, January 9, 2018 // https://www.hpcwire.com/2018/01/09/momentum-builds-us-exascale/.
28. Feldman M. China Will Deploy Exascale Prototype This Year January 19, 2017 // https://www.top500.org/news/china-will-deploy-exascale-prototype-this-year/.
29. Morgan T. P. China Arms Upgraded Tianhe‑2A Hybrid Supercomputer, September 20, 2017 //
https://www.nextplatform.com/2017/09/20/china-arms-upgraded-tianhe‑2a-hybrid-supercomputer/.
30. Brueckner R. Fujitsu Unveils Processor Details for Post-K Computer, August 23, 2016 // https://insidehpc.com/2016/08/60176/.
31. Trader T. New Japanese Supercomputing Project Targets Exascale, March 14, 2017 // https://www.hpcwire.com/2017/03/14/new-japanese-supercomputing-project-targets-exascale/.
32. Митропольский Ю. И. Архитектура мультиконвейерного модульного масштабируемого унипроцессора // Труды Шестого Международного семинара «Распределенная обработка информации». – Новосибирск: Институт физики полупроводников СО РАН, 1998. С. 30–34.
33. The Cell project at IBM Research – The Cell Architecture // August 2005. – https://researcher.watson.ibm.com/researcher/view_group.php?id=2649.
34. Intel Reveals Architecture Details of Intel Xeon Phi Co-Processor, August 30, 2012 // http://www.cdrinfo.com/Sections/News/Details.aspx?NewsId=34114.
35. Митропольский Ю. И. Мультиархитектурная вычислительная суперсистема // Труды Первой Всероссийской научной конференции «Методы и средства обработки информации». – М.: МГУ, 2003. С. 131–136.
36. Анохин А.В., Ленгник Л. М., Митропольский Ю. И., Пучков И. И. Архитектура неоднородной вычислительной суперсистемы // Сборник «Распределенная обработка информации». Труды Пятого Международного семинара. – Новосибирск: Институт физики полупроводников СО РАН, 1995. С. 22–27.
37. Митропольский Ю. И. Масштабируемый векторный процессор в составе мультиархитектурной суперсистемы // Труды Второй Всероссийской научной конференции «Методы и средства обработки информации». – М.: МГУ, 2005. С. 47–52.
38. Митропольский Ю. И. Проект многоуровневой масштабируемой мультиархитектурной вычислительной системы // Труды Четвертой Международной конференции «Параллельные вычисления и задачи управления», Москва, 27–29 октября 2008 г., Институт проблем управления им. В. А. Трапезникова, 2008. С. 533–558.
39. Митропольский Ю.И., Захаров Ю. В., Усан А. А., Шнитман В. З. Организация управления полупроводниковой внешней памятью высокопроизводительной вычислительной системы // Тезисы докладов на I Всесоюзной конференции «Проблемы создания суперЭВМ, суперсистем и эффективность их применения», Минск, 15–17 сент. 1987 г., Институт математики АН БССР, Минск, 1987.
40. Захаров Ю. В., Иванников В. П., Митропольский Ю. И., Мисюрев A. В., Усан А. А., Шнитман В. З. Процессор полупроводниковой внешней памяти высокопроизводительной вычислительной системы // Авторское свидетельство № 1539789, приор. 14.01.87, зарегистрировано 01.10.89.
41. Feldman M. The Big Data Challenge: Intelligent Tiered Storage at Scale // Intersect360 Research, White paper, November 2013.
42. Hemsoth N. Cray Strikes Balance with Next-Generation XC40 Supercomputer, September 30, 2014 //
http://www.hpcwire.com/2014/09/30/cray-strikes-balance-next-generation-xc40-supercomputer/.
В статье предлагается возможный подход к решению указанной проблемы. Необходимым условием преодоления отставания и зависимости от внешних факторов является комплексный подход создания отечественной технологии и электронного машиностроения, отечественной архитектуры процессоров и вычислительных систем и отечественного системного и прикладного программного обеспечения. Локальное импортозамещение в отношении ряда программных систем и их экспорт (оффшорное программирование) – это работа в интересах западных монополий, которая не сокращает нашу зависимость в области аппаратуры и системного программного обеспечения.
Автор в ряде статей в журнале «ЭЛЕКТРОНИКА: Наука, Технология, Бизнес» и в других публикациях уже поднимал указанную проблему [1–3].
В выступлении на круглом столе «Судьба электроники России», организованном редакцией журнала «ЭЛЕКТРОНИКА: Наука, Технология, Бизнес» в 2002 году [4], автор в заключение сказал: «Суперкомпьютеры могут быть катализатором развития микроэлектроники. Нужна серьезная государственная программа, ответственно выполняемая. Пример экономики США показывает – такую область отдать рынку невозможно. Нужно сосредоточить усилия на производстве СБИС для суперкомпьютеров. Нет необходимости выпускать их сотнями миллионов, как для массовой вычислительной техники. Но можно достичь высокого уровня технологии и использовать ее в массовом производстве. Поэтому задача на ближайшее время – создание суперкомпьютеров на отечественной элементной базе и подъем технологии на уровень, необходимый для такого производства. Тем более, что примеров, когда создание суперкомпьютеров стимулировало развитие электронных технологий, немало. А собственная элементная база в специальном оборудовании – это еще и вопрос национальной безопасности».
Далее приведен анализ развития высокопроизводительных систем, изложены основные концепции проекта объединенной мультиархитектурной вычислительной суперсистемы [5–10] и сформулированы предложения по стратегии развития рассматриваемой отрасли в нашей стране.
ИСТОРИЯ И ПЕРСПЕКТИВЫ РАЗВИТИЯ ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ МАШИН
В истории развития высокопроизводительных вычислительных машин можно выделить следующие этапы.
Первый этап связан с созданием скалярных транзисторных систем, таких как CDC 6600 [11], CDC 7600 [12], IBM Stretch [13], БЭСМ‑6 [14]. Главным аспектом при разработке этих систем было решение инженерных и технологических проблем с целью обеспечения высокой производительности и эффективности. На этом этапе повышение производительности обеспечивалось использованием самых высокочастотных логических схем и оригинальных конструктивных решений с целью сокращения длин линий связи между схемами, компенсации сравнительно низкой скорости памяти, а также усилиями программистов, которые знали и учитывали особенности аппаратных средств. В рамках этого этапа велись и разработки машин широкого применения. Наиболее важной была разработка системы IBM System / 360, в которой впервые была реализована идея серии машин с одинаковой архитектурой, но с разной производительностью. В первую очередь это был коммерческий, рыночный проект. Не случайно младшая модель имела предельно сокращенную аппаратуру и крайне низкую цену. В этой системе не удалось сохранить совместимость при создании высокопроизводительных систем.
Второй этап связан с созданием векторных суперкомпьютеров, начиная с Cray‑1 [15] и включая все векторные машины фирмы Cray Research, японские разработки, особенно системы фирмы NEC, а также отечественные разработки – системы «Электроника СС БИС» [16, 17] и модульный конвейерный процессор (МКП) [18]. На данном этапе в основу было положено решение инженерных и технологических проблем. Инженерный подход был возможен благодаря финансированию этих работ со стороны государства. Структура векторно-конвейерных процессоров была основана на использовании синхронных функциональных устройств, что привело к резкому повышению степени параллелизма и увеличению мощности. В результате были использованы жидкостные системы отвода тепла. Новые архитектуры потребовали разработки новых программных средств для векторизации программ, создания эффективных вычислительных методов, а во многих случаях дополнительных усилий со стороны программистов для оптимизации программ.
Третий этап связан с широким использованием микропроцессоров для построения массивно-параллельных систем. В основе этого – коммерческий подход, поскольку наиболее важным критерием были низкие цены микропроцессоров, которые зависели от масштабов производства. Широкое использование персональных компьютеров привело к тому, что центр тяжести сместился с проблем эффективности на проблемы удобства использования. Параллелизм в процессорах был сосредоточен на уровне команд, производительность определялась тактовой частотой и особенностями микроархитектуры процессоров. Так, для микропроцессоров типа Intel х86 характерны следующие особенности, снижающие их эффективность: преобразование сложных команд в систему простых микроопераций, малоэффективная двухадресная система команд, усложнение аппаратной реализации параллелизма на уровне команд и др. При создании крупных систем были разработаны системы связи между процессорами с высокой пропускной способностью. Это потребовало модернизации самих микропроцессоров. Следует подчеркнуть, что выполнение функций операционной системы в микропроцессоре снижает его эффективность при решении задач. Это несущественно для персональных и малых систем, однако в крупных системах это приводит к большим накладным расходам.
Однако к середине 1990-х годов рынок суперкомпьютеров, зависящий от государственных заказов, резко сократился в связи с окончанием холодной войны. Сохранялся только спрос на самые большие системы стоимостью от 1 до 5 млн долл. Возник рынок «малых» суперкомпьютеров – от 100 тыс. до 1 млн долл. Лидером в этом секторе была фирма Silicon Graphics. Кроме того, резкий рост производительности микропроцессоров и использование их в мультипроцессорных и мультимашинных высокопроизводительных системах привел к снижению цен. В результате банкротства фирма Cray Research была поглощена фирмой Silicon Graphics. Широко было распространено мнение, что микропроцессоры-киллеры вытеснят векторные суперкомпьютеры.
Имели место попытки возврата к инженерному подходу. В 2002 году японская система Earth Simulator, основанная на архитектуре SX‑6 фирмы NEC, превысила производительность 40 Тфлопс [19]. Каждый из 5 120 процессоров, специально разработанных для системы, включает суперскалярный модуль, векторный модуль, состоящий из восьми векторных процессоров, и модуль управления доступом к памяти, размещенные на одном кристалле. В результате воздействия системы Earth Simulator была возрождена фирма Cray, которая разработала ряд векторных систем с использованием собственных кристаллов и мультичипных конструкций. Система Cray X1 достигла производительности 52,4 Тфлопс [20]. В 2006 году фирма Cray анонсировала создание гибридного варианта системы Cray XT5h и провозгласила концепцию адаптации архитектуры к потребностям задач [21]. В состав системы, кроме модулей на скалярных микропроцессорах, были включены модули на векторных процессорах. Однако система не имела коммерческого успеха. Аналогично были вытеснены с рынка микропроцессоры Alpha, i860 и Cell Broadband Engine (Cell BE).
Четвертый этап характеризуется использованием так называемых акселераторов и сопроцессоров. По существу, это было продолжением развития, основанного на коммерческом подходе. Так, фирма NVIDIA, владеющая основной долей рынка графических процессоров для персональных компьютеров, разработала усовершенствованные варианты этих процессоров и специальную программную систему CUDA для их использования при выполнении вычислительных задач, в которых имеется большая доля алгоритмов с параллелизмом на уровне данных. Такой квазивекторной системе фирма Intel противопоставила векторный сопроцессор Xeon Phi, однако она не отказалась от сохранения совместимости даже при разработке векторного процессора. В результате прикладное и системное программное обеспечение оказались сосредоточены в каждом узле, состоящем из стандартных процессоров Xeon и сопроцессоров Xeon Phi. Характерно, что фирма Cray решила использовать обе разработки в системе XC30 (Cascade), в которой в качестве неоднородных ускорителей используются как кристаллы Xeon Phi, так и графические процессоры Tesla фирмы NVIDIA. Кроме того, фирма Cray анонсировала систему CS300 (Catalyst), предназначенную для обработки больших массивов данных (Big Data Systems). На фоне этих разработок выделяется векторный микропроцессор, разработанный фирмой NEC для системы SX-ACE. Фирма NEC является единственной среди крупных изготовителей суперсистем, продолжающей разработку и выпуск новых вариантов векторного микропроцессора, в частности для новой системы SX-Aurora TSUBASA [22].
В 2008 году лидером стала система IBM Roadrunner, которая с производительностью 1,37 Пфлопс стала первой универсальной системой, преодолевшей рубеж в 1 Пфлопс [23]. Она была первой гибридной системой, в которой использовались 8-ядерные неоднородные кристаллы Cell и двухъядерные микропроцессоры AMD Opteron.
Рубеж 100 Пфлопс был преодолен в 2016 году: китайский суперкомпьютер Sunway TaihuLight с производительностью 93 Пфлопс на пакете программ LINPACK вышел на первое место [24]. Полная система имеет пиковую производительность 125,4 Пфлопс, включает 10,6 млн ядер и память объемом 1,31 Пбайт. Все аппаратные ресурсы системы, включая вычислительные и сетевые средства, разработаны и производятся в Китае.
Пятый этап связан с переходом к системам с экзафлопсной производительностью и характеризуется вынужденным возвратом к инженерному подходу для преодоления «стен» мощности и памяти, то есть резкого увеличения как локальной мощности на уровне кристаллов и модулей, так и глобальной – на уровне системы, а также для преодоления снижения производительности из-за потерь при обращении к памяти на всех уровнях иерархии.
Энергетические затраты на выполнение логических и арифметических операций по мере развития технологии снижаются относительно затрат на перемещения данных как внутри кристалла, так и между кристаллами, модулями и стойками. Для сокращения длин связей необходимо построение схемотехники на основе принципа близкодействия. Наиболее эффективным является использование синхронных конвейерных структур при повышении тактовой частоты и увеличении числа станций конвейера. В таких структурах потребуется локальная синхронизация и самосинхронизация.
Обеспечить локальность данных и сократить их пересылку можно за счет интеллектуализации обмена и перенесения части функций по управлению данными с аппаратных средств и операционной системы на прикладные программы. Для этого необходимо расширить использование адресуемых регистров вместо кэш-памяти, использовать программно-управляемый обмен между иерархическими уровнями памяти в системе. Указанные меры приведут к снижению потребления энергии, а также уменьшат потери на ожидание данных, что дополнительно снизит потребление энергии. Таким образом, обеспечение локальности данных способствует энергетической эффективности.
Получила всеобщее признание предложенная в нашем проекте концепция построения неоднородных систем, как главного фактора повышения производительности и эффективности [5, 25]. Достижение экзафлопсной производительности возможно только при использовании и согласовании всех форм параллелизма. Также признается большая роль программистов при разработке параллельных программ и взаимной адаптации аппаратных и программных ресурсов. Кроме использования высокопроизводительных вычислительных систем имеет место расширение использования систем для обработки больших массивов данных (Big Data Systems) и ставятся задачи создания комплексных систем, ориентированных на оба класса задач. Если на первом этапе специализация сводилась к узкому кругу задач, то на втором векторные машины охватывали достаточно широкий их класс. Адаптация архитектуры позволяет повысить эффективность для еще более широкого класса задач. Предложенная в нашем проекте взаимная адаптация за счет использования масштабируемых мультиархитектурных процессоров, свободных от накладных расходов, присущих стандартным микропроцессорам, иерархической сети памяти с программно-управляемой локализацией данных при наличии соответствующего программного обеспечения позволит в еще большей степени повысить эффективность аппаратных средств. В итоге необходима совместная разработка новых алгоритмов, архитектур, технологий, процессоров, методов проектирования, подходов к компоновке систем, средств обеспечения надежности и т. п.
Еще в большей степени обостряются указанные проблемы при создании объединенных вычислительных суперсистем, включающих традиционные суперкомпьютерные подсистемы, ориентированные на различные задачи моделирования, а также подсистемы больших данных, подсистемы аналитики и подсистемы нейрокомпьютеров – так называемые системы искусственного интеллекта. Потребности объединения указанных подсистем связаны с их взаимодополнением при решении многих задач. Так, для решения проблем обработки больших массивов данных необходимо увеличение масштабов обычных баз данных и повышение производительности вычислительных средств для работы с ними. Решение задач искусственного интеллекта требует доступа к большим массивам данных и новых подходов к их обработке. Кроме того, нейросетевые методы обработки данных в ряде случаев оказываются более эффективными, чем традиционные методы построения математических моделей.
Внедрение этих методов охватывает почти все классы машин. Это обостряет конкуренцию в области создания специализированных процессоров, однако ведущие фирмы – Intel и NVIDIA – продолжают сохранять преемственность своих архитектур – соответственно х86 и графических процессоров, что сдерживает развитие более рациональных и радикальных подходов. Тем не менее имеют место и оригинальные разработки, в частности японских фирм NEC и Fujitsu.
Несмотря на монопольное положение фирмы Intel, имеется большое разнообразие архитектур высокопроизводительных вычислительных систем, а ведущие фирмы готовы выпустить новые серии процессоров: Intel – «Skylake» Xeon-SP, AMD – «Naples» Epyc и «Vega», IBM – Power9, NVIDIA – «Volta» Tesla V100. Самостоятельные разработки процессоров ведутся и в Японии, и Китае. Однако, по мнению многих экспертов, без перехода на новые архитектурные решения, которые связаны с созданием нового программного обеспечения и преодоления проблем переноса программ, продвижение к экзафлопсным системам сильно тормозится. Необходима радикальная смена архитектур и алгоритмов для повышения эффективности. Например, руководство фирмы Cray считает, что системы, планируемые к установке в 2019, 2020 или 2021 годах, вероятно, будут заменены на системы, построенные на совершенно новых технологиях и принципах [26].
В США объявлены две программы экзафлопсных систем [27].
В объявленных Министерством энергетики США планах указывается, что имеется два момента, связанные с риском – переход для системы в Аргоннской национальной лаборатории на совершенно новую архитектуру и перенос срока с 2023 на 2021 год. Первоначально машина Aurora планировалась к выпуску в 2018 году с производительностью 180 Пфлопс. По новому плану выпуск экзафлопсной системы (1 000 Пфлопс) намечен на 2021 год. Фирмы Intel и Cray планировали выпустить систему Shasta на основе процессора Knights Hill. В новой системе предполагается использовать кристаллы со сравнительно небольшим числом ядер x86 – один-два десятка, при добавлении широкомасштабной векторной обработки и существенном увеличении объема памяти на основе мультиканальной памяти MCDRAM3, в которой используется этажерочная конструкция на микросборках, а также увеличить пропускную способность сети Omni-Path 3 до 400 Гбит / с. Для сравнения: в кристалле Knights Hill использовались 72 ядра, в каждом из которых по два 512-разрядных векторных процессора, скромный объем памяти и сеть Omni-Path 1 с пропускной способностью до 100 Гбит / с.
Вторая программа связана с системой Summit и ее продолжением NERSC‑9, предназначенными для Национальной лаборатории Ок-Ридж. Архитектура системы основана на графических процессорах Volta фирмы NVIDIA и кристаллах Power9 фирмы IBM. Система должна начать функционировать на задачах в 2018 году с производительностью 200 Пфлопс. Применение матричной обработки Tensor Cores в графическом процессоре Tesla V100 позволит достичь на задачах нейрообработки производительности 3,3 Эфлопс на 16–32-разрядных операндах. Планируется продвижение по этой программе по пути достижения экзафлопсной производительности, однако о деталях архитектуры будущей системы не сообщается.
В Китае для будущих систем планируется использовать семейство процессоров ShenWei, которые уже используются в системе Sunway TaihuLight, занимающей первое место в списке Top500 с пиковой производительностью 125,4 Пфлопс и выполненной на китайских процессорах. Второе направление связано с системой Tianhe‑2A, при модернизации которой сопроцессоры «Knights Corner» Xeon Phi фирмы Intel заменяются на собственные процессоры Matrix2000 DSP, что повысит производительность системы до величины выше 100 Пфлопс при существенном снижении мощности. Прототип системы Tianhe‑3 будет изготовлен в 2018 году и доведен до законченного варианта через два года. Третье направление базируется на системе Sugon Machine, использующей архитектуру x86 [28, 29].
В Японии несколько проектов направлено на разработку экзафлопсных систем.
В направлении развития системы K computer (8,2 Пфлопс) планируется создание Post-K computer, который должен быть в 100 раз более производительным. Объявлено о переходе с архитектуры кристаллов SPARC64 на кристаллы ARMv8-A фирмы ARM, лицензию на которые приобрела японская фирма Fujitsu, которая и разрабатывает систему. Новая архитектура имеет более широкое распространение, что будет способствовать созданию программного обеспечения. Первоначально планировавшийся срок – 2020 год – изменен на 2021 или 2022 годы [30].
Фирма Fujitsu совместно с фирмой Hewlett Packard Enterprise (HPE) на основе графического процессора Pascal ведет работы по созданию системы глубокого обучения для ряда японских исследовательских центров.
Сообщается, что недавно созданная фирма ExaScaler Inc. совместно с университетом Кэйо организовала работу трех фирм по ключевым направлениям разработки компонентов экзафлопсной системы – процессора с большим числом простых ядер (manycore processor), эффективной жидкостной системой охлаждения и многослойной объемной памятью. Уже разработан прототип с высокой энергетической эффективностью – 6,67 Гфлопс / Вт [31].
ИСТОРИЯ И УРОКИ РАЗВИТИЯ ОТЕЧЕСТВЕННОЙ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ
На первых этапах развития вычислительной техники наше отставание было незначительным. Так созданная в 1967 году ЭВМ БЭСМ‑6 была самой быстродействующей в Европе и была разработана на два года позже соизмеримой с ней американской машиной CDC 6600. Успешная и рекордная по продолжительности эксплуатация БЭСМ‑6 объясняется ее оригинальностью и надежностью. Система АС‑6, в состав которой входила БЭСМ‑6, в 1975 году использовалась при проведении работ по программе совместного советско-американского проекта «Апполон – Союз». В системе АС‑6 были впервые реализованы новые идеи, явившиеся основой разработок суперЭВМ и фундаментальных исследований по архитектуре перспективных вычислительных систем.
Проблемы в отечественной вычислительной технике были связаны с двумя факторами. Во-первых, разделение функций между Министерством электронной промышленности СССР (МЭП) и Министерством радиопромышленности СССР (МРП) привело к тому, что вместо проведения собственных комплексных разработок МЭП копировало зарубежные интегральные схемы примитивным методом, а МРП искало прототипы разработок для их освоения. Второй фактор – это решение о копировании аппаратных средств моделей системы IBM System / 360 и заимствовании программного обеспечения в рамках системы ЕС ЭВМ. В такой ситуации отставание было запрограммировано. Кроме того, специалисты, вынужденные осваивать зарубежные схемы и программы, теряли квалификацию.
Работа в направлении объединения технологических возможностей МЭП и опыта по разработке высокопроизводительных систем была осуществлена под руководством заместителя главного конструктора БЭСМ‑6 и главного конструктора АС‑6 академика В. А. Мельникова. В соответствии с совместным решением Министерства электронной промышленности СССР и Академии наук СССР в 1978 году была поставлена задача создания системы с предельной производительностью на основе проведения широкого фронта исследований по микроэлектронике, оптоэлектронике и другим направлениям. В рамках создания системы «Электроника СС БИС‑1» было разработано большое число новых технологий, компонентов и узлов. В 1991 году были проведены испытания системы «Электроника СС БИС‑1», изготовлены и налажены четыре образца. Был разработан аванпроект системы «Электроника СС БИС‑2» с производительностью 10 Гфлопс. Отставание от американских систем составляло около пяти лет. Однако в 1993 году было принято решение о прекращении работ. Естественно, это привело к разрушению всех коллективов, организованных за более чем 10 лет работы. Были утеряны научные и технологические заделы по многим направлениям, в том числе работы по решению больших задач на векторно-конвейерной машине. Опыт разработки, производства и наладки системы «Электроника СС БИС‑1» показал необходимость широкой кооперации академических институтов и промышленности.
ПРОЕКТ ОБЪЕДИНЕННОЙ МУЛЬТИАРХИТЕКТУРНОЙ ВЫЧИСЛИТЕЛЬНОЙ СУПЕРСИСТЕМЫ
После прекращения работ по системе «Электроника СС БИС» исследования по архитектуре и возможности реализации неоднородных вычислительных суперсистем были продолжены. В этих исследованиях в основу был положен комплексный подход с учетом как проблем, связанных с аппаратной реализацией системы, так и проблем, связанных с созданием программного обеспечения.
Концепции построения неоднородных вычислительных суперсистем и предложения по архитектуре и подходам к их реализации были опубликованы в 1995 году [5]. Впервые была предложена архитектура неоднородной суперсистемы, основанной на тесном взаимодействии процессоров для скалярной, векторной и параллельной обработки, которая дает возможность обеспечения высокой эффективности при решении больших задач, содержащих фрагменты с различными формами параллелизма. В результате исследований по применению перспективных ультрабольших интегральных схем была впервые разработана и опубликована в 1997 году архитектура векторного модульного масштабируемого унипроцессора, обеспечивающего выполнение десятков и сотен операций в один такт [6]. В дальнейшем был предложен ряд оригинальных концепций, опередивших зарубежные разработки [7–10], описание которых приводится ниже.
Неоднородная система.
Мониторно-моделирующая подсистема
Основы построения неоднородных вычислительных систем были заложены при разработке систем АС‑6 и «Электроника СС БИС‑1», проектов систем «Электроника СС БИС‑2» и «Электроника СС БИС‑3». В указанном выше докладе 1995 года [5] были изложены новые подходы к созданию суперсистем. В аннотации доклада сказано:
«Рассмотрены проблемы параллелизма, неоднородности и оптимизации программ в высокопроизводительных вычислительных системах. Обоснована концепция создания неоднородной суперсистемы, основанной на тесном взаимодействии процессоров для скалярной, векторной и параллельной обработки. В систему входит также мониторно-моделирующая подсистема для анализа и подготовки задач, дисковая подсистема и подсистема ввода-вывода. Рассмотрены подходы к повышению эффективности суперсистем».
В марте 2006 года фирма Cray объявила о планах создания архитектуры, объединяющей несколько типов процессоров. Для сравнения приведем цитату из статьи [21].
«20 марта 2006 г. Фирма Cray Inc. сегодня объявила о планах разработки суперкомпьютеров, в которых концепция неоднородных вычислений поднимается на совершенно новый уровень путем объединения ряда различных процессоров на единой платформе».
Из сравнения указанных публикаций видно, что концепция неоднородной системы, объединяющей в одной системе процессоры с различной архитектурой, и идея создания программной подсистемы для предварительного анализа задач в России были сформулированы в весьма близких терминах на 10 лет раньше.
Масштабируемый процессор
В 1997 и 1998 годах были опубликованы работы по архитектуре мультиконвейерного модульного масштабируемого унипроцессора, предназначенного для неоднородной суперсистемы [6, 32]. В аннотации доклада [6] сказано:
«Описана архитектура унипроцессора, являющегося частью неоднородной вычислительной суперсистемы. Унипроцессор выполняет только те части больших задач, которые могут эффективно использовать зацепление векторных операций и параллельное выполнение многих векторных и скалярных операций. Унипроцессор может масштабироваться и включать различные наборы конвейерных модулей для обработки и коммутации данных. Цепочки и параллельные ветви, состоящие из модулей, обеспечивают высокую производительность благодаря их топологии с наикратчайшими связями между функциональными устройствами. В максимальной конфигурации унипроцессор может включать до 1 024 модулей и обеспечивать выполнение до 4 тысяч операций с плавающей точкой в такт или 4 TFLOPS».
В начале 2000-х годов фирма IBM совместно с фирмами Sony и Toshiba начала разработку кристалла Cell, сообщения о котором появились в 2005 году, в частности говорилось следующее [33]:
«Cell – это неоднородный мультипроцессорный кристалл, состоящий из ядра IBM 64-bit Power Architecture, дополненного восемью специализированными сопроцессорами, построенными на основе новой архитектуры типа „одна инструкция – множественные данные“».
Этот кристалл использовался в суперкомпьютере Roadrunner фирмы IBM, который в 2008 году впервые достиг производительности в 1 Пфлопс.
В указанных выше работах [6, 32] термин унипроцессор подчеркивал тот факт, что на нем может выполняться единая программа. Однако фактически его структура основана на объединении модулей, каждый из которых является векторным или скалярным процессором. Таким образом, можно утверждать, что имеет место концептуальный приоритет.
Кристалл Xeon Phi фирмы Intel, объявленный в 2012 году, включает 61 векторный процессор, каждый из которых может обрабатывать в векторном режиме операнды шириной 512 бит, что эквивалентно 16 операциям с плавающей запятой с 32-разрядными операндами или 8 операциям с 64-разрядными операндами [34].
Масштабируемый процессор основной машины с самого начала рассматривался как самостоятельный компонент, являющийся основой для реализации различных по архитектуре структур, состоящих из равноправных машин в том смысле, что ни одна из структур не является сопроцессором. В отличие от масштабируемого процессора графические процессоры и кристалл Xeon Phi являются сопроцессорами и функционируют совместно со стандартными микропроцессорами.
В новом кристалле Knights Hill векторные устройства изолированы от скалярной части и от компилятора. Необходимо отметить, что в нашем проекте мультиархитектурной системы основные машины, включающие скалярные и векторные модули, освобождены от функций управления и трансляции, которые полностью выполняются мониторно-моделирующей системой, основанной на управляющих машинах, объединенных в сети управления [6].
Китайская система Sunway TaihuLight имеет ряд особенностей, весьма схожих с предложенными в нашем проекте. Это касается разделения функций между вычислительными и управляющими процессорами и простоты векторного вычислительного процессора [28].
Фирма NEC представила новую платформу SX-Aurora TSUBASA с векторными процессорами, выполняющими основную работу. Процессор Intel Xeon выполняет только вспомогательные задачи: управление подсистемой ввода-вывода, обработка вызовов ОС и прочие вспомогательные вычисления, в том числе скалярные. Каждый кристалл имеет восемь ядер и развивает производительность порядка 2,45 Тфлопс. Общая оперативная память типа HBM2 имеет объем 48 Гбайт. Эти параметры существенно выше, чем у конкурентов [22].
Масштабируемый процессор отличается наличием трех координат изменения степени параллелизма – длина цепочки для выполнения связанных векторных операций, число цепочек в процессоре и число процессоров (машин) в узле.
Мультиархитектура
На следующем этапе исследований в 2003 году в докладе [35] впервые предложен термин «мультиархитектура» применительно к неоднородным вычислительным системам. Приведем цитату из этого доклада.
«Для создания суперсистемы, обеспечивающей высокую эффективность при решении больших задач с фрагментами с различными формами параллелизма, целесообразно тесное объединение двух подсистем – мультиконвейерного векторного процессора, ориентированного в основном на параллелизм на уровне данных, и мультипроцессора, ориентированного в основном на параллелизм на уровне задач. Такая мультиархитектурная суперсистема должна обладать свойствами масштабируемости на всех уровнях, а также быть открытой для подключения подсистем с другой архитектурой».
В указанной выше статье [21], опубликованной в 2006 году и посвященной планам фирмы Cray, было сказано:
«Фирма Cray будет внедрять адаптивные супервычисления поэтапно. На первом этапе, которому присвоено название „Rainier“, будет обеспечена интеграция всех платформ фирмы Cray в интересах пользователей. На втором этапе будет создана полностью интегрированная мультиархитектурная система, и на заключительном этапе дальнейшее развитие систем фирмы Cray будет заключаться в создании программного обеспечения для динамического распределения ресурсов, что приведет к автоматизации адаптивных супервычислений».
Идея создания подсистемы для распределения ресурсов и анализа задач на предмет формы параллелизма была предложена в 1995 году в работах [5, 36], где сказано:
«Задачи через подсистему ввода-вывода поступают в мониторно-моделирующую подсистему, где, во‑первых, анализируются на предмет формы параллелизма. Для этого анализа и трансформации алгоритмов могут использоваться средства программного моделирования, позволяющие оценить эффективность распределения задачи внутри вычислительной подсистемы. При этом возможно интерактивное взаимодействие с программистом.
Работа мониторно-моделирующей подсистемы на этом этапе завершается статической подготовкой пакетов заданий – программ и данных для вычислительной подсистемы и помещением этой информации в системную или дисковую память.
Динамическое распределение заданий осуществляется за счет работы системы очередей, где хранятся директивы – описатели заданий и директивы – описатели результатов выполнения заданий. Последние поступают в очередь на входе мониторно-моделирующей подсистемы».
В аннотации статьи, названной «Мультиархитектура – новая парадигма для суперкомпьютеров» [3] и опубликованной в 2005 году, сказано:
«Мультиархитектурные вычислительные суперсистемы, по мнению автора предлагаемой статьи, – это следующее поколение суперкомпьютеров. Они не только обеспечивают наилучшее согласование алгоритмов задач с возможностями аппаратных средств, но позволяют наиболее эффективно использовать перспективные СБИС с ультравысокой степенью интеграции.
Изложенный в статье подход начал формулироваться в начале 90-х годов. Сегодня уже разработаны концепция, принципы построения и собственно проект мультиархитектурной вычислительной суперсистемы».
Мультиархитектура – это инструмент конфигурирования и масштабирования при повышении эффективности и возможности развития путем включения новых модулей и подсистем. Такие системы могут охватывать практически все классы машин от суперкомпьютеров до персональных компьютеров [37, 38].
Сеть памяти, обменно-редактирующая машина
Концепция специализации сетей имеет большую историю. В рамках проекта мультиархитектурной системы концепция сетевой структуры со специализированными сетями была сформулирована в 2009 году [7]. Первые шаги были сделаны в 1985 году при разработке внешней полупроводниковой памяти в системе «Электроника СС БИС‑1» [39, 40].
В [7] была обоснована эффективность выделения иерархической сети памяти, в которой передача данных с одного уровня иерархии на другой осуществляется с помощью обменно-редактирующей машины. Эта машина выполняет широкий спектр задач по управлению массивами данных, а также редактирование данных при обмене. На каждом уровне иерархии имеется общая память, которая на разных уровнях имеет различный объем и физическую реализацию.
Китайская система Sunway TaihuLight также использует 5-уровневую иерархию сетевой структуры.
Аналогичный подход построения иерархической структуры использован фирмой Cray в многоуровневой иерархической адаптивной системе памяти (Tiered Adaptive Storage) [41], а также в специальной системе ускорения ввода-вывода DataWarp, предложенной для системы Cray XC40 [42]. В последней системе используется идея использования специального пикового буфера burst buffer, реализованного на флеш-памяти и обеспечивающего высокую пропускную способность при обмене с дисками.
Указанные средства необходимы при планировании последовательности выполнения, распределении и подготовке программ с их данными с целью обеспечения локализации данных и эффективного использования памяти и каналов обмена.
Межузловая сеть
Межузловая сеть имеет узкую специализацию обеспечения взаимодействия между вычислительными узлами. При этом все пересылки массивов данных выполняются в рамках сети памяти, а управляющая информация направляется по сети управления. Межузловая сеть является горизонтальной сетью, то есть в ней отсутствует иерархическая структура, а взаимодействие между программами определяется динамикой выполнения программ и не зависит от централизованного управления программами в рамках мониторно-моделирующей подсистемы. В результате повышается эффективность взаимодействия программ, выполняемых в различных вычислительных узлах.
Функционально-специализированные машины
В состав системы входит целый ряд машин, предназначенных для выполнения программ операционной системы, управления распределением и выполнением программ на основных машинах и управления обменом данными в рамках сетевых структур. Управляющие машины, объединенные сетью управления, присутствуют на всех уровнях иерархии системы. Центральная управляющая машина выполняет основные функции операционной системы и выдает задания управляющим машинам в соответствии с их иерархией. Последние в свою очередь выдают задания основным, сетевым, обменно-редактирующим и периферийным машинам.
Новая парадигма программирования и трансляции прикладных программ для мультиархитектурной вычислительной системы состоит из следующих условий:
• разделение программы на модули обработки с разными формами параллелизма и подготовка соответствующих программ;
• разделение программы на модули обработки, выполняемые на основной машине, и модули управления данными;
• выполнение этих модулей на разных по архитектуре машинах;
• формулирование требований к архитектуре управляющих и обменно-редактирующих машин;
• разделение модулей управления данными на модули для управляющих машин и модули (задания) для обменно-редактирующих машин. Возможен вариант, при котором модули управления данными выполняются в обменно-редактирующих машинах, а в управляющих машинах выполняются только функции операционной системы.
В мультиархитектурной вычислительной системе операционная система представляет собой распределенную мониторно-моделирующую подсистему, состоящую из сети управления и управляющих машин всех уровней с их программами. Часть функций операционной системы выполняет обменно-редактирующая машина, однако она выполняет и функции прикладных задач по подготовке данных.
Функционально-специализированные машины, входящие в состав системы, существенно отличаются от масштабируемых основных машин прежде всего в силу сокращения количества форматов данных за счет исключения операций с плавающей запятой, а также за счет применения более простых схем выполнения операций и меньшей глубины конвейерных схем. В основе всех указанных машин использован единый модуль процессора – базовый процессор. Функционально-специализированная машина состоит из базового процессора, оперативной памяти, модуля расширения для процессора, специализированных модулей и адаптера сети памяти.
Развитие системы
Возможности развития архитектуры системы заложены в самой ее структуре. Дальнейшее развитие системы связано с разработкой архитектуры объединенной мультиархитектурной вычислительной суперсистемы, включающей традиционную суперкомпьютерную подсистему и подсистемы больших данных, аналитики и нейросетевых компьютеров. В рамках этих исследований планируется разработка следующих аспектов вычислительной суперсистемы.
Архитектура вспомогательных машин, занимающих промежуточное положение между проблемно-ориентированными и функционально-специализированными машинами и выполняющих, кроме пересылки данных, более сложные задачи контекстного поиска, фильтрации, преобразования форматов и т. п.
Структура дополнительных уровней сети памяти с соответствующими специализированными вспомогательными машинами.
Архитектура обменно-редактирующих машин трех уровней, предназначенных для унификации форматов данных внешних источников, для форматирования данных в соответствии с алгоритмами обработки и для управления распределением фрагментов программ и данных в памяти.
Адаптация архитектуры основной машины с целью повышения эффективности решения двух основных классов задач: традиционных суперкомпьютерных вычислений и так называемых задач искусственного интеллекта.
Архитектура скалярной основной машины и векторной основной машины с учетом повышения эффективности. Новые структуры сети межмодульных связей для построения специализированных машин, сети подкачки данных и прямые межмодульные связи в виде программируемой межмодульной сети. Объединение нескольких основных машин в кристалле.
Исследование развития системы для решения задач искусственного интеллекта по следующим направлениям:
• создание новых алгоритмов с использованием конфигурации векторной основной машины;
• разработка узкоспециализированных модулей и создание соответствующей конфигурации основной машины;
• разработка специализированной машины, ориентированной на обработку матричных операндов.
Исследование расширения функций мониторно-моделирующей подсистемы интегрированной мультиархитектурной системы в связи с увеличением номенклатуры проблемно-ориентированных и вспомогательных машин.
Формирование многоуровневой межузловой сети, состоящей из подсетей для объединения различных узлов.
Сопоставление полученных результатов наших исследований с мировым уровнем показывают концептуальный приоритет по основным направлениям. Следует подчеркнуть исключительную важность отечественной разработки всех аспектов создания вычислительных суперсистем, а именно разработки архитектуры, элементной базы и конструкции, программного обеспечения, методов проектирования и технологии изготовления.
ЗАКЛЮЧЕНИЕ
Основной задачей при создании суперкомпьютеров является достижение сверхэффективности за счет простоты, сокращения паразитных потерь и специализации (взаимной адаптации). Для суперкомпьютеров первого поколения выполнялась разработка элементов, архитектуры и конструкции, предназначенных именно для машин с предельной производительностью. В отличие от этого, системы на микропроцессорах использовали элементы, первоначально разработанные для персональных компьютеров или для машин малой производительности. Кроме того, сохранение совместимости программного обеспечения приводит к дополнительным ограничениям, к потерям эффективности из-за паразитных потерь и избыточной энергии, а также к необходимости введения искусственных средств адаптации в операционной системе Microsoft в каждом процессоре Intel и системе CUDA в графических процессорах NVIDIA.
Возврат к нормальному развитию, то есть к первичной самостоятельной разработке вычислительных суперсистем неизбежен. Это приведет к созданию новых архитектур, которые в дальнейшем могут быть использованы и для массовых компьютеров. Сейчас процесс начинается с акселераторов и сопроцессоров, но эти «половинчатые» решения должны привести к замене микропроцессоров на специализированные мультиархитектурные конструкции, в которых объединяются наборы процессоров для прикладных программ с различными формами параллелизма и наборы функционально-специализированных процессоров. Таким образом, в мультиархитектурной системе будут объединяться различные, но равноправные процессоры.
В настоящее время в США, Японии, Китае, Индии, России и Европейском союзе предложены планы создания систем с экзафлопсной производительностью. По мнению большинства экспертов для следующего этапа потребуются исследования и разработки неоднородных систем, новой архитектуры, новой элементной базы, а также нового подхода к программированию. Вопрос состоит в том, какая из фирм первой перейдет на новую архитектуру.
В нашей стране собственные исследования и разработки проводились в условиях отсутствия производства микропроцессоров и других компонентов, что привело к необходимости ориентации на использование импортных изделий. По существу, должна ставиться задача развертывания исследований и разработок всего спектра технологий, включая электронное машиностроение. При этом программа работ не должна повторять ошибочный с технической точки зрения путь (выгодный с точки зрения быстрого получения прибыли) – от персональных компьютеров к суперсистемам, а наоборот – должна строиться в направлении от суперсистем ко всем классам машин, включая персональные.
При создании новых систем необходимо отдать приоритет системам на отечественной элементной базе. Основными причинами такого подхода являются обеспечение безопасности и экономической целесообразности. Надежность систем зависит и от фактора внешнего или запрограммированного воздействия, что при применении импортной элементной базы исключить нельзя. Развитие собственной элементной базы является важным фактором стимулирования экономического развития, оказывающим влияние практически на все отрасли экономики. Следует подчеркнуть, что известная практика импортозамещения, являющаяся практически копированием зарубежных образцов, должна быть сведена к минимуму. Кроме того, на развитие элементной базы сильное влияние и сдерживающее воздействие оказывает крайняя степень монополизации в отрасли. В новых разработках необходимо опираться на последние достижения отечественной и мировой науки для создания отечественной технологической базы. Заделом таких разработок являются исследования по мультиархитектурным вычислительным суперсистемам, выполненным в Физико-технологическом институте РАН [8–10].
К числу основных оригинальных концепций, лежащих в основе проекта суперсистемы, относятся: неоднородность и мультиархитектура вычислительных средств; масштабируемая и конфигурируемая основная машина; функционально-специализированные вспомогательные машины; специализация сетей; обеспечение локальности данных; распределенная операционная система; взаимная адаптация прикладных программ, архитектуры и операционной системы. Многие концепции, предложенные при проведении исследований, опережали зарубежные разработки на 5–10 лет.
Основные преимущества концептуального проекта мультиархитектурной вычислительной суперсистемы основаны на взаимной адаптации аппаратной реализации, архитектуры и программного обеспечения. Высокая степень масштабирования обеспечивает возможность суперсистем с производительностью более 1 Эфлопс. Изложенные в проекте концепции и архитектурные решения могут быть применены и при создании новых систем, включающих нетрадиционные подходы. Так, наиболее вероятной структурой квантовых компьютеров будет та или иная форма их объединения и взаимодействия с классическими компьютерами. Таким образом, развитие концепции мультиархитектуры в перспективе может быть использовано для совершенствования классических вычислений на основе новых технологий и повышения эффективности аппаратных и программных средств, а также для создания уникальных новых систем.
Для реализации проекта мультиархитектурной системы необходимо выполнение государственной программы, включающей комплекс НИР и ОКР, а также работы по освоению новых технологий и организации новых производств. Определение приоритетных направлений обеспечит рациональное планирование работ в соответствии с потребностями. Планирование должно предусматривать параллельные и согласованные работы по всем направлениям под единым научным руководством. Необходима четкая кооперация всех участников проекта, перевод предприятий в статус стратегически важных.
На первом этапе целесообразно проведение согласованных исследований по алгоритмам новых больших задач и моделирование основных особенностей системы команд, сетевых средств и методов анализа задач.
Затем, после корректировки архитектурных решений необходима разработка макетных образцов основных модулей и создание инструментария для построения аппаратно-программных моделей как среды для параллельной разработки аппаратных решений и программного обеспечения, в том числе САПР.
Параллельно с указанными работами необходимо освоение технологии изготовления всего комплекса БИС, в том числе масштабируемых, то есть состоящих из заданного для данного класса задач набора модулей. Необходимо освоение технологии изготовления блоков и средств межсоединений, а также систем питания и охлаждения (отвода тепла).
На завершающем этапе должны быть проведены ОКР по всему фронту разработки, изготовления и наладки системы.
ЛИТЕРАТУРА
1. Митропольский Ю. И. Суперкомпьютеры и микропроцессоры. Каким будет их завтрашний день? // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 1998. № 3–4. С. 19–22.
2. Митропольский Ю. И. Суперкомпьютеры и микропроцессоры. Приоритеты исследований и разработок // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2000. № 2. С. 18–21.
3. Митропольский Ю. И. Мультиархитектура – новая парадигма для суперкомпьютеров // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2005. № 3. С. 42–47.
4. Круглый стол «Судьба электроники России». Встреча первая // ЭЛЕКТРОНИКА: Наука, Технология, Бизнес. 2002. № 2. С. 4–11.
5. Митропольский Ю. И. Концепции построения неоднородных вычислительных суперсистем // Сборник «Распределенная обработка информации». Труды Пятого Международного семинара. – Новосибирск: Институт физики полупроводников СО РАН, 1995. С. 42–46.
6. Митропольский Ю. И. Мультиконвейерный унипроцессор // Сборник «Вычислительные машины с нетрадиционной архитектурой. Супер ВМ». Выпуск 5. Неоднородные вычислительные суперсистемы. – М.: ИВВС РАН, 1997. С. 50–64.
7. Митропольский Ю. И. Принципы построения сетевой структуры мультиархитектурной вычислительной системы // Суперкомпьютерные технологии: разработка, программирование, применение (СКТ‑2010) // Материалы Международной научно-технической конференции. Т. 1. – Таганрог: Изд-во ТТИ ЮФУ, 2010. С. 136–140.
8. Митропольский Ю. И. Проблемы разработки новой архитектуры процессоров и вычислительных систем // Труды Физико-технологического института РАН/ Гл. ред. А. А. Орликовский. – М.: Наука. Т. 23. 2013. С. 109–140.
9. Митропольский Ю. И. Элементная база и архитектура будущих суперкомпьютеров // Микроэлектроника. 2015. № 3. С. 163–179.
10. Митропольский Ю. И. Концептуальный проект мультиархитектурной вычислительной суперсистемы. – М.: ТЕХНОСФЕРА, 2016. 146 с.
11. Thornton J. Design of a Computer – The Control Data 6600 // Glenview, Il: Scott, Foresman and Co, 1970.
12. Control Data 7600 Computer System. Preliminary System Description // http://s3data.computerhistory.org/brochures/cdc.7600.1968.102646087.pdf.
13. Planning a Computer System: Project Stretch. Edited by W. Buchholz. – New York: McGraw-Hill Book Company, 1962. 322 p.
14. Митропольский Ю.И. БЭСМ‑6, АС‑6 и их влияние на развитие отечественной вычислительной техники // Информационные технологии и вычислительные системы. 2002. № 3. С. 49–58.
15. Russell R. M. The CRAY‑1 Computer System // Communications of the ACM. Jan. 1978. V. 21. № 1. PP. 63–72.
16. Мельников В.А., Митропольский Ю. И., Шнитман В. З. Научные, технологические и методические аспекты создания вычислительной системы «Электроника СС БИС‑1» // Юбилейный сборник трудов Отделения информатики, вычислительной техники и автоматизации Российской академии наук. – М.: ОИВТА РАН, 1993. С. 28–41.
17. Melnikov V. A., Mitropolski Yu. I., Reznikov G. V. Designing the Electronica SS BIS Supercomputer // IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part A. June 1996. Vol.19. No. 2. PP. 151–156.
18. Производство и плюсы вычислительной системы «Эльбрус 3–1» // http://mosprivod.ru/proizvodstvo-i-plyusy-vychislitelnoj-sistemy-%E2%80%9Celbrus‑3-1%E2%80%9D/
19. Japanese 'Computenik' Earth Simulator shatters US supercomputer hegemony. – http://www.hoise.com/primeur/02/articles/weekly/AE-PR‑05-02-59.html.
20. Dunigan T. H., Jr., Fahey M. R., White J. B. III, Worley P. H. Early Evaluation of the Cray X1 // Proceedings of the IEEE/ACM SC2003 Conference. 2003. Nov. 15–21.
21. Cray Will Leverage an «Adaptive Supercomputing» Strategy to Deliver the Next Major Productivity Breakthrough // Seattle, Wa, March 20, 2006. – http://investors.cray.com/phoenix.zhtml?c=98390&p=irol-newsArticle&ID=833494&highlight=.
22. Morgan T. P. A Deep Dive Into NEC‘s Aurora Vector Engine, November 22, 2017 // https://www.nextplatform.com/2017/11/22/deep-dive-necs-aurora-vector-engine/.
23. Barker K. J., Davis K., Hoisie A., Kerbyson D. J., Lang M., Pakin S., Sancho J. C. Entering the petaflop era: The architecture and performance of Roadrunner // Proceedings of the 2008 ACM/IEEE Conference on Supercomputing SC '08, 2008. PP. 1–11.
24. Hemsoth N. A Look Inside China‘s Chart-Topping New Supercomputer, June 20, 2016 // https://www.nextplatform.com/2016/06/20/look-inside-chinas-chart-topping-new-supercomputer/.
25. Toward Exascale Computing with Heterogeneous Architectures. – http://sc10.supercomputing.org/schedule/event_detail.php-evid=pan129.html.
26. Morgan T. P. Cray Looks Forward To Supercomputing Rebound, October 31, 2017 //
https://www.nextplatform.com/2017/10/31/cray-looks-forward-supercomputing-rebound/.
27. Larzelere A. R. Momentum Builds for US Exascale, January 9, 2018 // https://www.hpcwire.com/2018/01/09/momentum-builds-us-exascale/.
28. Feldman M. China Will Deploy Exascale Prototype This Year January 19, 2017 // https://www.top500.org/news/china-will-deploy-exascale-prototype-this-year/.
29. Morgan T. P. China Arms Upgraded Tianhe‑2A Hybrid Supercomputer, September 20, 2017 //
https://www.nextplatform.com/2017/09/20/china-arms-upgraded-tianhe‑2a-hybrid-supercomputer/.
30. Brueckner R. Fujitsu Unveils Processor Details for Post-K Computer, August 23, 2016 // https://insidehpc.com/2016/08/60176/.
31. Trader T. New Japanese Supercomputing Project Targets Exascale, March 14, 2017 // https://www.hpcwire.com/2017/03/14/new-japanese-supercomputing-project-targets-exascale/.
32. Митропольский Ю. И. Архитектура мультиконвейерного модульного масштабируемого унипроцессора // Труды Шестого Международного семинара «Распределенная обработка информации». – Новосибирск: Институт физики полупроводников СО РАН, 1998. С. 30–34.
33. The Cell project at IBM Research – The Cell Architecture // August 2005. – https://researcher.watson.ibm.com/researcher/view_group.php?id=2649.
34. Intel Reveals Architecture Details of Intel Xeon Phi Co-Processor, August 30, 2012 // http://www.cdrinfo.com/Sections/News/Details.aspx?NewsId=34114.
35. Митропольский Ю. И. Мультиархитектурная вычислительная суперсистема // Труды Первой Всероссийской научной конференции «Методы и средства обработки информации». – М.: МГУ, 2003. С. 131–136.
36. Анохин А.В., Ленгник Л. М., Митропольский Ю. И., Пучков И. И. Архитектура неоднородной вычислительной суперсистемы // Сборник «Распределенная обработка информации». Труды Пятого Международного семинара. – Новосибирск: Институт физики полупроводников СО РАН, 1995. С. 22–27.
37. Митропольский Ю. И. Масштабируемый векторный процессор в составе мультиархитектурной суперсистемы // Труды Второй Всероссийской научной конференции «Методы и средства обработки информации». – М.: МГУ, 2005. С. 47–52.
38. Митропольский Ю. И. Проект многоуровневой масштабируемой мультиархитектурной вычислительной системы // Труды Четвертой Международной конференции «Параллельные вычисления и задачи управления», Москва, 27–29 октября 2008 г., Институт проблем управления им. В. А. Трапезникова, 2008. С. 533–558.
39. Митропольский Ю.И., Захаров Ю. В., Усан А. А., Шнитман В. З. Организация управления полупроводниковой внешней памятью высокопроизводительной вычислительной системы // Тезисы докладов на I Всесоюзной конференции «Проблемы создания суперЭВМ, суперсистем и эффективность их применения», Минск, 15–17 сент. 1987 г., Институт математики АН БССР, Минск, 1987.
40. Захаров Ю. В., Иванников В. П., Митропольский Ю. И., Мисюрев A. В., Усан А. А., Шнитман В. З. Процессор полупроводниковой внешней памяти высокопроизводительной вычислительной системы // Авторское свидетельство № 1539789, приор. 14.01.87, зарегистрировано 01.10.89.
41. Feldman M. The Big Data Challenge: Intelligent Tiered Storage at Scale // Intersect360 Research, White paper, November 2013.
42. Hemsoth N. Cray Strikes Balance with Next-Generation XC40 Supercomputer, September 30, 2014 //
http://www.hpcwire.com/2014/09/30/cray-strikes-balance-next-generation-xc40-supercomputer/.
Отзывы читателей