64-бит процессоры – Opteron и Athlon, Itanium 2 и UltraSparc III – производятся фирмами-разработчиками (AMD, Intel, Sun), тогда как процессоры семейства MIPS фирмы MIPS Technologies поставляются в основном как интеллектуальная собственность.
Сегодня нельзя выявить господствующую архитектуру 64-бит процессора: CISC-, RISC- и новая EPIC-архитектуры позволяют получать впечатляющие эксплуатационные характеристики и, по-видимому, исчезнут не скоро. И самое удивительное, процессоры каждой архитектуры сопоставимы по своей производительности, что, тем не менее, не исключает различия в их характеристиках, определяемых периферией, объемом и быстродействием кэш-памяти, типом и скоростью передачи данных шинного интерфейса, а также технологией изготовления.
На производительность процессора влияет и используемая компилирующая программа. Так, компилятор необходим для процессоров модели Itanium 2 фирмы Intel с EPIC-архитектурой и для поддержки SIMD Altivec расширения процессоров PowerPC фирмы IBM. Архитектура высокопроизводительных процессоров становится слишком сложной, и средний компилятор будет превосходить среднего программиста на языке ассемблера по качеству кода, не говоря о других достоинствах языков высокого уровня, особенно когда задействованы глубокие конвейеры, кэши большой емкости и необходимость прогнозирования ветвления. Вследствие увеличения сложности системы, индивидуальных отличительных особенностей архитектур и проблем синхронизации для получения максимальной производительности системы возрастает значение правильного упорядочения команд. Это прямая задача компилятора, но для программиста на языке ассемблера – мука. Еще одна область, где компилятор дает прекрасные результаты, – это процессоры с исполнительными блоками, работающими с одним потоком команд и множеством потоков данных (SIMD). Способность компилирующей программы использовать сложные аппаратные средства, подобные PowerPC c AltiVec-векторным исполнительным блоком, обеспечивающим обработку вектора данных каждой вычислительной операцией, имеет большое значение из-за трудностей, связанных с разверткой нескольких вложенных циклов. Следует отметить, что расширению применения компилирующих программ, помимо роста популярности 64-бит процессоров, способствуют также увеличение производительности инструментальных средств, способных выполнять больше сложных задач оптимизации, а также использование профильных данных, благодаря чему улучшается возможность оптимизации программ путем проведения последовательных компиляций.
Представленные сегодня на рынке высокопроизводительные 64-бит процессоры имеют много общего. Во-первых, во всех процессорах старших моделей применяется несколько блоков кэш-памяти большого объема: большинство систем имеют, по крайней мере, кэши первого (L1) и второго (L2) уровня, а процессор Itanium 2 – кэш третьего уровня (L3) объемом в несколько мегабайт (табл.1). Кэш большого объема – ключ к оперированию не только потоками (нитями), но и к оперированию их большим числом. Во-вторых, у всех таких процессоров предусмотрены внутрисхемные контроллеры оперативной памяти, а размещение памяти ближе к ядру позволяет уменьшить время ожидания.
Чтобы ответить на вопрос, каковы же новейшие 64-бит устройства, способные "перемалывать" огромный объем данных, рассмотрим процессоры, которые можно найти в современных уже выпущенных системах.
64-БИТ Х86 ПРОЦЕССОРЫ
64-бит процессоры семейства AMD64 фирмы AMD – серии Athlon 64 для ПК и ноутбуков и Opteron для высокопроизводительных серверов и рабочих станций – выполнены на базе представленного в 2003 году 64-бит ядра кристалла восьмого поколения, позволяющего легко расширять возможности х86 архитектуры (наподобие перехода в прошлом от процессоров серии 8086 к процессорам серии 80286). Благодаря возможности работать в 32-бит режиме х86 процессоры этих семейств можно рассматривать как 32-бит устройства со сверхвысоким быстродействием.
Архитектура ядра AMD64 – это простая, но мощная совместимая назад расширенная 64-бит архитектура стандартного процессора х86. Принцип построения процессоров семейств AMD64 можно проиллюстрировать на примере представленного на выставке CeBIT 2004 процессора Athlon 64 FX (рис.1), который, по утверждению фирмы, предоставляет компьютерным энтузиастам захватывающие возможности.
Athlon 64 FX, как и другие процессоры семейства AMD64, содержит 16 64-бит регистров общего назначения с 48-бит виртуальными и 40-бит физическими адресами и 16 128-бит регистров команд расширенной потоковой SIMD-передачи (SSE/SEE2), т.е. объем и число их регистров вдвое больше, чем у 32-бит процессоров семейств Athlon и Pentium4. Разработчики посчитали, что именно 16 регистров обеспечивают наилучшее сочетание высокого быстродействия, низких непроизводительных затрат и малой площади, занимаемой "железом" системы. Доступ к регистрам возможен в автономном 64-бит режиме или в смешанном 32/64-бит режиме, причем для этого требуются всего три новые команды: две для изменения режима доступа и одна – префиксный байт, позволяющий потоку CISC-команд обращаться к 64-бит регистрам. Средняя длина 32-бит команды составляет 3,2 байта, а 64-бит команды – 3,7 байт.
В блок Northbridge процессора Athlon 64 FX входят HyperTransport*-интерфейс, контроллер оперативной памяти и интерфейсы с ядром процессора. HyperTransport-интерфейс шины шириной 16 бит обеспечивает высокую пропускную способность средств ввода/вывода (до 1600 Мпередач/с, или 3,2 Гбайт/с в каждом направлении, т.е. всего 6,4 Гбайт/с). Шина работает на частоте 200, 400, 600 и 800 МГц (400, 800, 1200 и 1600 Мпередач/с, соответственно). Модель Athlon 64 FX содержит три HyperTransport-канала, что позволяет вместо совместного использования одного общего канала выделить отдельный канал для передачи видеоданных.
Внутрисхемный контроллер оперативной памяти шириной 128 бит с пропускной способностью до 6,4 Гбайт/с обеспечивает программируемое управление временными характеристиками синхронных ДОЗУ DDR-типа различных DIMM-конфигураций емкостью от 32 Мбайт до 4 Гбайт.
В наборно-ассоциативную двухканальную L1 кэш-память входят кэш данных емкостью 64 Кбайт с расширенными функциями исправления ошибок, поддерживающий две (загрузка, хранение или их комбинация) 64-бит операции/такт (ожидание – 3 такта), и кэш команд емкостью 64 Кбайт. 16-канальный L2 кэш емкостью 1 Мбайт хранит данные и команды.
Изготавливаются процессоры серии Athlon 64 по 0,13-мкм КНИ-технологии на заводе фирмы в Дрездене. На кристалле площадью ~193 мм2 размещено около 105 млн. транзисторов. Монтируется процессор Athlon 64 FX в 940-выводной керамический корпус PGA-типа размером 40х40 мм. Поставляется по цене 733 долл. в партии 1 тыс. штук.
Фирма активно расширяет и производство процессоров серии Opteron, в основном четырех- и восьмиканальных чипов для встраиваемых центральных процессоров старших и маломощных моделей. Появление процессоров этого семейства – значительный шаг вперед на пути обеспечения совместимости, высокой производительности, защиты инвестиций и снижения полной стоимости владения. Фирма предлагает три серии процессоров: серия 100 (одноканальные для высокопроизводительных рабочих станций), 200 (одно- и двухканальные также для рабочих станций) и 800 (четырех- и восьмиканальные для серверов старших моделей). Адресное пространство процессоров семейства составляет 256 Тбайт, благодаря чему они весьма перспективны для применения в системах с большими (или многими) базами данных. В первом квартале 2004 года фирма планировала выпустить маломощные (55 и 30 Вт) варианты процессоров семейства, весьма перспективных для встраиваемых устройств, в том числе и для серверов-лезвий*. Стоимость процессоров этого семейства – от 3199 до 146 долл.
По утверждению фирмы AMD, процессоры семейства AMD64 – единственные представленные сегодня на рынке "трудоспособные" устройства, которые могут выполнять как 32-бит, так и 64-бит приложения, и единственные процессоры ПК со встроенными усовершенствованными антивирусными средствами. Судьба Opteron достаточно прозрачна: мало кто сомневается, что он окажется востребованным. Судьба Athlon 64 не столь ясна, поскольку он вторгается в сферу интересов фирмы Intel. Тем не менее, можно отметить, что с момента появления в 2003 году AMD64-архиитектуры процессоры серий Athlon 64 и Opteron получили более 35 наград за инновационные решения и рабочие характеристики. Более 1 тыс. разработчиков аппаратных и программных средств, изготовителей комплектного оборудования и дистрибьюторов уже проявили к ним интерес.
ЭВОЛЮЦИЯ АРХИТЕКТУРЫ
Процессор Itanium 2 фирмы Intel с EPIC-архитектурой – результат огромных усилий разработчиков фирмы. Это – новейшее современное 64-бит устройство, предназначенное для высокопроизводительных систем, от многопроцессорных до двухпроцессорных, используемых в корпоративных и больших вычислительных комплексах.
Глубокий конвейер (восемь стадий) процессора Itanium 2 на тактовую частоту 1,5 ГГц позволяет реализовывать параллелизм на уровне команд (Instruction Level Parallelism – ILP) и минимизировать их задержку. Itanium 2 совместим с другими процессорами семейства Itanium снизу вверх. Но без программ перекомпиляции он может пользоваться лишь теми блоками, для которых проводилась первоначальная компиляция. Программы компиляции располагают значительным числом ресурсов, обеспечивающих их реализацию. Это – шесть устройств обработки целых чисел, шесть мультимедийных исполнительных устройств, два устройства загрузки регистров/записи в память, три блока обработки команд перехода, два устройства с плавающей точкой, работающие с данными расширенной точности и одно дополнительное устройство с плавающей точкой одинарной точности. Процессор может выбирать, выдавать, выполнять и сбрасывать до 6 команд/такт. С учетом мощной семантики команд число операций, выполняемых за такт, много больше (от восьми параллельных операций/такт до 20 операций/такт при цифровой обработке изображений и работе с плавающей точкой с одинарной точностью). Одна или более независимых команд объединяются в группу и в зависимости от имеющихся ресурсов могут выполняться параллельно. Способность компилирующей программы точно параллелизовать команды – ключ к высокой производительности процессоров серии. Существенному повышению производительности способствует и большое число регистров процессора, которые предоставляют компилирующей программе значительную гибкость при реализации параллелизма.
Итак, Itanium 2 располагает 128 64-бит регистрами общего назначения для выполнения целочисленных и мультимедийных вычислений, 64 одноразрядными регистрами предсказания для управления исполнением команд и условных переходов; восемью 64-бит регистрами переходов, предназначенными для установления целевого адреса условного перехода и 128 82-регистрами с плавающей точкой. Подмножество регистров общего назначения организовано в логически бесконечный набор стековых фреймов, формируемый из конечного множества физических регистров. Регистровыми ресурсами эффективно управляет регистровый стек, оперирующий 96 регистрами файла.
В микросхему процессора входит внутрисхемный трехуровневый кэш большого объема. L1 кэш емкостью 32 Кбайт (команд и данных) выполняет команду за один такт, L2 кэш емкостью 256 Мбайт – за пять-семь тактов. Кроме того, Itanium 2 пока единственный
64-бит процессор с внутрисхемным кэшем третьего уровня (L3) емкостью от 1,5М до 6 Мбайт.
Пропускная способность шины достигает 6,4 Мбайт/с, ширина шины данных составляет 128 бит, ее частота – 400 МГц. Шина поддерживает 50-бит физическую и 64-бит виртуальную адресацию. Системы на базе микропроцессоров Itanium 2 могут поддерживать до нескольких сотен центральных процессоров (ЦП). Так, процессор с 6-Мбит L3 кэш-памятью поддерживает до четырех ЦП без применения дополнительных логических устройств. А при использовании чип-сетов, предназначенных для систем симметричной многопроцессорной обработки (SMP), платформа на основе Itanium поддерживает до 32 процессоров. В специализированных системах это число может быть еще больше.
До последнего времени 32-бит операции выполнялись аппаратными средствами. Но в 2004 году Intel намерена выпустить программный IA-32 исполнительный слой, что позволит переводить команды IA-32 в программные средства и выполнять их как собственные команды процессора.
Ядро процессора Itanium 2 с оптимизированной под программные средства EPIC-архитектурой меньше ядра 32-бит процессора семейства Pentium. Большой же размер чипа процессора обусловлен наличием L3 кэша большого объема. Благодаря своим свойствам Itanium 2 является серьезным конкурентом для процессоров современных RISC-платформ самых разнообразных конфигураций – от больших SMP-систем до серверов младших моделей и рабочих станций.
Сейчас в семейство Itanium 2 входят процессоры трех моделей:
· на частоту 1,5 ГГц с L3 кэш-памятью емкостью до 6 Мбайт (поставляется в трех конфигурациях с различными тактовыми частотами и емкостью L3 кэша, табл.2), характеризуемый самой высокой в промышленности производительностью и предназначенный для сложных корпоративных систем, баз данных, систем проведения инженерно-технических расчетов;
· на частоту 1,4 ГГц с L3 кэш-памятью емкостью 1,5 Мбайт, предназначенный в первую очередь для двухпроцессорных систем и характеризуемый самой низкой в промышленности удельной стоимостью в пересчете на производительность;
· на низкое напряжение питания на частоту 1 ГГц с L3 кэш-памятью емкостью 1,5 Мбайт, также для двухпроцессорных систем стоечных и лезвийных конфигураций, а также фронтальных серверов и рабочих станций, для которых стоимость и/или потребляемая мощность – критические параметры.
На основе этих трех моделей можно реализовать пять процессорных конфигураций, благодаря чему достигается высокая гибкость оптимизации рабочих характеристик для широкого спектра приложений и условий окружающей среды.
К 2005 году Intel планирует выпустить усовершенствованные варианты процессора семейства Itanium с кэш-памятью большей емкости, выполненные по 90-нм технологии. Но технология Itanium – не единственная, используемая для создания 64-бит устройств. По мнению аналитика компании Insight 64, Intel должна постараться убедить заказчиков в том, что в ее планы входит создание 64-бит настольных компьютеров. Возможно, фирма продемонстрирует такой компьютер, не указывая, на каком процессоре он построен – Itanium или 90-нм варианте Pentium с кодовым именем Tejas.
64-БИТ АРХИТЕКТУРЫ – ОТ ВСТРАИВАЕМЫХ СИСТЕМ ДО СЕРВЕРОВ
64-бит процессоры семейства PowerPC фирмы IBM находят широкое применение – от устройств для серверов старших моделей (Power4 и Power5) до встраиваемых процессоров (PowerPC 970 с высокопроизводительной векторной Altivec* SIMD-поддержкой). Это совсем неплохо для архитектуры, совместимой с 32-бит процессорами семейства.
Компания IBM пошла по пути "мультипроцессирования на уровне микросхемы" (Chip Level Multiprocessing – CMP). Нестандартная любопытная суперскалярная RISC-архитектура таких процессоров позволяет выдавать на выполнение до 8,5 команд/такт. Не усложняя конструкции процессора, на одном кристалле можно разместить два процессорных ядра с более чем десяток исполнительных устройств. Архитектура процессоров PowerPC оперирует более мощными и гибкими SIMD-командами, чем другие устройства, предназначенные для мультимедийной обработки. Altivec SIMD-поддержка обеспечивает еще большую универсальность, предоставляя возможность использовать 32 специализированных 128-бит векторных регистра, четыре регистровых операнда, 162 векторные команды, а также выполнение параллельных скалярных операций с плавающей точкой.
Процессор серии PowerPC 970, впервые представленный на Форуме микропроцессоров 2002, – достаточно дешевое 64-бит воплощение процессора Power4, предназначенное для серверов старших моделей (рис.2). Хотя уменьшение размеров изделия редко позволяет рассчитывать на получение высоких характеристик, модернизация 64-бит микропроцессора Power4 и добавление векторной Altivec-поддержки позволили создать впечатляющий микропроцессор для серверов, графических рабочих станций, настольных компьютеров. На кристалле Power4 площадью 415 мм2, содержащем 170 млн. транзисторов, расположены два процессорных ядра на тактовую частоту 1,3 ГГц, L2 кэш емкостью 1,5 Мбит, контроллер L3 кэша и контроллер межчиповой связи, позволяющий размещать четыре Power4-чипа в одном 5184-выводном многокристальном модуле размером 85х85 мм. Четыре таких модуля могут быть объединены без связующих логических схем. Получаемая в результате 32-канальная микропроцессорная субсистема имеет более 20 тыс. контактных площадок ввода-вывода и рассеивает ~2 кВт. Чтобы вставить ее в гнездо, требуется немалое усилие. Таким образом, она никак не подходит для настольных ПК или локальных серверов, особенно с ОС Windows.
Разработчики IBM оставили одно процессорное ядро процессора Power4 (рис.3), удалив контроллер L3 кэша, сложный межчиповый контроллер и добавив Altivec-расширение. Что же осталось после всех этих сокращений и преобразований? Процессор PowerPC 970, выполненный по 0,13-мкм КМОП-технологии на КНИ-подложке с восьмислойной медной металлизацией, содержит 52 млн. транзисторов и размещается на кристалле площадью 118 мм2. Он располагает двумя L1 кэшами с контролем по четности (команд и данных, емкостью 64К и 32 Кбит, соответственно) и L2 кэшем с корректировкой ошибок емкостью 512 Кбит. Монтируется он в 576-выводной керамический BGA-корпус размером 25х25 мм. В результате разработчики получили высокопроизводительный, более традиционный 64-бит микропроцессор с одним ядром и малой потребляемой мощностью (19 Вт при напряжении питания 1,1 В и тактовой частоте 1,2 ГГц и 42 Вт при напряжении 1,3 В и частоте 1,8 ГГц), не требующий сборки в дорогой многокристальный модуль. Наряду с этим, у него более глубокий конвейер (16 ступеней), предусмотрены динамическое предсказание переходов, шина с высокой пропускной способностью (до 7,1 Гбайт/с) и достаточное логическое обрамление, что делает его предпочтительным при выборе процессора SMP-системы. Производство процессоров PowerPC 970 планировалось на вторую половину 2003 года. А в начале 2004 года IBM объявила о намерении начать массовое производство процессора PowerPC 970FX по 90-нм КНИ-технологии в сочетании с технологиями напряженного кремния и восьмислойных медных соединений. В микросхеме использован новый метод сложной настройки и управления тактовой частотой и пороговым напряжением транзисторов, позволяющий регулировать эти параметры с шагом 0,5 МГц и 0,5 мВ, соответственно. В результате можно получать четыре различных значения порогового напряжения транзисторов с тонким затворным окислом и еще два значения напряжения для транзисторов с толстым окисным слоем. Это привело к снижению потребляемой мощности процессора до 15 Вт. PowerPC 970FX сможет найти самое широкое применение – от настольных компьютеров до серверов, накопителей и связных систем. Компания Apple уже сообщила о намерении использовать его в новом стоечном сервере Xserve G5 1U. Микропроцессор PowerPC 970FX уже получил премию аналитиков Microprocessor Report как лучший процессор настольных машин, обойдя Pentium 4 фирмы Intel и Athlon 64 FX-51 компании AMD.
Новый метод регулировки использован и в процессорах линии Power5, изготавливаемых по 130-нм КМОП-технологии. Пороговое напряжение транзисторов этих устройств может принимать три различных значения. Более 1200 микропроцессоров Power5 будут использованы в создаваемом для Министерства энергетики США суперкомпьютере ASCI Purple, быстродействие которого составит 100 Тflops.
ВСТРАИВАЕМЫЕ 64 БИТ
Компания MIPS Technologies, решив, что рынок микропроцессоров для настольных компьютеров и серверов переполнен, а встраиваемые системы успешно развиваются, решила сосредоточить внимание на разработке встраиваемых процессоров. И сегодня 32- и 64-бит микропроцессоры компании доминируют на этом рынке. Правда, найти на нем чипы, произведенные самой фирмой, нельзя, поскольку MIPS Technologies, позиционируя себя как "непроизводственную" (fabless) компанию, продает лицензии на конструкции поставщикам. Поскольку фирма ориентирована на создание интеллектуальной собственности, существует множество воплощений процессоров фирмы, в том числе семейства MIPS64, синтезируемых на основе заказных ядер. Возможны устройства младших моделей только с L1 кэшем, а возможны и четырехканальные суперскалярные ядра. 64-бит процессоры семейства могут работать как с компактными 32-бит, так и 64-бит командами, и даже DSP-подобными командами. Поддержка многопоточной обработки в микропроцессорах фирмы включает две ключевые особенности – виртуальную эмуляцию и разбиения потока на мелкие уровни, тем самым, способствуя увеличению числа потоков, одновременно обрабатываемых конкретным процессором.
Требования, предъявляемые к встраиваемым устройствам, отличаются от требований к процессорам для настольных ПК и серверов. В отношении встраиваемых процессоров основное внимание уделяется таким их свойствам, как малая задержка обработки прерывания, быстрое переключение задач и работа с командами побитовой обработки. Этим требованиям в полной мере отвечает архитектура встроенных микропроцессоров семейства MIPS64, в которое входят устройства линий MIPS64 5К и MIPS64 20Kc (рис.4). Первая линия – синтезируемые процессорные ядра, обеспечивающие работу систем-на-кристалле на высокой тактовой частоте (350 МГц в худшем случае) и с высокой производительностью. MIPS64 5Кc ядра предназначены для цифровой бытовой аппаратуры, сетевых устройств, конторского оборудования и встраиваемых приложений, требующих 64-бит обработки. Ядро MIPS64 5Кf помимо 64-бит процессора содержит устройство с плавающей точкой. Ядро процессора линии выполнено на основе конвейера с шестью стадиями. Чип также содержит быстродействующий умножитель, блок управления памятью, контроллер кэш-памяти и исполнительное устройство с плавающей точкой. Максимальный объем кэш-памяти составляет 64 Кбайт. Выполнены процессоры по 0,13-мкм технологии и занимают площадь кристалла в 1,8–4,4 мм2 (без учета площади кэшей).
Вторая линия, по утверждению фирмы-разработчика, – самые быстродействующие (типичное значение тактовой частоты 600 МГц, минимальное 533 МГц) на сегодняшний день встраиваемые процессоры. Поставляются они многими полупроводниковыми заводами как "жестко" специализированные микросхемы. Микропроцессор линии 20Kc – суперскалярное устройство с конвейером с семью стадиями. Его микроархитектура выполнена на базе созданного в 2000 году ядра R20K, модульная конструкция которого практически разделила площадь кристалла на две половины. На одной из них размещены вычислительные ресурсы, а на другой – все кэши. Наличие 32 64-бит регистров общего назначения облегчает оптимизацию операции генерации кода. Помимо регистров общего назначения, ядро содержит 32 64-бит регистра данных с плавающей точкой. Благодаря возможности размещать два 32-бит операнда с плавающей точкой в одном 64-бит регистре обеспечивается работа в SIMD-режиме. На частоте 600 МГц быстродействие устройства с плавающей точкой составляет 2,4 Gflops.
Сильная сторона архитектуры процессоров семейства MIPS64 – гибкость высокопроизводительных кэшей и их схем управления. Объем памяти кэшей команд и данных может меняться в пределах от 256 байт до 64 Мбайт. Кэш данных допускает применение алгоритмов как обратной, так и сквозной записи. Блок управления памятью оперирует с 40-бит виртуальными и 36-бит физическими адресами и страницами памяти объемом 4К – 16 Мбайт.
Микропроцессоры линии выпускаются по 0,18- и 0,13-мкм технологии на частоту 425 (360 в худшем случае) и 600 (533) МГц, при этом потребляемая мощность составляет 4,14 и 1,37 Вт, соответственно. Площадь ядра без кэш-памяти, буфера быстрого преобразования адреса и блока обработки данных с плавающей точкой составляет 15 и 8 мм2, с указанными устройствами – 35 и 20 мм2.
64-БИТ ДЛЯ КОРПОРАТИВНЫХ СЕРВЕРОВ
Загляните под крышку больших кластеров корпоративных систем и там вы найдете 64-бит процессор семейства UltraSparc фирмы Sun Microsystems. Сегодня предлагается множество вариантов UltraSparc – одного из первых успешных процессоров с RISC-архитектурой. Время от времени этот процессор можно найти во встраиваемых системах высших моделей, но его основное назначение – высокопроизводительные рабочие станции и серверы. Архитектура процессоров этого семейства использует регистровые окна, а не стек блоков памяти, чем подобна EPIC-архитектуре фирмы Intel. Последняя модель семейства – UltraSpark IV – первый представитель процессоров, выполненных на основе концепции "организации многопоточной архитектуры на уровне микросхемы" (Chip Multithreading – CMT) в рамках инициативы "производительные вычисления" (Throughput Computing). Процессор UltraSpark IV совместим на уровне двоичных кодов со Spark-процессорами предыдущих поколений и поддерживает 8 и 9 версии ОС Solaris v.8 и 9.
UltraSpark IV содержит двухпроцессорное ядро на базе конвейерной (глубина конвейера каждого ядра – 14 стадий) архитектуры процессора предыдущего поколения UltraSpark III. 16-входной буфер команд выдает конвейеру на выполнение четыре команды/такт, а каждый суперскалярный процессор ядра выполняет четыре команды/такт. Шести исполнительным устройствам параллельного действия (двум целочисленным устройствам, одному выполнения условного перехода, одному устройству загрузки регистров/записи в память и двум функциональным устройствам с плавающей точкой) выдаются на выполнение шесть команд за такт.
L1 кэш каждого ядра содержит 64-Кбайт памяти данных,
32-Кбайт – команд, 32 Кбайт – записи в память и 2 Кбайт – предварительной выборки. Как и все современные 64-бит микропроцессоры, UltraSpark IV имеет внутрисхемный контроллер внешней оперативной памяти (статического ДОЗУ) (рис.5).
Нити (процессы), выполняемые UltraSpark IV, совместно используют адресную шину и шину данных для получения доступа к ячейкам L2 кэш (типа СОЗУ) объемом 8 Мбайт, к контроллеру оперативной памяти и соединительной шине типа Sun Fireplane с максимальной пропускной способностью 2,4 Гбайт/с. Максимальная мощность, потребляемая схемой, составляет 108 Вт при напряжении питания 1,35 В и частоте 1,2 ГГц.
Благодаря аналогичной процессору UltraSpark III площади основания применение новой микросхемы потребует минимальной модификации материнской платы и не вызовет большой задержки выпуска на рынок изделий на его основе.
Выполнен встраиваемый микропроцессор по 0,13-мкм КМОП-технологии с семислойной медной металлизацией фирмы Texas Instruments (с которой Sun решает проблемы производства разрабатываемых изделий). Он содержит 66 млн. транзисторов. Монтируется в 1368-выводной типа LGA.
Ключ к успеху процессоров семейства UltraSpark – операционная система Solaris фирмы Sun Microsystems. Чтобы в дальнейшем реализовывать все возможности этой ОС на более высоком уровне, необходимо совершенствовать поддерживающее ее "железо". И фирма не отказывается от этой задачи, ставя целью создание процессоров с более радикальной многопоточной архитектурой, более чем в 30 раз превосходящих по быстродействию современные процессоры для корпоративных систем. В 2005 году планируется создать процессор (кодовое название Niagara) с восемью процессорными ядрами на кристалле, одновременно обрабатывающими в целом до 32 нитей (рис.6). Можно с уверенностью сказать, что компания Sun Microsystems хорошо понимает, что понадобится в ближайшие годы ей и ее заказчикам.
Рассмотренные 64-бит процессоры, по-видимому, не лидируют на рынке по объему отгрузок, но они, несомненно, лидеры, когда речь заходит об объеме выполняемых вычислений. Структура их рынка по-прежнему не ясна. Не только не исчерпала себя архитектура Spark, которой уже многие годы предрекалось незавидное будущее, но успешно развиваются многопоточные архитектуры (SMT CMT), CMP и EPIC-технологии. Кто победит, и победит ли кто-то, покажет время.