Выпуск #5/2014
В.Майская
Новые высокопроизводительные Микропроцессоры. Все разнообразнее и интересней
Новые высокопроизводительные Микропроцессоры. Все разнообразнее и интересней
Просмотры: 4619
Как показала Международная конференция ISSCC 2014, центры, оперирующие большим объемом данных, и системы предоставления облачных услуг становятся основными потребителями высокопроизводительных микропроцессоров. Микропроцессоры, служащие "мозгом" системы, сегодня развиваются намного более высокими темпами чем за прошедшие 40 лет. За последние 20 лет производительность микропроцессоров увеличилась на три порядка. К 2020 году она возрастет на 30%, а к 2030 – еще на три порядка. В статье рассматриваются представленные на ISSCC 2014 высокопроизводительные микропроцессоры ведущих производителей.
Рынок микропроцессоров
Согласно оценкам корпорации IHS, мировой объем отгрузок микросхем процессоров (рассматривались отгрузки четырех категорий микропроцессоров: для ПК, серверов, мобильных систем, смартфонов и планшетных компьютеров) в 2013 году должен был составить 1,5 млрд. единиц, т.е. увеличиться на 24% по сравнению с предыдущим годом [1]. Правда, такие темпы роста продаж обусловлены в первую очередь высоким спросом на процессоры для смартфонов и планшетных компьютеров. Отгрузки микропроцессоров для планшетов активно росли и во втором квартале 2013 года составили 53,5 млн. изделий, что на 40% больше, чем за тот же период предыдущего года. В этом сегменте рынка рост спроса на дешевые приборы китайского производства форсировали отгрузки процессоров таких поставщиков, как Allwinner и Rockchip, которые начали выпускать приборы не только для поставщиков "безымянных" недифференцированных планшетных компьютеров, но и для моделей высшего класса ведущих производителей, таких как Hewlett-Packard и Lenovo.
Темпы роста отгрузок микропроцессоров для смартфонов за рассматриваемый период был несколько меньше, чем у процессоров для планшетов – 38% (с 147,9 млн. до 204,2 млн. единиц). В этом сегменте рынка по-прежнему основное значение имеет производительность микропроцессора, и конкуренция производителей здесь ожесточенная. Выпуск в первой половине 2013 года новых совершенных смартфонов HTC One и Samsung Galaxy S4 привел к росту производства независимых процессоров приложений.
Сектор процессоров для ПК был единственным, где отгрузки схем непрерывно сокращались, что связано с тем, что сам рынок ПК, который неизменно стимулировал рост продаж микропроцессоров, постепенно сокращается. Так, во втором квартале 2013 года продажи процессоров в этом секторе составили 84,3 млн. против 89,9 млн. схем за тот же период в 2012. Отгрузки микропроцессоров для ПК сократились на 13%, тогда как для ноутбуков они упали на 2%. Это снижение продаж не удивительно, поскольку ПК не сумели конкурировать с более популярными сегодня мобильными телефонами и планшетами. Низкий уровень спроса на ПК, в свою очередь, повлиял на отгрузки процессоров для космического оборудования.
В секторе продаж для более высокопроизводительных систем, а именно серверов, отгрузки процессоров в 2013 году росли. Например, во втором квартале они составили 4,8 млн. схем против 4,6 млн. в 2012. Лидер на рынке микропроцессоров как для серверов, так и для мобильных устройств, по-прежнему корпорация Intel. Несмотря на спад ее продаж в 2013 году по сравнению с 2012 – с 49 млрд. до 48,6 млрд. долл. (–1%) – в основном из-за сокращения продаж персональных компьютеров и роста затрат на развитие новых технологий, корпорация остается ведущим мировым поставщиком схем микропроцессоров, на долю которого в 2012 году приходилось 65,3% их рынка. Год 2013 для корпорации был годом освоения новых платформ, выпуска новых микросхем, годом побед новых конструктивных решений. С августа 2012 года Intel представила 40 новых продуктов для различных приложений – от сверхмалых мобильных систем до центров данных и систем Интернета вещей.
Разработки Intel и других крупнейших производителей микропроцессоров, направленные на решение задач повышения энергоэффективности и производительности создаваемых устройств безусловно способствуют дальнейшему росту продаж схем микропроцессоров.
Новые разработки микропроцессоров
На конференции ISSCC 2014 были широко представлены новые архитектуры и конструкции ЦП корпораций IBM, Applied Micro, Intel and AMD, характеризуемые высокими производительностью, позволяющей работать с Большими Данными (смешанный массив разноплановых цифровых форматов), и энергоэффективностью, требуемой для выполнения операций в облачной вычислительной среде [2]. Самые "габаритные" приборы содержали до 4 млрд. транзисторов, а число ядер выражалось двухзначными цифрами. Увеличились емкость кэш-памяти и вычислительные потоки, а также число схем, содержащих стабилизаторы напряжения и средства самоконтроля температуры и тактовой частоты.
Однако конструкции современных микропроцессоров настолько сложны, что полная оптимизация критических параметров достигается только во втором или третьем поколении процессора данной марки. Вот почему процессоры с высокими параметрами, рассматривавшиеся на конференции ISSCC 2014, представляли собой в основном устройства с усовершенствованной уже существующей архитектуры.
Серверные процессоры
IBM
Корпорация IBM, которая стремится вновь стать ключевым игроком на рынке серверных процесоров, представила три доклада, посвященных новому микропроцессору Power8. Следует отметить, что до последнего времени IBM серверы с Intel x86-совместимой архитектурой продвигала в горизонтальный сектор рынка, предусматривающий удовлетворение потребителей в определенном комплексе товаров и услуг, а высокопроизводительные процессоры семейства POWER – в вертикальный сектор с единой системой сбыта, в которую входят производитель и один или несколько оптовых и розничных продавцов. Однако в начале этого года IBM продала бизнес по выпуску серверов на основе x86-совместимых процессоров фирме Lenovo, но при этом не стала покидать перспективный горизонтальный сектор, решив составить конкуренцию Intel.
Первый доклад на конференции был посвящен архитектуре и операциям, реализуемым новым 12-ядерным процессором серверного класса Power8 (рис.1) с производительностью 7,6 Тбит/с. Процессор содержит 4,2 млрд. транзисторов на кристалле площадью 640 мм2 [3]. На его создание ушло около трех лет и 2,4 млрд. долл. Выполнен процессор по 22-нм КНИ-технологии с 15-слойной металлизацией, в том числе с двумя "сверхтолстыми" (толщиной 3 мкм) металлическими слоями (UTM) для формирования линий распределения питания, ввода-вывода данных, проводников тактового сигнала и индуктивностей блоков резонансной синхронизации.
Помимо 12 ядер, работающих в режиме STM8 на частоте до 4 ГГц и способных обрабатывать до восьми вычислительных потоков каждое (т.е. одновременно процессор может обрабатывать до 96 потоков), в структуру процессора входят кэш-памяти различных уровней, пакет скоростных интерфейсов, интегрированный модуль регулятора напряжения (iVRM), распределяющий каждому ядру нужное ему питание. Ядро располагает индивидуальной L2 кэш-памятью объемом 512 Кбайт (всего 6 Мбайт, пропускная способность – 4 Тбайт/с). Объем совместно используемой встроенной в кристалл процессора eDRAM-памяти третьего уровня составляет 96 Мбайт. Реализованная компанией технология неоднородной кэш-архитектуры (Non-Uniform Cache Architecture, NUCA) позволяет гибко перераспределять ресурсы L3 памяти между ядрами. Для обеспечения высокой скорости записи/считывания памяти, не нарушающей работу ядер, разработчики использовали микросхему буферного запоминающего устройства емкостью 16 Мбайт, названного Centaur [4]. Схема формирует высокоскоростной (9,6 Гбайт/с) интерфейс с процессором. Процессор Power8 может поддерживать до восьми буферов для получения непрерывной скорости передачи данных между буфером и процессорными ядрами 230 Гбайт/с. Каждая микросхема буфера имеет четыре DDR3-канала, пропускная способность которых при передаче данных всеми 32 каналами памяти достигает 410 Гбит/с (рис.2). Предусмотрена и внешняя eDRAM-память четвертого уровня объемом до 128 Мбайт [4].
Для выполнения корпоративных вычислений схема располагает перспективным интерфейсом памяти с восемью высокоскоростными DDR-каналами с пропускной способностью одного канала до 9,6 Гбит/с, что обеспечивает пропускную способность схемы на входе 1,84 Тбит/с и на выходе – 1,3 Тбит/с.
Два других доклада представителей корпорации касались интегрированного модуля регулятора напряжения c плотностью энергии 34,5 Вт/мм2, обеспечивающего экономичный способ динамического изменения питания и частоты ядер (DVFS), и технологии резонансной синхронизации, позволяющей регулировать тактовую частоту ядер в пределах от 2 до более 5 ГГц и, тем самым, сократить энергопотребление схемы на 5%.
Applied Micro
Процессоры корпорации Applied Micro, как и IBM, отвечают основным направлениям развития современной процессорной технологии: достижение максимально возможных уровней производительности, для обработки Больших Данных, и энергоэффективности, для вычислений в облаке, при увеличенной плотности элементов схемы. Это, по мнению экспертов, позволит расширить возможности компьютеризации социальной среды до научных и медицинских приложений, например до получения основных сведений о человеческих геномах.
Неудивительно, что большое внимание участников конференции ISSCC 2014 привлекло сообщение Applied Micro, раскрывшее, по мнению организаторов секции, посвященной микропроцессорам, новые уровни производительности и интеграции ARM-микропроцессоров, а также инновационные методы их реализации. Корпорация Applied Micro детально описала 64-разрядную схему системы (сервера) на кристалле SoC X-Gene на основе ARM-архитектуры.
До последнего времени подавляющее большинство разработчиков смотрело на ARM-процессоры исключительно как на устройства для мобильных систем. Постановка вопроса о создании ARM-серверного процессора казалась немыслимой: можно ли сравнивать "телефонный" процессор со схемами, применяющимися в "персоналках", серверах и даже суперкомпьютерах? Но уже многим стало ясно, что "процессорами для планшетов" возможности ARM не исчерпываются. Однако даже регулярно появляющиеся сообщения о "серверных" платформах на базе ARM-процессоров не убеждали скептиков. Однако развитие технологий и причуды рынка привели к тому, что старожил процессорных архитектур (первый ARM-процессор появился еще в 1983 году) наконец дорос до серверов, и теперь специалисты всерьез обсуждают возможность не просто конкуренции процессоров с ARM- и x86-архитектурами, а яростной схватки между ними.
В конце декабря 2012 года ARM анонсировала новую процессорную архитектуру – ARMv8, ориентированную на серверное применение, а компания Applied Micro (APM, ранее была известна как AMCC, Applied Micro Circuits Corp.) лицензировала ARMv8 для построения ядер заказного 64-разрядного серверного процессора и, чтобы продемонстрировать его возможности, предложила контрольную плату, X-Gene Platform. Решение корпорации Applied Micro обусловлено тем, что развитие облачных вычислений и открытое программное обеспечение, такое как Linux, достигли уровня, позволяющего процессорам на основе ARM-архитектуры поборотся за лидерство с процессорами Intel на рынке высокопроизводительных систем. Появилась и возможность устранить на этом рынке AMD, которая помимо серверных x86-сопоставимых процессоров после приобретения компании SeaMicro, известного производителя маломощных серверов, начала разработку ARM-устройств для микросерверов. Так, AMD на саммите 2014 года по проекту Open Compute продемонстрировала платформу для разработки первого серверного 64-разрядного процессора на ARM-архитектуре Opteron A1100 (кодовое название Seattle). В конфигурацию процессоров этой серии входят:
четыре или восемь ядер ARM Cortex-A57;
совместно используемые кэш-память L2 объемом до 4 Мбайт и кэш-память L3 объемом 8 Мбайт;
конфигурируемый двухканальный контроллер DDR3 и DDR4 со скоростью передачи до 1866 Мт/с и с поддержкой контроля и исправления ошибок.
Опытные образцы ARM-процессоров Opteron A1100 компания начала поставлять в январе 2014 года, коммерческие поставки четырех- и восьмиядерных процессоов стартуют в четвертом квартале текушего года [5].
Но сейчас внимание разработчиков серверов привлекает 64-разрядный процессор X-Gene компании Applied Micro. Первое поколение 64-разрядного ARM v8-процессора и подсистемы памяти для X-Gene-сервера на кристалле представляет собой процессорный модуль Potenza (PMD) с нестандартной суперскалярной архитектурой конвейера. Модуль содержит два ARM v8-ядра и совместно используемую L2-кэш-память объемом 256 Кбайт. Он допускает модификацию под различные конфигурации серверов. Каждый PMD, изготавляемый по 40-нм КМОП-технологии с десятиуровневой металлизацией компании TSMC, содержит 84 млн. транзисторов, занимающих площадь 14,8 мм2, и потребляет в среднем 4,5 Вт в зависимости от нагрузки. Рабочая частота модуля Potenza составляет 3 ГГц, напряжение питания – 0,9 В. Начальный вариант SoC X-Gene 1 располагает четырьмя модулями PMD (восемь ядер) и совместно используемым L3-кэшом объемом 8 Мбайт, четырьмя DRAM-каналами, управляемыми центральным переключателем, тремя портами Gigabit Ethernet и одним портом 10 Gigabit Ethernet (рис.3). Максимальная частота микросхемы X-Gene составляет 2,5 ГГц, максимальная емкость памяти ядер – 256 Гбайт.
В апреле 2014 года корпорация планировала начать поставки опытных образцов второго поколения SoC X-Gene 2 тоже с восемью ядрами, выполненными по 28-нм технологии TSMC. Микросхема должна содержать управляемый высокоскоростной коммутационный блок, который позволит процессору устанавливать связь с 1024 ядрами. Следующее поколение SoC X-Gene 3 будет выполнено по 16-нм технологии на основе транзисторов FinFET. Пока об этой схеме известно лишь, что она, по-видимому, будет содержать 16 ядер [6, 7].
Intel
Идея использовать процессоры на основе ARM-архитектуры в серверах вызывает горячие дискуссии. Ряд экспертов, особенно работающих или работавших в Intel, не верят в жизнеспособность подобных решений и считают, что в обозримом будущем серверы останутся в x86-совместимом мире. Энергопотребление x86-ядер, по их данным, сегодня сократилось до 2–3 Вт, и теперь при выборе серверного процессора значение приобретает энергопотребление обвязки, включая память. Бороться за доли ватта в энергопотреблении ядер уже не имеет смысла.
Сторонники ARM-архитектуры не согласны, процессоры Intel и AMD не могут предложить столь высокую степень интеграции, как SoC на основе ARM-архитектуры. Кроме того, разработчики серверов не могут вносить коррективы в архитектуру процессоров этих компаний для улучшения тех или иных параметров, тогда как ARM-ядра можно модифицировать в меру своих способностей.
Конечно, доля истины есть в доводах каждой стороны. Можно долго обсуждать как достоинства ARM-серверов компаний HP, Dell и других менее известных разработчиков, так и перспективы будущих ядер Intel. Со временем дискуссия примет однозначное решение. Но соперничество х86-совместимых и ARM-процессоров на рынке серверов, конечно, вызывает большой интерес [8].
Вот почему сообщение Intel о процессоре семейства Xeon следующего поколения с кодовым названием Ivytown для высокопроизводительных серверов привлекло большое внимание участников конференции ISSCC 2014. Процессор Ivytown выполнен на основе архитектуры Ivy Bridge, представленной в 2013 году, и должен заменить также выпущенные в 2013 схемы Xeon E7 на основе архитектуры Sandy Bridge. Считается, что Ivytown – результат усилий корпорации по уменьшению энергопотребления x86-совместимого ядра. Ivytown содержит 64-бит ядра архитектуры Ivy Bridge (всего 15) с поддержкой технологии Hyper-Threading, позволяющей им одновременно обрабатывать до 30 команд, и совместно используемую L3-кэш-память емкостью 37,5 Мбайт. Процессор изготовлен по 22-нм КМОП-технологии c девятислойной металлизацией на основе трехмерных FinFET TriGate-транзисторов со структурой затвора: диэлектрик с высокой диэлектрической проницаемостью/металлический затвор (High k/metal Gate, HKMG).
В системный интерфейс входят два расположенных на кристалле двухканальных контроллера памяти, способных поддерживать многочисленные системные топологии. Высокоскоростные последовательные порты ввода-вывода поддерживают 40 шин интерфейса PCI Express, четыре шины непосредственного медиаинтерфейса и 60 QPI-шин (последовательных кэш-когерентных шин разработки Intel) для подключения к другим центральным процессорам. Тактовая частота процессоров Ivytown составляет от 1,4 до 3,8 ГГц, максимальное значение рассеиваемой тепловой энергии (TDP) – от 40 до 150 Вт.
Чтобы обеспечить рассеиваемую тепловую энергию в 150 Вт схемы, содержащей 15 ядер, разработчикам пришлось предпринять меры по уменьшению ее энергопотребления и тока утечки. В конструкции Ivytown в не требующих временного согласования критических каналах использованы транзисторы с малым током утечки (в ядрах их 63%, вне ядер – 90%). В результате на мощность, теряемую при утечке, приходится ~22% общей рассеиваемой мощности при выполнении типичного сложного процесса.
Одно из самых интересных особенностей нового процессора – его модульная конструкция. Процессор состоит из пяти блоков, три из которых содержат по пять ядер, четвертый – ассоциированную с ними L3 кэш-память. Каждое ядро располагает своим "куском" L3-кэша, содержит встроенную кольцевую шину и специализированные порты ввода-вывода наверху (QPI-каналы) и внизу (для контроллера памяти) блока. Полностью "заселенный" кристалл содержит 15 ядер в трех блоках, в 10-ядерном процессоре один блок и соответствующие ему верхние и нижние порты ввода-вывода удалены. КМОП-мультиплексоры, встроенные в кольцевую шину, запрограммированы на работу с конфирурацией с тремя или двумя блоками. В шестиядерном процессоре из 10-ядерного варианта удаляются вторая и четвертая строки (рис.4). В результате 15-ядерный процессор содержит 4,31 млрд. транзисторов на кристалле площадью 541 мм2, 10-ядерный процессор – 2,89 млрд. на 341 мм2 и 6-ядерный – 1,86 млрд. транзисторов на 257 мм2 (рис.5).
Другой интересный блок процессора Ivytown – буфер памяти. Схема поддерживает как стандартную четырехканальную DDR3-память с пропускной способностью 1867 Мт/с, так и новый четырехканальный линейный интерфейс с регулируемым напряжением к буферу расширения памяти с пропускной способностью 2667 Мт/с. В восьмипроцессорном сервере микросхемы Ivytown могут поддерживать память емкостью до 12 Тбайт.
По форм-фактору процессор Ivytown соответствует процессорному разъему LGA2011 и, следовательно, может легко устанавливаться в существующие ситемы на основе Xeon E7. Intel не сообщает точные данные относительно реализации нового процессора, хотя аналитики считают, что это произойдет в этом году [9, 19].
Еще один доклад Intel был посвящен процессору нового поколения – Haswell, предназначенному для настольных компьютеров и ноутбуков. Процессоры Haswell были представлены еще в 2013 году на выставке Computex 2013. Haswell считается четвертым поколением процесоров семейства Core и преемником Ivy Bridge [11], разработанным в соответствии с проводимой корпорацией стратегией "Тик-Так". И если Ivy Bridge был доработанной реализацией Sandy Bridge с меньшими топологическими нормами, то Haswell должен был предложить принципиально новую архитектуру и множество улучшений при сохранении 22-нм проектных норм. Следует отметить, что Haswell разрабатывался с расчетом на растущий рынок мобильных устройств. Поэтому особое внимание уделялось не столько повышению производительности, сколько снижению его энергопотребления.
Процессоры линейки Haswell выполнены по 22-нм технологии на основе трехмерных транзисторов FinFet с TriGate-структурой. Они могут поставляться в различных конфигурациях, содержащих два или четыре вычислительных ядра в сочетании с графическими ядрами GT2 или GT3, массив L3-кэш-памяти и "системный агент", в который входят двухканальный контроллер ОЗУ стандарта DDR3, контроллеры шин DMI и PCI Express, а также схема обработки изображения (рис.6). В процессор также входит отдельная (хотя и встроенная) схема eDRAM кэш-памяти четвертого уровня CrystalWell емкостью 128 Мбайт. Память разделена на восемь макроструктур емкостью 16 Мбайт каждая, работает на частоте 1,6 ГГц и связана с внешним миром четырьмя 16-разрядными шинами (интерфейс On-Package IO, OPIO) с пропускной способностью 6,4 Мт/с. OPIO отличается высокой степенью масштабируемости и энергетической эффективности. Скорость обмена данными с контролером-коммутатором (PCH) платформы составляет 4 Гбайт/с при энергозатратах 1 пДж/бит. С блоком Crystalwell скорость возрастает до 102 Гбайт/с, а энергозатраты – всего до 1,22 пДж/бит (~1,07 Вт потребляемой мощности). Поскольку расстояние между блоками, связанными OPIO, мало (1,5 мм), интерфейс удалось сделать очень простым.
Большое число изменений процессора Haswell связано с интегрированной графикой. В основу новой графической архитектуры положен принцип поблочной организации с возможностью управления частотой и питанием отдельных блоков, что позволяет легко масштабировать число функциональных блоков и создавать на их основе как решения простого уровня, так и достаточно мощные видеоускорители. Предусмотрена адаптивная подстройка тактовой частоты графики, заключающаяся в ее снижении в моменты переходных процессов, что уменьшает токовую нагрузку на цепи питания.
Самой неожиданной инновацией в архитектуре Intel Haswell стало размещение на кристалле полностью интегрального регулятора напряжения (Full Integrated Voltage Regulator, FVRM), что, по мнению разработчиков, должно обеспечить максимальное управление электропитанием и тем самым добиться высокой энергоэффективности схемы. Регулятор разделяет одно значение входного напряжения 1,8 В на все необходимые шины, позволяя быстро отключать ненужные в данный момент блоки и оставлять рабочими только те участки, которые хранят оперативные данные. Его эффективность при загрузке достигает 90%, выход из рабочего/спящего режима занимает 320 нс, переход в режим Turbo – 100 нс. По утверждению Intel, благодаря принятым мерам ноутбуки на процессорах Haswell будут работать без подзарядки на 50% дольше, чем ноутбуки на Ivy Bridge.
Как сообщили представители Intel на конференции ISSCC, наибольшую площадь, на которой размещено 1,7 млрд. транзисторов, занимают четырехъядерные модели с графическим ядром GT3e (40 исполнительных блоков, 128 Мбайт памяти) – 266 мм². Младшие энергоэкономичные Haswell-ULT-модули с GPU GT2 имеют меньший размер кристалла (177 мм2) и около 1 млрд. транзисторов. Двухъядерные процессорные модули семейства ULT с GPU GT3 содержат 1,3 млрд. транзисторов при площади кристалла 181 мм² (20 исполнительных блоков). Самую малую площадь кристалла (130 мм²), на которой размещено 960 млн. транзисторов, занимают двухъядерные модули с графическим ядром GT2.
При рассмотрении микроархитектуры Haswell возникает вопрос: соответствует ли она стратегии Тик-Так. Ответ не однозначный. Вычислительная часть досталась новому процессору от Ivy Bridge практически без изменений, и это вроде бы не отвечает циклу "Так". Но с другой стороны, реорганизация подсистемы питания и перенос регулятора напряжения на полупроводниковый кристалл – уникальное решение, отличающее Haswell от всех процессоров Intel предыдущих поколений.
Причины такого развития микропроцессорной технологии корпорации понятны. Основная ее задача: сосредоточиться на повышении энергоэффективности создаваемых устройств и на оптимизации производственных затрат. Это позволит использовать процессоры Haswell в самых различных устройствах: от моноблоков и классических ПК до планшетов и ноутбуков [13, 14].
Advanced Micro Devices (AMD)
На современном рынке процессоров существуют два основных конкурента – Intel и AMD. Главное достоинство процессоров Intel – высокая производительность, обеспечиваемая высокой тактовой частотой и многоядерной структурой. Преимущество процессоров AMD – наличие блока вычислений с плавающей запятой. Кроме того, ряд моделей центральных процессоров компании имеет привлекательное соотношение производительность–цена. И, конечно, присутствие на рынке двух борющихся за первенство игроков лучше, чем наличие одного. Поэтому, неудивителен интерес к сообщению компании AMD о разработке x86-совместимого 64-разрядного модуля процессорного ядра Steamroller для применения в серверных процессорах, ЦП широкого назначения и APU-процессорах компании. Steamroller – третье поколение архитектуры Bulldozer компании AMD, впервые предложенной в середине 2000 и выпущенной в конце 2011. С выпуском Bulldozer компания выложила дорожную карту развития процессоров с такой архитектурой, согласно которой их производительность должна была улучшаться ежегодно на 10–15% (рис.7).
Модуль выполнен по 28-нм КМОП-технологии с 12-уровневой металлизацией и с HKMG структурой затвора. Он содержит 236 млн. транзисторов и занимает площадь 29,47 мм2. В его состав входят два ядра, две схемы декодирования и выборки инструкций, совместно используемый гибкий блок обработки данных с плавающей точкой и 16-канальные L2-кэши объемом 2 Мбайт. Объем SRAM-кэша инструкций первого уровня увеличена по сравнению с процессорным модулем Bulldozer с 64 Кбайт до 96 Кбайт. Увеличение объема кэш-памяти привело к повышению производительности процессора и сокращению числа промахов кэш-памяти инструкций, по данным AMD, на 30%, что особенно важно при использовании конвейеров с большим числом ступеней. Снижению числа промахов способствовал и переход от двухканальной L1-кэш-памяти к трехканальной памяти, благодаря чему увеличилась ассоциативность процессорного модуля.
Второе существенное изменение в микроархитектуре модуля – изменение компоновки декодера. Если в Bulldozer входил совместно используемый обоими ядрами декодер, то теперь каждое ядро имеет собственный декодер инструкций, и оба декодера могут работать параллельно, не чередуясь друг с другом (рис.8). Наряду со вторым декодером инструкций и трехканальным кэшом инструкций в модуль входит совместно используемый 10-Кбайт целевой L2-кэш ветвлений, позволяющий уменьшать ошибочное прогнозирование ветвлений на 20%. Совершенствование архитектуры Steamroller позволило также увеличить эффективность проектировщика на 5–10% [14, 15].
* * *
Рассмотрение конкретных семейств микропроцессоров разных производителей подтверждает общие тенденции их развития: повышение тактовой частоты и энергоэффективности, увеличение объема и пропускной способности подсистем памяти, увеличение числа параллельно функционирующих исполнительных устройств. В архитектуре современных микропроцессоров разных производителей имеется много общего. Большое число транзисторов на кристалле позволяет применить в одном микропроцессоре все известные приемы повышения производительности, руководствуясь только их совместимостью.
ЛитературА
Cassell J. Processor Market Set for Strong Growth in 2013. – press.ihs.com/press-release/design-supply-chain/processor-market-set-strong-growth-2013-courtesy-smartphones-and-t.
Mujtaba H. IBM Power8 Processor Detailed – Features 22nm Design With 12 Cores, 96 MB eDRAM L3 Cache and 4 GHz Clock Speed – wccftech.com/ibm-power8-processor-architecture-detailed/#ixzz38sVdsRxb.
Stuecheli J. Power 8. – www.hotchips.org/wp-content/uploads/hc_archives/hc25/HC25.20-Processors1-epub/HC25.26.210-POWER-Studecheli-IBM.pdf.
Bush S. ISSCC: 64bit ARM v8 and POWER8. –
www.electronicsweekly.com/news/research/isscc-64bit-arm-v8-power8-2014-02.
Latif L. AMD announces plans to sample 64-bit ARM Opteron A “Seattle” processors - community.amd.com/community/amd-blogs/amd-business/blog/2014/01/28/amd-announces-plans-to-sample-64-bit-arm-opteron-a-seattle-processors#sthash.3cCswEct.dpuf.
Morgan T.P. Applied Micro X-Gene ARM Waves The 64-Bit Banner. – www.enterprisetech.com/2014/06/24/applied-micro-x-gene-arm-waves-64-bit-banner.
Niccolai J. Applied Micro Shows 64-bit ARM Server Chip, Ignites X86 Debate. – www.pcworld.com/article/261674/applied_micro_shows_64bit_arm_server_chip_ignites_x86_debate.html.
Muljono H., Ayers D., Tam S., Wei Chen et al. Ivytown: A 22nm 15-core enterprise Xeon processor family. – ieeexplore.ieee.org/xpl/abstractAuthors.jsp?tp=&arnumber=6757356&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6757356
Intel is working on 15-core ‘Ivytown’ processor for servers.
Shilov A. Intel Describes Next-Gen Xeon E7 "Ivy Town": 15 Cores, New Topology, New Levels of Performance. –
www.xbitlabs.com/news/cpu/display/20140212231909_Intel_Describes_Next_Gen_Xeon_E7_Ivy_Town_15_Cores_New_Topology_New_Levels_of_Performance.html.
Гольцова М. Конференция ISSCC. Кремний – основа устойчивого развития современного мира. – Электроника: НТБ, 2012, №3, с.72–84.
Shrout R. IDF 2012: Intel Haswell Architecture Revealed. –www.pcper.com/reviews/Processors/IDF-2012-Intel-Haswell-Architecture-Revealed.
Lal Shimpi A. Intel Reveals New Haswell Details at ISSCC 2014. – www.anandtech.com/show/7744/intel-reveals-new-haswell-details-at-isscc-2014.
Gillespie K., Fair III H.R., Henrion C., Jotwani R. et al. Steamroller: An x86-64 core implemented in 28nm bulk CMOS – eeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6757357&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6757357.
Lal Shimpi A. AMD’s Steamroller Detailed: 3rd Generation Bulldozer Core – www.anandtech.com/show/6201/amd-details-its-3rd-gen-steamroller-architecture.
Согласно оценкам корпорации IHS, мировой объем отгрузок микросхем процессоров (рассматривались отгрузки четырех категорий микропроцессоров: для ПК, серверов, мобильных систем, смартфонов и планшетных компьютеров) в 2013 году должен был составить 1,5 млрд. единиц, т.е. увеличиться на 24% по сравнению с предыдущим годом [1]. Правда, такие темпы роста продаж обусловлены в первую очередь высоким спросом на процессоры для смартфонов и планшетных компьютеров. Отгрузки микропроцессоров для планшетов активно росли и во втором квартале 2013 года составили 53,5 млн. изделий, что на 40% больше, чем за тот же период предыдущего года. В этом сегменте рынка рост спроса на дешевые приборы китайского производства форсировали отгрузки процессоров таких поставщиков, как Allwinner и Rockchip, которые начали выпускать приборы не только для поставщиков "безымянных" недифференцированных планшетных компьютеров, но и для моделей высшего класса ведущих производителей, таких как Hewlett-Packard и Lenovo.
Темпы роста отгрузок микропроцессоров для смартфонов за рассматриваемый период был несколько меньше, чем у процессоров для планшетов – 38% (с 147,9 млн. до 204,2 млн. единиц). В этом сегменте рынка по-прежнему основное значение имеет производительность микропроцессора, и конкуренция производителей здесь ожесточенная. Выпуск в первой половине 2013 года новых совершенных смартфонов HTC One и Samsung Galaxy S4 привел к росту производства независимых процессоров приложений.
Сектор процессоров для ПК был единственным, где отгрузки схем непрерывно сокращались, что связано с тем, что сам рынок ПК, который неизменно стимулировал рост продаж микропроцессоров, постепенно сокращается. Так, во втором квартале 2013 года продажи процессоров в этом секторе составили 84,3 млн. против 89,9 млн. схем за тот же период в 2012. Отгрузки микропроцессоров для ПК сократились на 13%, тогда как для ноутбуков они упали на 2%. Это снижение продаж не удивительно, поскольку ПК не сумели конкурировать с более популярными сегодня мобильными телефонами и планшетами. Низкий уровень спроса на ПК, в свою очередь, повлиял на отгрузки процессоров для космического оборудования.
В секторе продаж для более высокопроизводительных систем, а именно серверов, отгрузки процессоров в 2013 году росли. Например, во втором квартале они составили 4,8 млн. схем против 4,6 млн. в 2012. Лидер на рынке микропроцессоров как для серверов, так и для мобильных устройств, по-прежнему корпорация Intel. Несмотря на спад ее продаж в 2013 году по сравнению с 2012 – с 49 млрд. до 48,6 млрд. долл. (–1%) – в основном из-за сокращения продаж персональных компьютеров и роста затрат на развитие новых технологий, корпорация остается ведущим мировым поставщиком схем микропроцессоров, на долю которого в 2012 году приходилось 65,3% их рынка. Год 2013 для корпорации был годом освоения новых платформ, выпуска новых микросхем, годом побед новых конструктивных решений. С августа 2012 года Intel представила 40 новых продуктов для различных приложений – от сверхмалых мобильных систем до центров данных и систем Интернета вещей.
Разработки Intel и других крупнейших производителей микропроцессоров, направленные на решение задач повышения энергоэффективности и производительности создаваемых устройств безусловно способствуют дальнейшему росту продаж схем микропроцессоров.
Новые разработки микропроцессоров
На конференции ISSCC 2014 были широко представлены новые архитектуры и конструкции ЦП корпораций IBM, Applied Micro, Intel and AMD, характеризуемые высокими производительностью, позволяющей работать с Большими Данными (смешанный массив разноплановых цифровых форматов), и энергоэффективностью, требуемой для выполнения операций в облачной вычислительной среде [2]. Самые "габаритные" приборы содержали до 4 млрд. транзисторов, а число ядер выражалось двухзначными цифрами. Увеличились емкость кэш-памяти и вычислительные потоки, а также число схем, содержащих стабилизаторы напряжения и средства самоконтроля температуры и тактовой частоты.
Однако конструкции современных микропроцессоров настолько сложны, что полная оптимизация критических параметров достигается только во втором или третьем поколении процессора данной марки. Вот почему процессоры с высокими параметрами, рассматривавшиеся на конференции ISSCC 2014, представляли собой в основном устройства с усовершенствованной уже существующей архитектуры.
Серверные процессоры
IBM
Корпорация IBM, которая стремится вновь стать ключевым игроком на рынке серверных процесоров, представила три доклада, посвященных новому микропроцессору Power8. Следует отметить, что до последнего времени IBM серверы с Intel x86-совместимой архитектурой продвигала в горизонтальный сектор рынка, предусматривающий удовлетворение потребителей в определенном комплексе товаров и услуг, а высокопроизводительные процессоры семейства POWER – в вертикальный сектор с единой системой сбыта, в которую входят производитель и один или несколько оптовых и розничных продавцов. Однако в начале этого года IBM продала бизнес по выпуску серверов на основе x86-совместимых процессоров фирме Lenovo, но при этом не стала покидать перспективный горизонтальный сектор, решив составить конкуренцию Intel.
Первый доклад на конференции был посвящен архитектуре и операциям, реализуемым новым 12-ядерным процессором серверного класса Power8 (рис.1) с производительностью 7,6 Тбит/с. Процессор содержит 4,2 млрд. транзисторов на кристалле площадью 640 мм2 [3]. На его создание ушло около трех лет и 2,4 млрд. долл. Выполнен процессор по 22-нм КНИ-технологии с 15-слойной металлизацией, в том числе с двумя "сверхтолстыми" (толщиной 3 мкм) металлическими слоями (UTM) для формирования линий распределения питания, ввода-вывода данных, проводников тактового сигнала и индуктивностей блоков резонансной синхронизации.
Помимо 12 ядер, работающих в режиме STM8 на частоте до 4 ГГц и способных обрабатывать до восьми вычислительных потоков каждое (т.е. одновременно процессор может обрабатывать до 96 потоков), в структуру процессора входят кэш-памяти различных уровней, пакет скоростных интерфейсов, интегрированный модуль регулятора напряжения (iVRM), распределяющий каждому ядру нужное ему питание. Ядро располагает индивидуальной L2 кэш-памятью объемом 512 Кбайт (всего 6 Мбайт, пропускная способность – 4 Тбайт/с). Объем совместно используемой встроенной в кристалл процессора eDRAM-памяти третьего уровня составляет 96 Мбайт. Реализованная компанией технология неоднородной кэш-архитектуры (Non-Uniform Cache Architecture, NUCA) позволяет гибко перераспределять ресурсы L3 памяти между ядрами. Для обеспечения высокой скорости записи/считывания памяти, не нарушающей работу ядер, разработчики использовали микросхему буферного запоминающего устройства емкостью 16 Мбайт, названного Centaur [4]. Схема формирует высокоскоростной (9,6 Гбайт/с) интерфейс с процессором. Процессор Power8 может поддерживать до восьми буферов для получения непрерывной скорости передачи данных между буфером и процессорными ядрами 230 Гбайт/с. Каждая микросхема буфера имеет четыре DDR3-канала, пропускная способность которых при передаче данных всеми 32 каналами памяти достигает 410 Гбит/с (рис.2). Предусмотрена и внешняя eDRAM-память четвертого уровня объемом до 128 Мбайт [4].
Для выполнения корпоративных вычислений схема располагает перспективным интерфейсом памяти с восемью высокоскоростными DDR-каналами с пропускной способностью одного канала до 9,6 Гбит/с, что обеспечивает пропускную способность схемы на входе 1,84 Тбит/с и на выходе – 1,3 Тбит/с.
Два других доклада представителей корпорации касались интегрированного модуля регулятора напряжения c плотностью энергии 34,5 Вт/мм2, обеспечивающего экономичный способ динамического изменения питания и частоты ядер (DVFS), и технологии резонансной синхронизации, позволяющей регулировать тактовую частоту ядер в пределах от 2 до более 5 ГГц и, тем самым, сократить энергопотребление схемы на 5%.
Applied Micro
Процессоры корпорации Applied Micro, как и IBM, отвечают основным направлениям развития современной процессорной технологии: достижение максимально возможных уровней производительности, для обработки Больших Данных, и энергоэффективности, для вычислений в облаке, при увеличенной плотности элементов схемы. Это, по мнению экспертов, позволит расширить возможности компьютеризации социальной среды до научных и медицинских приложений, например до получения основных сведений о человеческих геномах.
Неудивительно, что большое внимание участников конференции ISSCC 2014 привлекло сообщение Applied Micro, раскрывшее, по мнению организаторов секции, посвященной микропроцессорам, новые уровни производительности и интеграции ARM-микропроцессоров, а также инновационные методы их реализации. Корпорация Applied Micro детально описала 64-разрядную схему системы (сервера) на кристалле SoC X-Gene на основе ARM-архитектуры.
До последнего времени подавляющее большинство разработчиков смотрело на ARM-процессоры исключительно как на устройства для мобильных систем. Постановка вопроса о создании ARM-серверного процессора казалась немыслимой: можно ли сравнивать "телефонный" процессор со схемами, применяющимися в "персоналках", серверах и даже суперкомпьютерах? Но уже многим стало ясно, что "процессорами для планшетов" возможности ARM не исчерпываются. Однако даже регулярно появляющиеся сообщения о "серверных" платформах на базе ARM-процессоров не убеждали скептиков. Однако развитие технологий и причуды рынка привели к тому, что старожил процессорных архитектур (первый ARM-процессор появился еще в 1983 году) наконец дорос до серверов, и теперь специалисты всерьез обсуждают возможность не просто конкуренции процессоров с ARM- и x86-архитектурами, а яростной схватки между ними.
В конце декабря 2012 года ARM анонсировала новую процессорную архитектуру – ARMv8, ориентированную на серверное применение, а компания Applied Micro (APM, ранее была известна как AMCC, Applied Micro Circuits Corp.) лицензировала ARMv8 для построения ядер заказного 64-разрядного серверного процессора и, чтобы продемонстрировать его возможности, предложила контрольную плату, X-Gene Platform. Решение корпорации Applied Micro обусловлено тем, что развитие облачных вычислений и открытое программное обеспечение, такое как Linux, достигли уровня, позволяющего процессорам на основе ARM-архитектуры поборотся за лидерство с процессорами Intel на рынке высокопроизводительных систем. Появилась и возможность устранить на этом рынке AMD, которая помимо серверных x86-сопоставимых процессоров после приобретения компании SeaMicro, известного производителя маломощных серверов, начала разработку ARM-устройств для микросерверов. Так, AMD на саммите 2014 года по проекту Open Compute продемонстрировала платформу для разработки первого серверного 64-разрядного процессора на ARM-архитектуре Opteron A1100 (кодовое название Seattle). В конфигурацию процессоров этой серии входят:
четыре или восемь ядер ARM Cortex-A57;
совместно используемые кэш-память L2 объемом до 4 Мбайт и кэш-память L3 объемом 8 Мбайт;
конфигурируемый двухканальный контроллер DDR3 и DDR4 со скоростью передачи до 1866 Мт/с и с поддержкой контроля и исправления ошибок.
Опытные образцы ARM-процессоров Opteron A1100 компания начала поставлять в январе 2014 года, коммерческие поставки четырех- и восьмиядерных процессоов стартуют в четвертом квартале текушего года [5].
Но сейчас внимание разработчиков серверов привлекает 64-разрядный процессор X-Gene компании Applied Micro. Первое поколение 64-разрядного ARM v8-процессора и подсистемы памяти для X-Gene-сервера на кристалле представляет собой процессорный модуль Potenza (PMD) с нестандартной суперскалярной архитектурой конвейера. Модуль содержит два ARM v8-ядра и совместно используемую L2-кэш-память объемом 256 Кбайт. Он допускает модификацию под различные конфигурации серверов. Каждый PMD, изготавляемый по 40-нм КМОП-технологии с десятиуровневой металлизацией компании TSMC, содержит 84 млн. транзисторов, занимающих площадь 14,8 мм2, и потребляет в среднем 4,5 Вт в зависимости от нагрузки. Рабочая частота модуля Potenza составляет 3 ГГц, напряжение питания – 0,9 В. Начальный вариант SoC X-Gene 1 располагает четырьмя модулями PMD (восемь ядер) и совместно используемым L3-кэшом объемом 8 Мбайт, четырьмя DRAM-каналами, управляемыми центральным переключателем, тремя портами Gigabit Ethernet и одним портом 10 Gigabit Ethernet (рис.3). Максимальная частота микросхемы X-Gene составляет 2,5 ГГц, максимальная емкость памяти ядер – 256 Гбайт.
В апреле 2014 года корпорация планировала начать поставки опытных образцов второго поколения SoC X-Gene 2 тоже с восемью ядрами, выполненными по 28-нм технологии TSMC. Микросхема должна содержать управляемый высокоскоростной коммутационный блок, который позволит процессору устанавливать связь с 1024 ядрами. Следующее поколение SoC X-Gene 3 будет выполнено по 16-нм технологии на основе транзисторов FinFET. Пока об этой схеме известно лишь, что она, по-видимому, будет содержать 16 ядер [6, 7].
Intel
Идея использовать процессоры на основе ARM-архитектуры в серверах вызывает горячие дискуссии. Ряд экспертов, особенно работающих или работавших в Intel, не верят в жизнеспособность подобных решений и считают, что в обозримом будущем серверы останутся в x86-совместимом мире. Энергопотребление x86-ядер, по их данным, сегодня сократилось до 2–3 Вт, и теперь при выборе серверного процессора значение приобретает энергопотребление обвязки, включая память. Бороться за доли ватта в энергопотреблении ядер уже не имеет смысла.
Сторонники ARM-архитектуры не согласны, процессоры Intel и AMD не могут предложить столь высокую степень интеграции, как SoC на основе ARM-архитектуры. Кроме того, разработчики серверов не могут вносить коррективы в архитектуру процессоров этих компаний для улучшения тех или иных параметров, тогда как ARM-ядра можно модифицировать в меру своих способностей.
Конечно, доля истины есть в доводах каждой стороны. Можно долго обсуждать как достоинства ARM-серверов компаний HP, Dell и других менее известных разработчиков, так и перспективы будущих ядер Intel. Со временем дискуссия примет однозначное решение. Но соперничество х86-совместимых и ARM-процессоров на рынке серверов, конечно, вызывает большой интерес [8].
Вот почему сообщение Intel о процессоре семейства Xeon следующего поколения с кодовым названием Ivytown для высокопроизводительных серверов привлекло большое внимание участников конференции ISSCC 2014. Процессор Ivytown выполнен на основе архитектуры Ivy Bridge, представленной в 2013 году, и должен заменить также выпущенные в 2013 схемы Xeon E7 на основе архитектуры Sandy Bridge. Считается, что Ivytown – результат усилий корпорации по уменьшению энергопотребления x86-совместимого ядра. Ivytown содержит 64-бит ядра архитектуры Ivy Bridge (всего 15) с поддержкой технологии Hyper-Threading, позволяющей им одновременно обрабатывать до 30 команд, и совместно используемую L3-кэш-память емкостью 37,5 Мбайт. Процессор изготовлен по 22-нм КМОП-технологии c девятислойной металлизацией на основе трехмерных FinFET TriGate-транзисторов со структурой затвора: диэлектрик с высокой диэлектрической проницаемостью/металлический затвор (High k/metal Gate, HKMG).
В системный интерфейс входят два расположенных на кристалле двухканальных контроллера памяти, способных поддерживать многочисленные системные топологии. Высокоскоростные последовательные порты ввода-вывода поддерживают 40 шин интерфейса PCI Express, четыре шины непосредственного медиаинтерфейса и 60 QPI-шин (последовательных кэш-когерентных шин разработки Intel) для подключения к другим центральным процессорам. Тактовая частота процессоров Ivytown составляет от 1,4 до 3,8 ГГц, максимальное значение рассеиваемой тепловой энергии (TDP) – от 40 до 150 Вт.
Чтобы обеспечить рассеиваемую тепловую энергию в 150 Вт схемы, содержащей 15 ядер, разработчикам пришлось предпринять меры по уменьшению ее энергопотребления и тока утечки. В конструкции Ivytown в не требующих временного согласования критических каналах использованы транзисторы с малым током утечки (в ядрах их 63%, вне ядер – 90%). В результате на мощность, теряемую при утечке, приходится ~22% общей рассеиваемой мощности при выполнении типичного сложного процесса.
Одно из самых интересных особенностей нового процессора – его модульная конструкция. Процессор состоит из пяти блоков, три из которых содержат по пять ядер, четвертый – ассоциированную с ними L3 кэш-память. Каждое ядро располагает своим "куском" L3-кэша, содержит встроенную кольцевую шину и специализированные порты ввода-вывода наверху (QPI-каналы) и внизу (для контроллера памяти) блока. Полностью "заселенный" кристалл содержит 15 ядер в трех блоках, в 10-ядерном процессоре один блок и соответствующие ему верхние и нижние порты ввода-вывода удалены. КМОП-мультиплексоры, встроенные в кольцевую шину, запрограммированы на работу с конфирурацией с тремя или двумя блоками. В шестиядерном процессоре из 10-ядерного варианта удаляются вторая и четвертая строки (рис.4). В результате 15-ядерный процессор содержит 4,31 млрд. транзисторов на кристалле площадью 541 мм2, 10-ядерный процессор – 2,89 млрд. на 341 мм2 и 6-ядерный – 1,86 млрд. транзисторов на 257 мм2 (рис.5).
Другой интересный блок процессора Ivytown – буфер памяти. Схема поддерживает как стандартную четырехканальную DDR3-память с пропускной способностью 1867 Мт/с, так и новый четырехканальный линейный интерфейс с регулируемым напряжением к буферу расширения памяти с пропускной способностью 2667 Мт/с. В восьмипроцессорном сервере микросхемы Ivytown могут поддерживать память емкостью до 12 Тбайт.
По форм-фактору процессор Ivytown соответствует процессорному разъему LGA2011 и, следовательно, может легко устанавливаться в существующие ситемы на основе Xeon E7. Intel не сообщает точные данные относительно реализации нового процессора, хотя аналитики считают, что это произойдет в этом году [9, 19].
Еще один доклад Intel был посвящен процессору нового поколения – Haswell, предназначенному для настольных компьютеров и ноутбуков. Процессоры Haswell были представлены еще в 2013 году на выставке Computex 2013. Haswell считается четвертым поколением процесоров семейства Core и преемником Ivy Bridge [11], разработанным в соответствии с проводимой корпорацией стратегией "Тик-Так". И если Ivy Bridge был доработанной реализацией Sandy Bridge с меньшими топологическими нормами, то Haswell должен был предложить принципиально новую архитектуру и множество улучшений при сохранении 22-нм проектных норм. Следует отметить, что Haswell разрабатывался с расчетом на растущий рынок мобильных устройств. Поэтому особое внимание уделялось не столько повышению производительности, сколько снижению его энергопотребления.
Процессоры линейки Haswell выполнены по 22-нм технологии на основе трехмерных транзисторов FinFet с TriGate-структурой. Они могут поставляться в различных конфигурациях, содержащих два или четыре вычислительных ядра в сочетании с графическими ядрами GT2 или GT3, массив L3-кэш-памяти и "системный агент", в который входят двухканальный контроллер ОЗУ стандарта DDR3, контроллеры шин DMI и PCI Express, а также схема обработки изображения (рис.6). В процессор также входит отдельная (хотя и встроенная) схема eDRAM кэш-памяти четвертого уровня CrystalWell емкостью 128 Мбайт. Память разделена на восемь макроструктур емкостью 16 Мбайт каждая, работает на частоте 1,6 ГГц и связана с внешним миром четырьмя 16-разрядными шинами (интерфейс On-Package IO, OPIO) с пропускной способностью 6,4 Мт/с. OPIO отличается высокой степенью масштабируемости и энергетической эффективности. Скорость обмена данными с контролером-коммутатором (PCH) платформы составляет 4 Гбайт/с при энергозатратах 1 пДж/бит. С блоком Crystalwell скорость возрастает до 102 Гбайт/с, а энергозатраты – всего до 1,22 пДж/бит (~1,07 Вт потребляемой мощности). Поскольку расстояние между блоками, связанными OPIO, мало (1,5 мм), интерфейс удалось сделать очень простым.
Большое число изменений процессора Haswell связано с интегрированной графикой. В основу новой графической архитектуры положен принцип поблочной организации с возможностью управления частотой и питанием отдельных блоков, что позволяет легко масштабировать число функциональных блоков и создавать на их основе как решения простого уровня, так и достаточно мощные видеоускорители. Предусмотрена адаптивная подстройка тактовой частоты графики, заключающаяся в ее снижении в моменты переходных процессов, что уменьшает токовую нагрузку на цепи питания.
Самой неожиданной инновацией в архитектуре Intel Haswell стало размещение на кристалле полностью интегрального регулятора напряжения (Full Integrated Voltage Regulator, FVRM), что, по мнению разработчиков, должно обеспечить максимальное управление электропитанием и тем самым добиться высокой энергоэффективности схемы. Регулятор разделяет одно значение входного напряжения 1,8 В на все необходимые шины, позволяя быстро отключать ненужные в данный момент блоки и оставлять рабочими только те участки, которые хранят оперативные данные. Его эффективность при загрузке достигает 90%, выход из рабочего/спящего режима занимает 320 нс, переход в режим Turbo – 100 нс. По утверждению Intel, благодаря принятым мерам ноутбуки на процессорах Haswell будут работать без подзарядки на 50% дольше, чем ноутбуки на Ivy Bridge.
Как сообщили представители Intel на конференции ISSCC, наибольшую площадь, на которой размещено 1,7 млрд. транзисторов, занимают четырехъядерные модели с графическим ядром GT3e (40 исполнительных блоков, 128 Мбайт памяти) – 266 мм². Младшие энергоэкономичные Haswell-ULT-модули с GPU GT2 имеют меньший размер кристалла (177 мм2) и около 1 млрд. транзисторов. Двухъядерные процессорные модули семейства ULT с GPU GT3 содержат 1,3 млрд. транзисторов при площади кристалла 181 мм² (20 исполнительных блоков). Самую малую площадь кристалла (130 мм²), на которой размещено 960 млн. транзисторов, занимают двухъядерные модули с графическим ядром GT2.
При рассмотрении микроархитектуры Haswell возникает вопрос: соответствует ли она стратегии Тик-Так. Ответ не однозначный. Вычислительная часть досталась новому процессору от Ivy Bridge практически без изменений, и это вроде бы не отвечает циклу "Так". Но с другой стороны, реорганизация подсистемы питания и перенос регулятора напряжения на полупроводниковый кристалл – уникальное решение, отличающее Haswell от всех процессоров Intel предыдущих поколений.
Причины такого развития микропроцессорной технологии корпорации понятны. Основная ее задача: сосредоточиться на повышении энергоэффективности создаваемых устройств и на оптимизации производственных затрат. Это позволит использовать процессоры Haswell в самых различных устройствах: от моноблоков и классических ПК до планшетов и ноутбуков [13, 14].
Advanced Micro Devices (AMD)
На современном рынке процессоров существуют два основных конкурента – Intel и AMD. Главное достоинство процессоров Intel – высокая производительность, обеспечиваемая высокой тактовой частотой и многоядерной структурой. Преимущество процессоров AMD – наличие блока вычислений с плавающей запятой. Кроме того, ряд моделей центральных процессоров компании имеет привлекательное соотношение производительность–цена. И, конечно, присутствие на рынке двух борющихся за первенство игроков лучше, чем наличие одного. Поэтому, неудивителен интерес к сообщению компании AMD о разработке x86-совместимого 64-разрядного модуля процессорного ядра Steamroller для применения в серверных процессорах, ЦП широкого назначения и APU-процессорах компании. Steamroller – третье поколение архитектуры Bulldozer компании AMD, впервые предложенной в середине 2000 и выпущенной в конце 2011. С выпуском Bulldozer компания выложила дорожную карту развития процессоров с такой архитектурой, согласно которой их производительность должна была улучшаться ежегодно на 10–15% (рис.7).
Модуль выполнен по 28-нм КМОП-технологии с 12-уровневой металлизацией и с HKMG структурой затвора. Он содержит 236 млн. транзисторов и занимает площадь 29,47 мм2. В его состав входят два ядра, две схемы декодирования и выборки инструкций, совместно используемый гибкий блок обработки данных с плавающей точкой и 16-канальные L2-кэши объемом 2 Мбайт. Объем SRAM-кэша инструкций первого уровня увеличена по сравнению с процессорным модулем Bulldozer с 64 Кбайт до 96 Кбайт. Увеличение объема кэш-памяти привело к повышению производительности процессора и сокращению числа промахов кэш-памяти инструкций, по данным AMD, на 30%, что особенно важно при использовании конвейеров с большим числом ступеней. Снижению числа промахов способствовал и переход от двухканальной L1-кэш-памяти к трехканальной памяти, благодаря чему увеличилась ассоциативность процессорного модуля.
Второе существенное изменение в микроархитектуре модуля – изменение компоновки декодера. Если в Bulldozer входил совместно используемый обоими ядрами декодер, то теперь каждое ядро имеет собственный декодер инструкций, и оба декодера могут работать параллельно, не чередуясь друг с другом (рис.8). Наряду со вторым декодером инструкций и трехканальным кэшом инструкций в модуль входит совместно используемый 10-Кбайт целевой L2-кэш ветвлений, позволяющий уменьшать ошибочное прогнозирование ветвлений на 20%. Совершенствование архитектуры Steamroller позволило также увеличить эффективность проектировщика на 5–10% [14, 15].
* * *
Рассмотрение конкретных семейств микропроцессоров разных производителей подтверждает общие тенденции их развития: повышение тактовой частоты и энергоэффективности, увеличение объема и пропускной способности подсистем памяти, увеличение числа параллельно функционирующих исполнительных устройств. В архитектуре современных микропроцессоров разных производителей имеется много общего. Большое число транзисторов на кристалле позволяет применить в одном микропроцессоре все известные приемы повышения производительности, руководствуясь только их совместимостью.
ЛитературА
Cassell J. Processor Market Set for Strong Growth in 2013. – press.ihs.com/press-release/design-supply-chain/processor-market-set-strong-growth-2013-courtesy-smartphones-and-t.
Mujtaba H. IBM Power8 Processor Detailed – Features 22nm Design With 12 Cores, 96 MB eDRAM L3 Cache and 4 GHz Clock Speed – wccftech.com/ibm-power8-processor-architecture-detailed/#ixzz38sVdsRxb.
Stuecheli J. Power 8. – www.hotchips.org/wp-content/uploads/hc_archives/hc25/HC25.20-Processors1-epub/HC25.26.210-POWER-Studecheli-IBM.pdf.
Bush S. ISSCC: 64bit ARM v8 and POWER8. –
www.electronicsweekly.com/news/research/isscc-64bit-arm-v8-power8-2014-02.
Latif L. AMD announces plans to sample 64-bit ARM Opteron A “Seattle” processors - community.amd.com/community/amd-blogs/amd-business/blog/2014/01/28/amd-announces-plans-to-sample-64-bit-arm-opteron-a-seattle-processors#sthash.3cCswEct.dpuf.
Morgan T.P. Applied Micro X-Gene ARM Waves The 64-Bit Banner. – www.enterprisetech.com/2014/06/24/applied-micro-x-gene-arm-waves-64-bit-banner.
Niccolai J. Applied Micro Shows 64-bit ARM Server Chip, Ignites X86 Debate. – www.pcworld.com/article/261674/applied_micro_shows_64bit_arm_server_chip_ignites_x86_debate.html.
Muljono H., Ayers D., Tam S., Wei Chen et al. Ivytown: A 22nm 15-core enterprise Xeon processor family. – ieeexplore.ieee.org/xpl/abstractAuthors.jsp?tp=&arnumber=6757356&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6757356
Intel is working on 15-core ‘Ivytown’ processor for servers.
Shilov A. Intel Describes Next-Gen Xeon E7 "Ivy Town": 15 Cores, New Topology, New Levels of Performance. –
www.xbitlabs.com/news/cpu/display/20140212231909_Intel_Describes_Next_Gen_Xeon_E7_Ivy_Town_15_Cores_New_Topology_New_Levels_of_Performance.html.
Гольцова М. Конференция ISSCC. Кремний – основа устойчивого развития современного мира. – Электроника: НТБ, 2012, №3, с.72–84.
Shrout R. IDF 2012: Intel Haswell Architecture Revealed. –www.pcper.com/reviews/Processors/IDF-2012-Intel-Haswell-Architecture-Revealed.
Lal Shimpi A. Intel Reveals New Haswell Details at ISSCC 2014. – www.anandtech.com/show/7744/intel-reveals-new-haswell-details-at-isscc-2014.
Gillespie K., Fair III H.R., Henrion C., Jotwani R. et al. Steamroller: An x86-64 core implemented in 28nm bulk CMOS – eeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=6757357&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D6757357.
Lal Shimpi A. AMD’s Steamroller Detailed: 3rd Generation Bulldozer Core – www.anandtech.com/show/6201/amd-details-its-3rd-gen-steamroller-architecture.
Отзывы читателей