Сигнальные процессоры (DSP) сегодня можно найти во всех сегментах рынка электронного оборудования – систем связи, компьютерной техники и средств обработки данных, транспортных средств, бытовой, промышленной и военно-космической аппаратуры. Продажи их постоянно растут благодаря расширению применения в видеосистемах, цифровых фотокамерах и реконфигурируемых системах, таких как SDR-радиомодули. Согласно оценкам компании In-Stat, мировые отгрузки микросхем DSP за период 2004–2009 годы возрастут с 1,5 млрд. до 28 млрд. шт. Постоянно совершенствуются характеристики микросхем, расширяется их номенклатура, на рынке появляются новые поставщики.
Современное состояние рынка микросхем DSP
По данным аналитической компании Forward Concepts, полученным на основе статистической оценки мирового рынка полупроводниковых приборов (World Semiconductor Trade Statistics, WSTS), в первом квартале 2006 года продажи DSP на мировом рынке составили 2,04 млрд. долл., что на 4,3% больше, чем в предыдущем, четвертом, квартале 2005 года. При этом наибольший прирост продаж (27,7%) наблюдался в Японии (рис.1) в противовес сокращению рынка Азиатского-Тихоокенского региона (представленного в основном рынками Китая и Южной Кореи) на 1,5%, главным образом из-за резкого снижения объема продаж сотовых телефонов в Китае в первой половине 2005 года. Тем не менее, АТР остается самым крупным потребителем микросхем DSP (51,8% общего объема продаж). Одновременно с ростом японского рынка DSP заметно увеличились продажи микросхем этого класса для бытовой аппаратуры (примерно на 19%, рис.2). Увеличился после долгой "спячки" и спрос на DSP для проводных систем связи, что аналитики Forward Concepts объясняют развитием технологии передачи голоса по IP-сетям (VoIP), расширением внедрения DSL-техники и кабельных модемов. Наконец набирает силу и переход от TDM средств коммутации к пакетным системам.
В первом квартале 2006 года существенно возросли продажи универсальных DSP-микросхем, хотя конкретно "привязать" сигнальный процессор этого вида к области применения достаточно трудно. Как правило, универсальные микросхемы отгружаются небольшими партиями по высокой цене (в среднем ~11 долл. против средней цены на DSP ~6 долл.) для новых разработок и опытных образцов систем. Правда, ожидается, что активно продвигаемая компанией Texas Instruments технология DaVinci приведет к увеличению отгрузок микросхем DM64xx семейства DSP/ASSP, предназначенных для видеоаппаратуры, и к появлению новых разработок на базе этих устройств. Результатом этого станет существенный рост продаж универсальных микросхем. Аналогичная ситуация характерна и для сигнальных процессоров семейства Blackfin компании Analog Devices. К тому же, микросхемы обоих семейств находят применение и в различных бытовых устройствах, таких как персональные медиаплееры.
Падение продаж DSP для электронных систем автомобилей и компьютерной техники в первом квартале, очевидно, связано с сокращением продаж автомобилей еще до роста цен на бензин и с реализацией контроллеров дисководов в виде систем на кристалле, которые уже не классифицируются как сигнальные процессоры. Несмотря на незначительный рост продаж микросхем DSP для беспроводных систем связи, этот сектор рынка остается самым существенным (рис.3).
В целом мировой объем продаж универсальных микросхем DSP в 2005 году, согласно оценкам компании Forward Concepts, из-за сокращения китайского рынка сотовых телефонов уменьшился на 2% и составил 7,6 млрд. долл. В 2006 году компания прогнозирует увеличение продаж таких микросхем на 15% в основном благодаря расширению применения 2,5G- и 3G-систем. Ведущее положение в этом секторе рынка по-прежнему занимает компания Texas Instruments, на долю которой приходится 58% рынка. Рост продаж универсальных микросхем DSP увеличился и у занимающей второе место фирмы Freescale Semiconductors, доля которой составила 14%. У двух других крупных игроков (Agere Systems и Analog Devices), сосредоточивших свою деятельность в основном на рынке АТР, наблюдалось снижение продаж. Но если Китай в этом году откроет рынок 3G-систем, эти фирмы быстро восстановят свои доходы.
Более существенный, практически вдвое больший, рост продаж до 14,3 млрд. долл. был зарегистрирован для встраиваемых DSP-микросхем на базе специализированных микросхем ASSP- и ASIC-типа, программируемых матричных базовых кристаллов (FPGA), а также комбинированных микросхем RISC/DSP, микроконтроллеров и процессорных RISC-ядер с функциями DSP. И если в секторе универсальных устройств можно выделить четыре основных поставщика, то встраиваемые DSP представлены на рынке сотней компаний. Среди них можно отметить компании Qualcomm, Broadcom, Infineon и Marvel. Встраиваемые микросхемы DSP в основном предназначены для бытовой аппаратуры: телевизионных абонентских приставок, МР3- и DVD-плееров и ресирверов, цифровых фотокамер. К микросхемам этого типа относятся и DSP, встроенные в микросхемы для связных устройств стандартов Gigabit Ethernet, WLAN, WiMAX и Bluetooth.
Формы микросхем цифровой обработки сигнала
Как правило, при упоминании о микросхеме сигнального процессора на ум приходит стандартная микросхема, скажем компании Analog Devices или Texas Instrunents, архитектура которой рассчитана так, чтобы эффективно выполнять алгоритмы обработки сигнала при решении сложных математических задач. Такие DSP-микросхемы выпускаются двух типов: с фиксированной или плавающей запятой. DSP с плавающей запятой отдается предпочтение, когда требуется высокая точность или большой динамический диапазон. Основное достоинство микросхем этого типа – простота программирования. DSP с фиксированной запятой большей частью используются в устройствах массового производства, поскольку они дешевле и меньше микросхем с плавающей запятой. Кроме того, на рынке представлены так называемые медиапроцессоры – микросхемы DSP с внутрисхемными акселераторами, облегчающими обработку сложных видеосигналов и изображения.
Примеры стандартных DSP – выпущенные компанией Texas Instruments в середине 2005 года сигнальные процессоры с фиксированной запятой TMS320C6455 (C6455) и с плавающей запятой TMS320C672х (C672х). Микросхема C6455, отвечающая требованиям, предъявляемым системами связи и оборудованием видеоинфраструктур к производительности, пропускной способности портов ввода-вывода и к используемым интерфейсам стандартных шин, перспективна для применения в системах видео- и телекоммуникационных инфраструктур, средствах обработки изображения медицинской аппаратуре и системах видеоконференц-связи.
Микросхема с усовершенствованной VelociTI-VLIW архитектурой третьего поколения выполнена по 90-нм КМОП-технологии с семислойной медной металлизацией. В ней впервые использовано процессорное ядро С64х+, полностью совместимое по коду с ядром предыдущего поколения С64х, но отличающееся от него большей производительностью (4752 Mips на частоте 594 МГц), большей полосой пропускания и меньшим размером кода. Как и предыдущие процессорные ядра платформы С6000, С64х+, помимо двух регистровых файлов с двумя информационными каналами, содержит восемь функциональных элементов, два из которых – умножители с вдвое большим быстродействием, чем у DSP предыдущего поколения (каждый выполняет за один цикл синхронизации четыре 16х16 бит операций умножения с накоплением – МАС). В среднем производительность ядра С64х+ на 20% выше, чем у С64х. В результате на частоте 1 ГГц производительность DSP достигает 8000 Mips. Кроме того, каждый умножитель за один тактовый цикл может выполнять одну 32х32-бит операцию МАС (что важно для аудиоприложений) или четыре 8х8-бит МАС (что важно для видеосистем и систем обработки изображения).
Увеличение скорости переноса данных микросхемы достигнуто с помощью 256-бит шин памяти и внутрисхемного блока DMA (IDMA), позволяющего переносить данные между блоками памяти двух уровней, а также к шинам и от шин периферийных устройств.
К достоинствам новой микросхемы С6455 относится и уменьшение размера кода на 20–30% за счет генерации в ряде случаев 16-бит вариантов собственных 32-бит команд и использования буфера цикла программной конвейеризации (SPLOOP bufer).
Но высокие тактовая частота и производительность процессорного ядра не единственные достоинства новой микросхемы С6455. Это первая микросхема на оживленном рынке DSP-устройств с последовательным RapidIO-интерфейсом, обеспечивающим дуплексную передачу данных по четырем линиям связи с пропускной способностью 12,5 Гбит/с. Кроме того, в состав микросхемы входят контроллер доступа к 1-Гбит Ethernet среде (EMAC) с восемью независимыми каналами передачи и приема данных; 32-бит контроллер DDR-памяти, поддерживающий пропускную способность памяти 2 Гбит/с; 66-МГц PCI-шина и UTOPIA 2 порт (рис.4). Высокой производительности микросхемы способствует и усовершенствованный блок DMA (EDMA), пропускная способность которого превышает 5 Гбит/с.
И, наконец, такие возможности DSP-микросхем, как обработка ошибок, защита памяти и определение привилегий, облегчают проектирование систем на их основе. Микросхема С6455 располагает полным набором средств проектирования, в том числе новым С-компилятором, оптимизатором компоновки, интерфейсом Windows отладчика.
Микросхемы TMS320C672x (TMS320C6727, TMS320C6726 и TMS320C6722) – следующее поколение семейства высокопроизводительных 32-/64-бит цифровых сигнальных процессоров с плавающей запятой. Выполненные по 0,13-мкм КМОП-технологии, микросхемы этого семейства характеризуются улучшенной производительностью и меньшей стоимостью, чем сигнальные процессоры с плавающей запятой предыдущего поколения. Это достигнуто за счет применения нового процессорного ядра С67+, новой архитектуры системы памяти и специальных периферийных аудиоустройств (рис.5). Ядро С67+ совместимо по коду с процессорным ядром С67, используемым в DSP семейства С671х, но превосходит его по быстродействию, плотности кода и производительности операций с плавающей запятой. На частоте 300 МГц максимальная производительность ядра С67х+ составляет 2400 Mips/1800 Mflops при параллельном выполнении восьми команд (шесть из которых с плавающей запятой) за один тактовый цикл. Ядро поддерживает 32-бит арифметические операции с фиксированной и плавающей запятой (с обычной точностью), а также 64-бит операции с плавающей запятой с удвоенной точностью. Увеличение числа регистров общего назначения ядра с 32 до 64 позволило ослабить их нагрузку, особенно при выполнении операций с удвоенной точностью. Процессор ядра принимает исполнительные пакеты, заполняющие выбираемый пакет, благодаря чему отпадает необходимость в заполнении последнего пустыми командами и улучшается плотность кода. Число операций сложения или вычитания с плавающей запятой, исполняемых ядром за один тактовый цикл, увеличено с двух до четырех, что важно при выполнении БПФ- и КИХ-алгоритмов, обычно требуемых при обработке аудиосигналов.
Возможно также исполнение многих команд обработки как с обычной, так и c удвоенной точностью, что обеспечивает средний уровень точности и приводит к улучшению производительности при экономии обращений к памяти и циклов исполнения ряда алгоритмов.
Увеличению производительности способствует и унифицированная одноуровневая архитектура внутрисхемной памяти, обеспечивающая гибкое распределение памяти и ее высокую пропускную способность. Объем кэш программ в такой архитектуре увеличен с 4 Кбайт в DSP-микросхемах предыдущего поколения до 32 Кбайт, что позволило увеличить число успешных обращений и предотвратить большинство конфликтов, возникающих при обращении к внутрисхемной памяти.
Периферийные устройства подключаются к DMA с помощью матричного переключателя с малым временем запаздывания в соответствии с протоколом конвейерной пакетной передачи данных. Для решения конфликтов используется простая и детерминистская схема с фиксированными приоритетами: наивысший приоритет имеет блок сдвоенного акселератора перемещения данных (Dual Data Movement Accelerator, dMAX), поддерживающий программируемый пользователем перенос данных между внутрисхемным контроллером памяти и периферийными устройствами. Второй по значимости приоритет имеет универсальный интерфейс хост-порта (UHPI), третий по значимости приоритет у процессорного ядра.
И, наконец, важнейшее достоинство микросхем нового семейства – последовательные многоканальные аудиопорты (Multichannel Audio Serial Ports – McASP), обеспечивающие незаметное для пользователя сопряжение с кодеками, ЦАП, АЦП и другими приборами. McASP поддерживает IIS-формат и многие его варианты, в том числе и TDM с числом временных интервалов до 32. Порты этого типа – конфигурируемые модули, поддерживающие от двух до 16 последовательных выводов данных. В число других периферийных устройств входят I2C- и специализированные периферийные интерфейсы (SPI).
В результате проведенных усовершенствований производительность микросхем семейства TMS320C672x увеличена на 25% по сравнению со значением этого показателя для схем предыдущего поколения.
По мере усложнения алгоритмов и задач цифровой обработки сигнала растет тактовая частота DSP-устройств, увеличивается число операций, выполняемых за тактовый цикл. Неудивительно, что тактовая частота DSP-микросхем уже достигает 1 ГГц. Но увеличение быстродействия обычно означает и увеличение потребляемой мощности. Тем не менее, за последнее десятилетие удалось уменьшить этот параметр на несколько порядков – с ~2 до 0,1 мВт/Mips. Ожидается, что еще через несколько лет он упадет до 0,01 мВт/Mips, что устраивает разработчиков портативной аппаратуры, позволяя продлить срок ее эксплуатации или увеличить ее нагрузку без изменения потребляемой мощности. Чтобы выполнить требования к быстродействию, потребляемой мощности, стоимости, предъявляемые разнообразными системами, многие поставщики DSP пошли по пути разработки микросхем с высоким уровнем интеграции, способных выполнять цифровую обработку сигнала и задачи управления. При этом наметилась тенденция к поставке специализированных микросхем вида системы на кристалле. Подобные схемы представляют собой выпущенные компанией Texas Instruments в конце 2005 года новые DSP-микросхемы TMS320DM6443 и TMS320DM6446, в которых для кодирования и декодирования данных сетевых медиаресурсов использована DaVinci-технология компании. Внутрисхемные ресурсы этих процессоров поддерживают воспроизведение видеоизображения и его оцифровку (DM6443) и только воспроизведение (DM6446). Двухъядерная структура процессоров выполнена на базе DSP-ядра С64х+ и 32-бит RISC-процессора ARM926EJ-S. По внутрисхемной логике, организации внутрисхемной памяти и периферийным устройствам новые микросхемы аналогичны другим приборам DSP-платформы С6000. Кроме того, в состав микросхемы DM6446 входит подсистема обработки видеосигнала с двумя конфигурируемыми периферийными устройствами обработки видеоданных/изображения. Это – входной блок видеообработки, выполняющий функции интерфейса к ПЗС- или КМОП-преобразователю и предназначенный для фиксирования видеоизображения, и выходной блок видеообработки с сопроцессором обработки изображения, поддерживающий 8-/16-бит YUV-формат и до двух видеоокон. В мае 2006 года изготовитель сетевых видеосистем безопасности – компания Nexvision объявила о создании опытного образца видеокамеры для средств безопасности, выполненной на основе микросхемы нового семейства DM644х.
Наиболее серьезные конкуренты Texas Instruments – компании Analog Devices и Freescale Semiconductor. В области сигнальных процессоров с плавающей запятой единственные микросхемы, способные "противостоять" DSP компании TI, – это микросхемы семейства TigerSHARC фирмы Analog Devices. Один из новейших членов семейства процессоров TigerSHARC – ADSP-TS201S представляет собой быстродействующий статический супрескалярный процессор, характеристики которого оптимизированы для выполнения задач систем обработки сигнала и связной инфраструктуры. Микросхема объединяет блоки памяти большой разрядности со сдвоенными вычислительными блоками, каждый из которых содержит АЛУ, сдвиговый регистр, регистровый файл и связное логическое устройство. Процессор поддерживает обработку данных с фиксированной (8-; 16-; 32- и 64-бит) и плавающей (32- и 40-бит с обычной и повышенной точностью, соответственно) запятой. Кроме того, в микросхему входят контроллер прерываний; четыре 128-бит шины данных, подсоединенные каждая к шести 4-Мбит банкам памяти; 24-Мбит ДОЗУ, порт подключения внешних ведущих процессоров, периферийных устройств и ОЗУ. Тактовая частота DSP-ядра микросхемы составляет 600 МГц, время исполнения команды – 1,67 нс. DSP выполняет за тактовый цикл восемь 16-бит операций МАС с 40-бит накоплением или две 32-бит МАС с 80-бит накоплением. Производительность процессора составляет 3,6 Gflops или 14,4 Gops. Поставляется в 576-выводном BGA-корпусе размером 25х25 мм.
Микросхемы серии 56ххх компании Freescale Semiconductor и семейства Blackfin компании Analog Devices успешно конкурируют с DSP фирмы TI, предназначенными для аудиосистем и систем управления.
В ответ на ужесточающиеся требования автомобильного рынка компания Analog Devices в мае 2006 года объявила о выпуске новых микросхем семейства Blackfin – ADSP-BF539 и ADSP-BF539F с CAN-интерфейсом и трансивером канала объединения DSP-проессора в сетевую MOST (Media Oriented System Transport) систему (MXVR) (рис.6). ADSP-BF539F – первая микросхема семейства, объединяемая в одном корпусе с флэш-памятью объемом 512 Кбит или 1 Мбит компании Spansion. Созданные специально для автомобильного рынка, новые процессоры работают на частоте 500 МГц и поддерживаются операционной системой реального времени Integrity компании Green Hills Softwarre. Любой из них может сочетать одновременную обработку сигналов в реальном масштабе времени, поддержку сетевых стеков автомобильных систем, выдачу диагностических кодов и загрузку программного обеспечения. Процессоры выполнены на базе 10-ступенной конвейерной структуры RISC-микроконтроллера/DSP со смешанной 16-/32-бит архитектурой набора команд для обеспечения оптимальной плотности кода.
Назначение новых микросхем многоядерных сигнальных процессоров третьего поколения MSC8144 компании Freescale – проводные и беспроводные системы связи. Микросхемы, выполненные на базе четырех ядер сигнального процессора SC3400 семейства StarCore* на частоту 1 ГГц, сопоставимы по рабочей частоте с одноядерным процессором на 4 ГГц, а это на сегодняшний день наибольшее значение таковой частоты для DSP. В состав микросхемы входит и система памяти с наибольшей для современных DSP-микросхем емкостью – 10,5 Мбайт, что позволяет обойтись без внешних ЗУ, обеспечивая при этом конкурентоспособность изделия по стоимости и потребляемой мощности. Каждое ядро содержит высокоэффективные 16-Кбайт кэш-память команд и 32-Кбайт кэш данных, а также блок управления памятью.
Богатый набор периферийных устройств микросхемы поддерживает высокую пропускную способность портов ввода-вывода. К ним относятся: сдвоенный 1G Ethernet-интерфейс; 16-бит интерфейс UTOPIA; блок контроллера QUICC Engine на базе сдвоенного ядра 32-бит RISC-процессора, освобождающего DSP-ядра от выполнения задач установления связи; последовательный 4х/1х RapidIO-интерфейс; контроллер DDR I-II, обеспечивающий интерфейс с быстродействующими системами памяти промышленного назначения; 66-Мгц 23-бит PCI шинный интерфейс (рис.7).
Микросхема MSC8144 выполнена по 90-нм КНИ-технологии. Монтируется в 783-выводной корпус FCPBGA-типа размером 29х29 мм. Выпуск опытных образцов намечен на третий квартал 2006 года.
На осеннем Форуме процессорной технологии 2005 года корпорация StarCore LLC доложила о разработке DSP-ядра следующего поколения — StarCore v5, предназначенного для применения в микросхемах будущих беспроводных карманных компьютеров и мультимедийных устройств. По утверждению разработчиков, основное достоинство нового ядра – поддержка 47 новых инструкций, улучшенное предсказание ветвлений и оптимизированная обработка SIMD (Single-Instruction Multiple-Data) инструкций. К тому же, по архитектуре ядро V5 полностью совместимо на бинарном уровне с прежними разработками концерна – StarCore V2 (SC1200 и SC1400), V3 и V4 (SC2200 и SC2400). Архитектура первого DSP-ядра семейства StarCore V5 нового поколения (SC3000), выполненного по 90-нм технологии, оптимизирована для работы на тактовых частотах до 1 ГГц (рис.8).
Массовое производстве микросхемы планировалось на начало 2006 года. Предполагается, что на базе StarCore V5 будут создаваться устройства обработки мощного мультимедийного контента, например система высококачественного декодирования видеоизобажения в реальном времени. Компания Motorola намерена применять этот сигнальный процессор в сотовых телефонах поколений 2.5G и 3G, Freescale – в беспроводных базовых станциях серии Starlite. Кроме того, фирмы Motorola, Freescale и Skyworks планируют использовать его в сотовых модемах и мультимедийных приложениях, а Zultys Technologies и Legerity – в VoIP системах.
Помимо StarCore LLC, 16-бит DSP-ядра с производительностью до 600 MMAC разрабатывают компании STMicroelectronics и CEVA DSP. В мае 2006 года компания CEVA DSP добавила к семейству DSP-ядер и платформ CEVA-X микросхему ядра CEVA-X1622 и платформу CEVA-XS1102. CEVA-X1622 представляет собой высокопроизводительный синтезируемый сигнальный процессор с малой потребляемой мощностью. Процессор имеет усовершенствованную архитектуру памяти, допускающую конфигурирование памяти (64 К или 128 Кбайт) и организацию банков памяти (два или четыре блока). Это облегчает выбор оптимального решения с точки зрения стоимость/производительность. Кроме того, в новой микросхеме по сравнению с другими DSP-ядрами семейства CEVA-X уменьшено число используемых вентилей. Наряду с наличием внутрисхемного модуля эмуляции меньшее число вентилей делает новую микросхему весьма перспективной для применения в мобильных устройствах. 16-бит DSP-ядро с VLIW-SMID архитектурой, работающее с фиксированной запятой, выполняет параллельно восемь команд переменной длины (16 или 32 бит).
Платформа CEVA-XS1102 – это полная платформа DSP-системы, выполненной на основе ядра CEVA-X1622 и содержащей дополнительные периферийные устройства и интерфейсы.
Компания CEVA предлагает и специализированные ядра, такие как CEVA-TeakLite-II (маломощное 16-бит ядро, рассчитанное на частоту 200 МГц) для аудиосистем или CEVA-X1620 (первое 16-бит DSP-ядро со сдвоенным блоком умножения с накоплением) для шлюзов VoIP-систем и широкополосных модемов.
Вместе с тем существуют и другие типы микросхем и их комбинаций, позволяющие успешно решать задачи цифровой обработки сигнала. Так, внимание разработчиков привлекают микросхемы FPGA в сочетании с DSP, находящие все более широкое применение в базовых станциях сотовых систем связи. При этом FPGA с сотней или более умножителей берут на себя "тяжелый фронт" работ в системах с активной обработкой данных. Такое сочетание двух технологий гарантирует большой объем продаж как FPGA, так и DSP. Все чаще появляются FPGA с RISC-ядрами в сочетании с внутрисхемными элементами решения математических задач и элементами памяти.
По мнению аналитиков компании Forward Concepts, растет популярность soft-ядер типа Neos II (семейства встраиваемых RISC-процессоров с набором 32-бит команд для решения широкого круга задач) компании Altera и MicroBlaze (встраиваемые микропроцессорные ядра с RISC-архитектурой, предназначенные для применения в системах, выполняемых на основе ПЛИС серий Spartan-II, Spartan-IIE, Spartan-3, Virtex, Virtex-E, Virtex-II, Virtex-II Pro) фирмы Xilinx. В сравнении с обычными RISC-ядрами такие устройства обеспечивают большую эффективность расчетов, хотя и уступают им по быстродействию.
Ряд изготовителей стремятся добиться предельных значений производительности с помощью сигнальных процессоров с массивом параллелизма. При этом нередко поставщики таких микросхем заявляют о возможности быстрой их реконфигурации. Программируются микросхемы обычными методами кодирования. Пример процессоров этого типа – микросхемы компаний Aspex Semiconductor (для средств обработки изображения), IPFlex (для базовых станций сотовых систем) и picoChip Designs (для базовых станций беспроводных сетей WiMAX-стандарта). Микросхемы семейства Linedancer фирмы Aspex представляют собой полностью программируемые высокопроизводительные процессоры на основе ядра ASProCore шестого поколения. Ядро содержит 4096 параллельно работающих процессорных элементов. В каждый элемент входят разрядно-последовательное АЛУ; ассоциативная память; стандартное ЗУ, выполняющее функции сверхбыстродействующего буферного ЗУ ограниченной емкости; двухпортовое ЗУ, позволяющее записывать и считывать данные одновременно с их обработкой, и высокоскоростная коммутационная сеть, обеспечивающая связь каждого элемента с другим элементом цепи. Кроме того, в схему входят 32-бит RISC-процессор, мощное устройство прямого доступа к памяти, 265-Кбайт СОЗУ, ФАПЧ, обеспечивающий тактовую частоту 300/350/400 МГц, высокоскоростной 64-бит PCI-интерфейс (рис.9). Благодаря высокому быстродействию, достигающему 200·109 операций в 1 с, микросхема превосходит самые быстрые микросхемы DSP, что особенно важно при выполнении функции сжатия видеоданных. Потребляемая мощность на частоте 300 МГц составляет 3,5 Вт. Микросхема изготавливается на заводе компании Philips Semiconductor по 0,13-мкм КМОП-технологии. Монтируется в 676-выводной корпус BGA-типа.
Гибкая программируемая платформа позволяет существенно уменьшить риск проектирования новых устройств, значительно сократить срок разработки изделия и тем самым обеспечить своевременный выход на рынок. Все это в итоге приводит к сокращению издержек разработки и более эффективному использованию научно-исследовательских ресурсов. Помимо станций сотовых систем связи процессор находит применение в широковещательной аппаратуре и цифровой киноаппаратуре, системах технического зрения, принтерах, медицинском оборудовании формирования изображения.
Поскольку такие изделия с массивом параллелизма легко конфигурируются, они находят достаточно широкое применение. Так, ведущий европейский независимый Исследовательский центр в области микро- и нанотехнологии, IMEC, компании Morpho Technologies (образованная в 2000 году фирма, ведущая разработки совместно с компаниями Motorola, Freescale и Cadence Design Systems) и Silicon Hive (отделение Philips Electronics), поставляют лицензируемые ядра реконфигурируемых параллельных процессоров.
По мере масштабирования геометрии микросхем упростилась задача добавления к ним функций микроконтроллеров и микропроцессоров, в том числе и RISC-процессоров, DSP-функций. В результате в процессорах практически всех типов имеется возможность выполнения каких-либо функций цифровой обработки сигнала. И сегодня эти функции могут выполнять самые разнообразные микросхемы. Следует помнить, что помимо собственно DSP-микросхем существует и множество других подобных устройств.
27-я редакция ТОР-500: "Голубой ген" размножается
В ноябре 2003 года была опубликована 22-я редакция списка 500 мощнейших суперкомпьютеров ТОР-500 (www.top500.org ). В нем на 73 месте "скромно" располагался компьютер BlueGene/L DD1 (Голубой ген), установленный в исследовательском центре IBM им. Томаса Дж. Ватсона. Ровно через год, в ноябре 2004 г. компьютеров этого семейства стало уже три, причем один из них, установленный в Ливерморской национальной лаборатории (LLNL) США, обосновался на первом месте в списке. Тогда его максимальная производительность – 70,72 TFlops – сразу вдвое превзошла предшествующего лидера пяти редакций ТОР500 – монстра Earth-Simulator компании NEC, лидировавшего с 2002 года. С тех пор "Голубой ген", стал интенсивно размножаться. В ноябре 2005 года в списке было уже 19 таких систем.
28 июня 2006 года на очередной конференции по суперкомпьютерам в Манхейме была опубликована 27-я редакция списка И опять, как и полгода назад, сенсаций ТОР-500 не содержит. По-прежнему лидирует суперкомпьютер BlueGene/L, установленный в LNLL. Всего же в списке уже 24 суперкомпьютера этого семейства. На последней строчке ТОР10 оказался Earth-Simulator. На пятом месте появился суперкомпьютер Tera-10 комиссариата по атомной энергии Франции – продукт французской компании Bull. Удвоила свое пристуствие в ТОР10 Япония: 7 строчку занимает новый суперкомпьютер компаний NEC и Sun – кластер на основе 10368 процессоров Operton компании AMD.
В целом нижний уровень ТОР10 за полгода возрос в 1,75 раза – с 20,5 до 35,8 TFlops. Перешагнула уровень 2 TFlops цена входного билета в ТОР500. Компьютер с производительностью, соответствующей 355 строке 26-й редакции ТОР500, в новый список уже не попадает.
Поскольку суперкомпьютеры исторически были мощным стимулом для развития микропроцессоров (МП) и микроэлектроники в целом, посмотрим, какие МП используются в 500 наиболее производительных суперкомпьютерах. В 60% всех суперкомпьютеров применяются процессоры Intel (7,4% – IA-64, 23,5% – EM64T, 29,40 % – IA-32), 16,6% всех суперкомпьютеров основываются на процессорах семейства Power (IBM), 16% – за AMD (МП Operton х86-64). Но если посчитать общее число всех МП, используемых в 500 ведущих суперкомпьютерах, картина будет иной. Семейство Power составляет 43% (377716 МП), а все процессоры Intel – 35% (309616 МП). Причем только на долю PowerPC 440, используемых в BlueGene/L, приходится 33,3% (290816 шт.).
Учитывая, что скорость обновления списка ТОР500 – порядка 250–300 новых суперкомпьютеров в год – и тот факт, что самые "маломощные" системы оснащены не менее чем 1000 МП, рынок процессоров для высокопроизводительных вычислительных систем никак нельзя назвать незначительным.
Что касается географического распространения, за последние полгода резко увеличил свое пристуствие в ТОР500 только Китай – с 19 до 28 систем. По-прежнему больше всего мощных суперкомпьютеров на территории США – 299 систем. И по-прежнему свыше 90% суперкомпьютеров производятся в этой стране. Бесспорные лидеры – IBM (239 систем, 47,8%) и Hewlett-Packard (157 систем 31,4%), за ними следуют Dell (4,4%), Cray (3,2%), SGI (2,4%). Linux Networx (1,6%) и Sun Microsystems (7 систем, 1,4%). Ни один другой производитель не представлен в списке более чем 2 компьютерами.
И.Шахнович, по материалам www.top500.org .
По данным аналитической компании Forward Concepts, полученным на основе статистической оценки мирового рынка полупроводниковых приборов (World Semiconductor Trade Statistics, WSTS), в первом квартале 2006 года продажи DSP на мировом рынке составили 2,04 млрд. долл., что на 4,3% больше, чем в предыдущем, четвертом, квартале 2005 года. При этом наибольший прирост продаж (27,7%) наблюдался в Японии (рис.1) в противовес сокращению рынка Азиатского-Тихоокенского региона (представленного в основном рынками Китая и Южной Кореи) на 1,5%, главным образом из-за резкого снижения объема продаж сотовых телефонов в Китае в первой половине 2005 года. Тем не менее, АТР остается самым крупным потребителем микросхем DSP (51,8% общего объема продаж). Одновременно с ростом японского рынка DSP заметно увеличились продажи микросхем этого класса для бытовой аппаратуры (примерно на 19%, рис.2). Увеличился после долгой "спячки" и спрос на DSP для проводных систем связи, что аналитики Forward Concepts объясняют развитием технологии передачи голоса по IP-сетям (VoIP), расширением внедрения DSL-техники и кабельных модемов. Наконец набирает силу и переход от TDM средств коммутации к пакетным системам.
В первом квартале 2006 года существенно возросли продажи универсальных DSP-микросхем, хотя конкретно "привязать" сигнальный процессор этого вида к области применения достаточно трудно. Как правило, универсальные микросхемы отгружаются небольшими партиями по высокой цене (в среднем ~11 долл. против средней цены на DSP ~6 долл.) для новых разработок и опытных образцов систем. Правда, ожидается, что активно продвигаемая компанией Texas Instruments технология DaVinci приведет к увеличению отгрузок микросхем DM64xx семейства DSP/ASSP, предназначенных для видеоаппаратуры, и к появлению новых разработок на базе этих устройств. Результатом этого станет существенный рост продаж универсальных микросхем. Аналогичная ситуация характерна и для сигнальных процессоров семейства Blackfin компании Analog Devices. К тому же, микросхемы обоих семейств находят применение и в различных бытовых устройствах, таких как персональные медиаплееры.
Падение продаж DSP для электронных систем автомобилей и компьютерной техники в первом квартале, очевидно, связано с сокращением продаж автомобилей еще до роста цен на бензин и с реализацией контроллеров дисководов в виде систем на кристалле, которые уже не классифицируются как сигнальные процессоры. Несмотря на незначительный рост продаж микросхем DSP для беспроводных систем связи, этот сектор рынка остается самым существенным (рис.3).
В целом мировой объем продаж универсальных микросхем DSP в 2005 году, согласно оценкам компании Forward Concepts, из-за сокращения китайского рынка сотовых телефонов уменьшился на 2% и составил 7,6 млрд. долл. В 2006 году компания прогнозирует увеличение продаж таких микросхем на 15% в основном благодаря расширению применения 2,5G- и 3G-систем. Ведущее положение в этом секторе рынка по-прежнему занимает компания Texas Instruments, на долю которой приходится 58% рынка. Рост продаж универсальных микросхем DSP увеличился и у занимающей второе место фирмы Freescale Semiconductors, доля которой составила 14%. У двух других крупных игроков (Agere Systems и Analog Devices), сосредоточивших свою деятельность в основном на рынке АТР, наблюдалось снижение продаж. Но если Китай в этом году откроет рынок 3G-систем, эти фирмы быстро восстановят свои доходы.
Более существенный, практически вдвое больший, рост продаж до 14,3 млрд. долл. был зарегистрирован для встраиваемых DSP-микросхем на базе специализированных микросхем ASSP- и ASIC-типа, программируемых матричных базовых кристаллов (FPGA), а также комбинированных микросхем RISC/DSP, микроконтроллеров и процессорных RISC-ядер с функциями DSP. И если в секторе универсальных устройств можно выделить четыре основных поставщика, то встраиваемые DSP представлены на рынке сотней компаний. Среди них можно отметить компании Qualcomm, Broadcom, Infineon и Marvel. Встраиваемые микросхемы DSP в основном предназначены для бытовой аппаратуры: телевизионных абонентских приставок, МР3- и DVD-плееров и ресирверов, цифровых фотокамер. К микросхемам этого типа относятся и DSP, встроенные в микросхемы для связных устройств стандартов Gigabit Ethernet, WLAN, WiMAX и Bluetooth.
Формы микросхем цифровой обработки сигнала
Как правило, при упоминании о микросхеме сигнального процессора на ум приходит стандартная микросхема, скажем компании Analog Devices или Texas Instrunents, архитектура которой рассчитана так, чтобы эффективно выполнять алгоритмы обработки сигнала при решении сложных математических задач. Такие DSP-микросхемы выпускаются двух типов: с фиксированной или плавающей запятой. DSP с плавающей запятой отдается предпочтение, когда требуется высокая точность или большой динамический диапазон. Основное достоинство микросхем этого типа – простота программирования. DSP с фиксированной запятой большей частью используются в устройствах массового производства, поскольку они дешевле и меньше микросхем с плавающей запятой. Кроме того, на рынке представлены так называемые медиапроцессоры – микросхемы DSP с внутрисхемными акселераторами, облегчающими обработку сложных видеосигналов и изображения.
Примеры стандартных DSP – выпущенные компанией Texas Instruments в середине 2005 года сигнальные процессоры с фиксированной запятой TMS320C6455 (C6455) и с плавающей запятой TMS320C672х (C672х). Микросхема C6455, отвечающая требованиям, предъявляемым системами связи и оборудованием видеоинфраструктур к производительности, пропускной способности портов ввода-вывода и к используемым интерфейсам стандартных шин, перспективна для применения в системах видео- и телекоммуникационных инфраструктур, средствах обработки изображения медицинской аппаратуре и системах видеоконференц-связи.
Микросхема с усовершенствованной VelociTI-VLIW архитектурой третьего поколения выполнена по 90-нм КМОП-технологии с семислойной медной металлизацией. В ней впервые использовано процессорное ядро С64х+, полностью совместимое по коду с ядром предыдущего поколения С64х, но отличающееся от него большей производительностью (4752 Mips на частоте 594 МГц), большей полосой пропускания и меньшим размером кода. Как и предыдущие процессорные ядра платформы С6000, С64х+, помимо двух регистровых файлов с двумя информационными каналами, содержит восемь функциональных элементов, два из которых – умножители с вдвое большим быстродействием, чем у DSP предыдущего поколения (каждый выполняет за один цикл синхронизации четыре 16х16 бит операций умножения с накоплением – МАС). В среднем производительность ядра С64х+ на 20% выше, чем у С64х. В результате на частоте 1 ГГц производительность DSP достигает 8000 Mips. Кроме того, каждый умножитель за один тактовый цикл может выполнять одну 32х32-бит операцию МАС (что важно для аудиоприложений) или четыре 8х8-бит МАС (что важно для видеосистем и систем обработки изображения).
Увеличение скорости переноса данных микросхемы достигнуто с помощью 256-бит шин памяти и внутрисхемного блока DMA (IDMA), позволяющего переносить данные между блоками памяти двух уровней, а также к шинам и от шин периферийных устройств.
К достоинствам новой микросхемы С6455 относится и уменьшение размера кода на 20–30% за счет генерации в ряде случаев 16-бит вариантов собственных 32-бит команд и использования буфера цикла программной конвейеризации (SPLOOP bufer).
Но высокие тактовая частота и производительность процессорного ядра не единственные достоинства новой микросхемы С6455. Это первая микросхема на оживленном рынке DSP-устройств с последовательным RapidIO-интерфейсом, обеспечивающим дуплексную передачу данных по четырем линиям связи с пропускной способностью 12,5 Гбит/с. Кроме того, в состав микросхемы входят контроллер доступа к 1-Гбит Ethernet среде (EMAC) с восемью независимыми каналами передачи и приема данных; 32-бит контроллер DDR-памяти, поддерживающий пропускную способность памяти 2 Гбит/с; 66-МГц PCI-шина и UTOPIA 2 порт (рис.4). Высокой производительности микросхемы способствует и усовершенствованный блок DMA (EDMA), пропускная способность которого превышает 5 Гбит/с.
И, наконец, такие возможности DSP-микросхем, как обработка ошибок, защита памяти и определение привилегий, облегчают проектирование систем на их основе. Микросхема С6455 располагает полным набором средств проектирования, в том числе новым С-компилятором, оптимизатором компоновки, интерфейсом Windows отладчика.
Микросхемы TMS320C672x (TMS320C6727, TMS320C6726 и TMS320C6722) – следующее поколение семейства высокопроизводительных 32-/64-бит цифровых сигнальных процессоров с плавающей запятой. Выполненные по 0,13-мкм КМОП-технологии, микросхемы этого семейства характеризуются улучшенной производительностью и меньшей стоимостью, чем сигнальные процессоры с плавающей запятой предыдущего поколения. Это достигнуто за счет применения нового процессорного ядра С67+, новой архитектуры системы памяти и специальных периферийных аудиоустройств (рис.5). Ядро С67+ совместимо по коду с процессорным ядром С67, используемым в DSP семейства С671х, но превосходит его по быстродействию, плотности кода и производительности операций с плавающей запятой. На частоте 300 МГц максимальная производительность ядра С67х+ составляет 2400 Mips/1800 Mflops при параллельном выполнении восьми команд (шесть из которых с плавающей запятой) за один тактовый цикл. Ядро поддерживает 32-бит арифметические операции с фиксированной и плавающей запятой (с обычной точностью), а также 64-бит операции с плавающей запятой с удвоенной точностью. Увеличение числа регистров общего назначения ядра с 32 до 64 позволило ослабить их нагрузку, особенно при выполнении операций с удвоенной точностью. Процессор ядра принимает исполнительные пакеты, заполняющие выбираемый пакет, благодаря чему отпадает необходимость в заполнении последнего пустыми командами и улучшается плотность кода. Число операций сложения или вычитания с плавающей запятой, исполняемых ядром за один тактовый цикл, увеличено с двух до четырех, что важно при выполнении БПФ- и КИХ-алгоритмов, обычно требуемых при обработке аудиосигналов.
Возможно также исполнение многих команд обработки как с обычной, так и c удвоенной точностью, что обеспечивает средний уровень точности и приводит к улучшению производительности при экономии обращений к памяти и циклов исполнения ряда алгоритмов.
Увеличению производительности способствует и унифицированная одноуровневая архитектура внутрисхемной памяти, обеспечивающая гибкое распределение памяти и ее высокую пропускную способность. Объем кэш программ в такой архитектуре увеличен с 4 Кбайт в DSP-микросхемах предыдущего поколения до 32 Кбайт, что позволило увеличить число успешных обращений и предотвратить большинство конфликтов, возникающих при обращении к внутрисхемной памяти.
Периферийные устройства подключаются к DMA с помощью матричного переключателя с малым временем запаздывания в соответствии с протоколом конвейерной пакетной передачи данных. Для решения конфликтов используется простая и детерминистская схема с фиксированными приоритетами: наивысший приоритет имеет блок сдвоенного акселератора перемещения данных (Dual Data Movement Accelerator, dMAX), поддерживающий программируемый пользователем перенос данных между внутрисхемным контроллером памяти и периферийными устройствами. Второй по значимости приоритет имеет универсальный интерфейс хост-порта (UHPI), третий по значимости приоритет у процессорного ядра.
И, наконец, важнейшее достоинство микросхем нового семейства – последовательные многоканальные аудиопорты (Multichannel Audio Serial Ports – McASP), обеспечивающие незаметное для пользователя сопряжение с кодеками, ЦАП, АЦП и другими приборами. McASP поддерживает IIS-формат и многие его варианты, в том числе и TDM с числом временных интервалов до 32. Порты этого типа – конфигурируемые модули, поддерживающие от двух до 16 последовательных выводов данных. В число других периферийных устройств входят I2C- и специализированные периферийные интерфейсы (SPI).
В результате проведенных усовершенствований производительность микросхем семейства TMS320C672x увеличена на 25% по сравнению со значением этого показателя для схем предыдущего поколения.
По мере усложнения алгоритмов и задач цифровой обработки сигнала растет тактовая частота DSP-устройств, увеличивается число операций, выполняемых за тактовый цикл. Неудивительно, что тактовая частота DSP-микросхем уже достигает 1 ГГц. Но увеличение быстродействия обычно означает и увеличение потребляемой мощности. Тем не менее, за последнее десятилетие удалось уменьшить этот параметр на несколько порядков – с ~2 до 0,1 мВт/Mips. Ожидается, что еще через несколько лет он упадет до 0,01 мВт/Mips, что устраивает разработчиков портативной аппаратуры, позволяя продлить срок ее эксплуатации или увеличить ее нагрузку без изменения потребляемой мощности. Чтобы выполнить требования к быстродействию, потребляемой мощности, стоимости, предъявляемые разнообразными системами, многие поставщики DSP пошли по пути разработки микросхем с высоким уровнем интеграции, способных выполнять цифровую обработку сигнала и задачи управления. При этом наметилась тенденция к поставке специализированных микросхем вида системы на кристалле. Подобные схемы представляют собой выпущенные компанией Texas Instruments в конце 2005 года новые DSP-микросхемы TMS320DM6443 и TMS320DM6446, в которых для кодирования и декодирования данных сетевых медиаресурсов использована DaVinci-технология компании. Внутрисхемные ресурсы этих процессоров поддерживают воспроизведение видеоизображения и его оцифровку (DM6443) и только воспроизведение (DM6446). Двухъядерная структура процессоров выполнена на базе DSP-ядра С64х+ и 32-бит RISC-процессора ARM926EJ-S. По внутрисхемной логике, организации внутрисхемной памяти и периферийным устройствам новые микросхемы аналогичны другим приборам DSP-платформы С6000. Кроме того, в состав микросхемы DM6446 входит подсистема обработки видеосигнала с двумя конфигурируемыми периферийными устройствами обработки видеоданных/изображения. Это – входной блок видеообработки, выполняющий функции интерфейса к ПЗС- или КМОП-преобразователю и предназначенный для фиксирования видеоизображения, и выходной блок видеообработки с сопроцессором обработки изображения, поддерживающий 8-/16-бит YUV-формат и до двух видеоокон. В мае 2006 года изготовитель сетевых видеосистем безопасности – компания Nexvision объявила о создании опытного образца видеокамеры для средств безопасности, выполненной на основе микросхемы нового семейства DM644х.
Наиболее серьезные конкуренты Texas Instruments – компании Analog Devices и Freescale Semiconductor. В области сигнальных процессоров с плавающей запятой единственные микросхемы, способные "противостоять" DSP компании TI, – это микросхемы семейства TigerSHARC фирмы Analog Devices. Один из новейших членов семейства процессоров TigerSHARC – ADSP-TS201S представляет собой быстродействующий статический супрескалярный процессор, характеристики которого оптимизированы для выполнения задач систем обработки сигнала и связной инфраструктуры. Микросхема объединяет блоки памяти большой разрядности со сдвоенными вычислительными блоками, каждый из которых содержит АЛУ, сдвиговый регистр, регистровый файл и связное логическое устройство. Процессор поддерживает обработку данных с фиксированной (8-; 16-; 32- и 64-бит) и плавающей (32- и 40-бит с обычной и повышенной точностью, соответственно) запятой. Кроме того, в микросхему входят контроллер прерываний; четыре 128-бит шины данных, подсоединенные каждая к шести 4-Мбит банкам памяти; 24-Мбит ДОЗУ, порт подключения внешних ведущих процессоров, периферийных устройств и ОЗУ. Тактовая частота DSP-ядра микросхемы составляет 600 МГц, время исполнения команды – 1,67 нс. DSP выполняет за тактовый цикл восемь 16-бит операций МАС с 40-бит накоплением или две 32-бит МАС с 80-бит накоплением. Производительность процессора составляет 3,6 Gflops или 14,4 Gops. Поставляется в 576-выводном BGA-корпусе размером 25х25 мм.
Микросхемы серии 56ххх компании Freescale Semiconductor и семейства Blackfin компании Analog Devices успешно конкурируют с DSP фирмы TI, предназначенными для аудиосистем и систем управления.
В ответ на ужесточающиеся требования автомобильного рынка компания Analog Devices в мае 2006 года объявила о выпуске новых микросхем семейства Blackfin – ADSP-BF539 и ADSP-BF539F с CAN-интерфейсом и трансивером канала объединения DSP-проессора в сетевую MOST (Media Oriented System Transport) систему (MXVR) (рис.6). ADSP-BF539F – первая микросхема семейства, объединяемая в одном корпусе с флэш-памятью объемом 512 Кбит или 1 Мбит компании Spansion. Созданные специально для автомобильного рынка, новые процессоры работают на частоте 500 МГц и поддерживаются операционной системой реального времени Integrity компании Green Hills Softwarre. Любой из них может сочетать одновременную обработку сигналов в реальном масштабе времени, поддержку сетевых стеков автомобильных систем, выдачу диагностических кодов и загрузку программного обеспечения. Процессоры выполнены на базе 10-ступенной конвейерной структуры RISC-микроконтроллера/DSP со смешанной 16-/32-бит архитектурой набора команд для обеспечения оптимальной плотности кода.
Назначение новых микросхем многоядерных сигнальных процессоров третьего поколения MSC8144 компании Freescale – проводные и беспроводные системы связи. Микросхемы, выполненные на базе четырех ядер сигнального процессора SC3400 семейства StarCore* на частоту 1 ГГц, сопоставимы по рабочей частоте с одноядерным процессором на 4 ГГц, а это на сегодняшний день наибольшее значение таковой частоты для DSP. В состав микросхемы входит и система памяти с наибольшей для современных DSP-микросхем емкостью – 10,5 Мбайт, что позволяет обойтись без внешних ЗУ, обеспечивая при этом конкурентоспособность изделия по стоимости и потребляемой мощности. Каждое ядро содержит высокоэффективные 16-Кбайт кэш-память команд и 32-Кбайт кэш данных, а также блок управления памятью.
Богатый набор периферийных устройств микросхемы поддерживает высокую пропускную способность портов ввода-вывода. К ним относятся: сдвоенный 1G Ethernet-интерфейс; 16-бит интерфейс UTOPIA; блок контроллера QUICC Engine на базе сдвоенного ядра 32-бит RISC-процессора, освобождающего DSP-ядра от выполнения задач установления связи; последовательный 4х/1х RapidIO-интерфейс; контроллер DDR I-II, обеспечивающий интерфейс с быстродействующими системами памяти промышленного назначения; 66-Мгц 23-бит PCI шинный интерфейс (рис.7).
Микросхема MSC8144 выполнена по 90-нм КНИ-технологии. Монтируется в 783-выводной корпус FCPBGA-типа размером 29х29 мм. Выпуск опытных образцов намечен на третий квартал 2006 года.
На осеннем Форуме процессорной технологии 2005 года корпорация StarCore LLC доложила о разработке DSP-ядра следующего поколения — StarCore v5, предназначенного для применения в микросхемах будущих беспроводных карманных компьютеров и мультимедийных устройств. По утверждению разработчиков, основное достоинство нового ядра – поддержка 47 новых инструкций, улучшенное предсказание ветвлений и оптимизированная обработка SIMD (Single-Instruction Multiple-Data) инструкций. К тому же, по архитектуре ядро V5 полностью совместимо на бинарном уровне с прежними разработками концерна – StarCore V2 (SC1200 и SC1400), V3 и V4 (SC2200 и SC2400). Архитектура первого DSP-ядра семейства StarCore V5 нового поколения (SC3000), выполненного по 90-нм технологии, оптимизирована для работы на тактовых частотах до 1 ГГц (рис.8).
Массовое производстве микросхемы планировалось на начало 2006 года. Предполагается, что на базе StarCore V5 будут создаваться устройства обработки мощного мультимедийного контента, например система высококачественного декодирования видеоизобажения в реальном времени. Компания Motorola намерена применять этот сигнальный процессор в сотовых телефонах поколений 2.5G и 3G, Freescale – в беспроводных базовых станциях серии Starlite. Кроме того, фирмы Motorola, Freescale и Skyworks планируют использовать его в сотовых модемах и мультимедийных приложениях, а Zultys Technologies и Legerity – в VoIP системах.
Помимо StarCore LLC, 16-бит DSP-ядра с производительностью до 600 MMAC разрабатывают компании STMicroelectronics и CEVA DSP. В мае 2006 года компания CEVA DSP добавила к семейству DSP-ядер и платформ CEVA-X микросхему ядра CEVA-X1622 и платформу CEVA-XS1102. CEVA-X1622 представляет собой высокопроизводительный синтезируемый сигнальный процессор с малой потребляемой мощностью. Процессор имеет усовершенствованную архитектуру памяти, допускающую конфигурирование памяти (64 К или 128 Кбайт) и организацию банков памяти (два или четыре блока). Это облегчает выбор оптимального решения с точки зрения стоимость/производительность. Кроме того, в новой микросхеме по сравнению с другими DSP-ядрами семейства CEVA-X уменьшено число используемых вентилей. Наряду с наличием внутрисхемного модуля эмуляции меньшее число вентилей делает новую микросхему весьма перспективной для применения в мобильных устройствах. 16-бит DSP-ядро с VLIW-SMID архитектурой, работающее с фиксированной запятой, выполняет параллельно восемь команд переменной длины (16 или 32 бит).
Платформа CEVA-XS1102 – это полная платформа DSP-системы, выполненной на основе ядра CEVA-X1622 и содержащей дополнительные периферийные устройства и интерфейсы.
Компания CEVA предлагает и специализированные ядра, такие как CEVA-TeakLite-II (маломощное 16-бит ядро, рассчитанное на частоту 200 МГц) для аудиосистем или CEVA-X1620 (первое 16-бит DSP-ядро со сдвоенным блоком умножения с накоплением) для шлюзов VoIP-систем и широкополосных модемов.
Вместе с тем существуют и другие типы микросхем и их комбинаций, позволяющие успешно решать задачи цифровой обработки сигнала. Так, внимание разработчиков привлекают микросхемы FPGA в сочетании с DSP, находящие все более широкое применение в базовых станциях сотовых систем связи. При этом FPGA с сотней или более умножителей берут на себя "тяжелый фронт" работ в системах с активной обработкой данных. Такое сочетание двух технологий гарантирует большой объем продаж как FPGA, так и DSP. Все чаще появляются FPGA с RISC-ядрами в сочетании с внутрисхемными элементами решения математических задач и элементами памяти.
По мнению аналитиков компании Forward Concepts, растет популярность soft-ядер типа Neos II (семейства встраиваемых RISC-процессоров с набором 32-бит команд для решения широкого круга задач) компании Altera и MicroBlaze (встраиваемые микропроцессорные ядра с RISC-архитектурой, предназначенные для применения в системах, выполняемых на основе ПЛИС серий Spartan-II, Spartan-IIE, Spartan-3, Virtex, Virtex-E, Virtex-II, Virtex-II Pro) фирмы Xilinx. В сравнении с обычными RISC-ядрами такие устройства обеспечивают большую эффективность расчетов, хотя и уступают им по быстродействию.
Ряд изготовителей стремятся добиться предельных значений производительности с помощью сигнальных процессоров с массивом параллелизма. При этом нередко поставщики таких микросхем заявляют о возможности быстрой их реконфигурации. Программируются микросхемы обычными методами кодирования. Пример процессоров этого типа – микросхемы компаний Aspex Semiconductor (для средств обработки изображения), IPFlex (для базовых станций сотовых систем) и picoChip Designs (для базовых станций беспроводных сетей WiMAX-стандарта). Микросхемы семейства Linedancer фирмы Aspex представляют собой полностью программируемые высокопроизводительные процессоры на основе ядра ASProCore шестого поколения. Ядро содержит 4096 параллельно работающих процессорных элементов. В каждый элемент входят разрядно-последовательное АЛУ; ассоциативная память; стандартное ЗУ, выполняющее функции сверхбыстродействующего буферного ЗУ ограниченной емкости; двухпортовое ЗУ, позволяющее записывать и считывать данные одновременно с их обработкой, и высокоскоростная коммутационная сеть, обеспечивающая связь каждого элемента с другим элементом цепи. Кроме того, в схему входят 32-бит RISC-процессор, мощное устройство прямого доступа к памяти, 265-Кбайт СОЗУ, ФАПЧ, обеспечивающий тактовую частоту 300/350/400 МГц, высокоскоростной 64-бит PCI-интерфейс (рис.9). Благодаря высокому быстродействию, достигающему 200·109 операций в 1 с, микросхема превосходит самые быстрые микросхемы DSP, что особенно важно при выполнении функции сжатия видеоданных. Потребляемая мощность на частоте 300 МГц составляет 3,5 Вт. Микросхема изготавливается на заводе компании Philips Semiconductor по 0,13-мкм КМОП-технологии. Монтируется в 676-выводной корпус BGA-типа.
Гибкая программируемая платформа позволяет существенно уменьшить риск проектирования новых устройств, значительно сократить срок разработки изделия и тем самым обеспечить своевременный выход на рынок. Все это в итоге приводит к сокращению издержек разработки и более эффективному использованию научно-исследовательских ресурсов. Помимо станций сотовых систем связи процессор находит применение в широковещательной аппаратуре и цифровой киноаппаратуре, системах технического зрения, принтерах, медицинском оборудовании формирования изображения.
Поскольку такие изделия с массивом параллелизма легко конфигурируются, они находят достаточно широкое применение. Так, ведущий европейский независимый Исследовательский центр в области микро- и нанотехнологии, IMEC, компании Morpho Technologies (образованная в 2000 году фирма, ведущая разработки совместно с компаниями Motorola, Freescale и Cadence Design Systems) и Silicon Hive (отделение Philips Electronics), поставляют лицензируемые ядра реконфигурируемых параллельных процессоров.
По мере масштабирования геометрии микросхем упростилась задача добавления к ним функций микроконтроллеров и микропроцессоров, в том числе и RISC-процессоров, DSP-функций. В результате в процессорах практически всех типов имеется возможность выполнения каких-либо функций цифровой обработки сигнала. И сегодня эти функции могут выполнять самые разнообразные микросхемы. Следует помнить, что помимо собственно DSP-микросхем существует и множество других подобных устройств.
27-я редакция ТОР-500: "Голубой ген" размножается
В ноябре 2003 года была опубликована 22-я редакция списка 500 мощнейших суперкомпьютеров ТОР-500 (www.top500.org ). В нем на 73 месте "скромно" располагался компьютер BlueGene/L DD1 (Голубой ген), установленный в исследовательском центре IBM им. Томаса Дж. Ватсона. Ровно через год, в ноябре 2004 г. компьютеров этого семейства стало уже три, причем один из них, установленный в Ливерморской национальной лаборатории (LLNL) США, обосновался на первом месте в списке. Тогда его максимальная производительность – 70,72 TFlops – сразу вдвое превзошла предшествующего лидера пяти редакций ТОР500 – монстра Earth-Simulator компании NEC, лидировавшего с 2002 года. С тех пор "Голубой ген", стал интенсивно размножаться. В ноябре 2005 года в списке было уже 19 таких систем.
28 июня 2006 года на очередной конференции по суперкомпьютерам в Манхейме была опубликована 27-я редакция списка И опять, как и полгода назад, сенсаций ТОР-500 не содержит. По-прежнему лидирует суперкомпьютер BlueGene/L, установленный в LNLL. Всего же в списке уже 24 суперкомпьютера этого семейства. На последней строчке ТОР10 оказался Earth-Simulator. На пятом месте появился суперкомпьютер Tera-10 комиссариата по атомной энергии Франции – продукт французской компании Bull. Удвоила свое пристуствие в ТОР10 Япония: 7 строчку занимает новый суперкомпьютер компаний NEC и Sun – кластер на основе 10368 процессоров Operton компании AMD.
В целом нижний уровень ТОР10 за полгода возрос в 1,75 раза – с 20,5 до 35,8 TFlops. Перешагнула уровень 2 TFlops цена входного билета в ТОР500. Компьютер с производительностью, соответствующей 355 строке 26-й редакции ТОР500, в новый список уже не попадает.
Поскольку суперкомпьютеры исторически были мощным стимулом для развития микропроцессоров (МП) и микроэлектроники в целом, посмотрим, какие МП используются в 500 наиболее производительных суперкомпьютерах. В 60% всех суперкомпьютеров применяются процессоры Intel (7,4% – IA-64, 23,5% – EM64T, 29,40 % – IA-32), 16,6% всех суперкомпьютеров основываются на процессорах семейства Power (IBM), 16% – за AMD (МП Operton х86-64). Но если посчитать общее число всех МП, используемых в 500 ведущих суперкомпьютерах, картина будет иной. Семейство Power составляет 43% (377716 МП), а все процессоры Intel – 35% (309616 МП). Причем только на долю PowerPC 440, используемых в BlueGene/L, приходится 33,3% (290816 шт.).
Учитывая, что скорость обновления списка ТОР500 – порядка 250–300 новых суперкомпьютеров в год – и тот факт, что самые "маломощные" системы оснащены не менее чем 1000 МП, рынок процессоров для высокопроизводительных вычислительных систем никак нельзя назвать незначительным.
Что касается географического распространения, за последние полгода резко увеличил свое пристуствие в ТОР500 только Китай – с 19 до 28 систем. По-прежнему больше всего мощных суперкомпьютеров на территории США – 299 систем. И по-прежнему свыше 90% суперкомпьютеров производятся в этой стране. Бесспорные лидеры – IBM (239 систем, 47,8%) и Hewlett-Packard (157 систем 31,4%), за ними следуют Dell (4,4%), Cray (3,2%), SGI (2,4%). Linux Networx (1,6%) и Sun Microsystems (7 систем, 1,4%). Ни один другой производитель не представлен в списке более чем 2 компьютерами.
И.Шахнович, по материалам www.top500.org .
Отзывы читателей