Откройте любой домашний электронный прибор, и вы, несомненно, обнаружите в нем сигнальный процессор (DSP). Правда, его иногда не удается сразу распознать, поскольку он может быть глубоко встроен в прикладную систему. Вид современных сигнальных процессоров постоянно меняется: автономные устройства уступают место многоядерным приборам и системам на кристалле (СнК). Поставщики DSP стремятся убедить разработчиков бытовых устройств в том, что с помощью технологии, когда-то считавшейся "заумной", они смогут наиболее эффективно решать свои задачи.
Сегодня сигнальный процессор – основной элемент практически любого вида бытовой техники. В сотовых телефонах DSP формирует ядро процессора связи, выполняя функции аудиокодека, в ПК, интерфейсе цифровой абонентской линии связи или в беспроводном маршрутизаторе DSP скрыт в модеме. В каждой портативной мультимедийной системе обработки и сжатия изображения – от простых медиаплееров и многофункциональных устройств воспроизведения, таких как iPod, до цифровых видеокамер и камкодеров – можно найти DSP, которые часто называют видеопроцессорами или видеокодерами.
Требования к таким сигнальным процессорам постоянно ужесточаются. Переход к средствам отображения высокой четкости потребовал увеличения тактовой частоты процессоров изображения, особенно тех, которые использются в мобильных устройствах и телевизионных приставках. А к сигнальным процессорам для аудиосистем с высоким разрешением, в частности для систем "окружающего" звука, предъявляются требования повышенной точности и производительности. Расширяются и требования к DSP для таких относительно простых систем, как цифровые фотоаппараты с функциями стабилизации изображения и распознавания лица. Сигнальные процессоры необходимы и для телевизионных приставок, IP-телефонов, фотоаппаратов, игровых систем и медиаплееров, подключаемых в различных сочетаниях к Интернету для обмена информацией.
Расширение областей применения за счет обширных семейств
Чтобы выполнить все требования, предъявляемые создателями бытовой техники к сигнальным процессорам, их поставщики выпускают устройства (в виде отдельных микросхем или ядер), перекрывающие весь диапазон возможных систем. Зачастую такие изделия образуют совместимые по программным средствам расширенные семейства процессоров различных типов (универсальных и специализированных). В результате отличия между изделиями размываются, облегчая разработчикам выбор прибора, больше всего подходящего для создаваемого устройства. За счет дополнения автономных и многоядерных сигнальных процессоров периферийными устройствами, отвечающими требованиям конкретного применения, улучшаются характеристики и снижается стоимость разрабатываемой системы, хотя и ухудшается эксплуатационная гибкость процессора.
Наряду с этим по-прежнему совершенствуются характеристики универсальных процессоров, отвечающих требованиям пока еще разрабатываемых приложений, для которых нужна достаточно высокая эксплуатационная гибкость, позволяющая эффективно реагировать на быстрые изменения рынка. Разрабатываются новые DSP-архитектуры, обеспечивающие скачок характеристик процессора в соответствии с необычными требованиями новых приложений.
Развитие автономных сигнальных процессоров
Потребности рынка постоянно растут, и в результате функции, выполняемые когда-то автономными DSP, непрерывно наращиваются с целью поддержки беспроводной связи и управления новыми медиасистемами. И универсальные программируемые автономные микросхемы по-прежнему находят применение. Так, на рынке широко представлены сигнальные процессоры семейства Blackfin компании Analog Devices, каждое поколение которых отличается боле высоким быстродействием, меньшей потребляемой мощностью и меньшей стоимостью. Сегодня в семейство Blackfin входят сигнальные процессоры, перекрывающие диапазон тактовых частот от 200 МГц (ADSP-BF535) до 756 МГц (двухъядерный процессор ADSP-BF561) и предназначенные для разнообразной бытовой, контрольно-измерительной аппаратуры, автомобильных, промышленных систем и систем связи. Минимальная потребляемая мощность DSP этого семейства составляет 0,23 мВт/МГц.
В начале 2010 года компания Analog Devices объявила о выпуске двух новых серий 32-разрядных сигнальных процессоров с плавающей запятой семейства SHARC с встроенной памятью емкостью 5 Мбит – ADSP-2147x и ADSP-2148x. С появлением этих DSP разработчики изделий массового производства получили возможность создавать устройства, выполняющие высокоточные вычисления с плавающей запятой. Процессоры серии ADSP-2148x превосходят конкурирующие 32-разрядные DSP с плавающей запятой по производительности на 33% (тактовая частота 400 МГц), а по объему памяти на 250% (5 Мбит). Процессоры этой серии пригодны для применения в системах высокоточной обработки звука, домашних кинотеатрах, а также в "продвинутом" промышленном оборудовании. Поставляются в 176- и 100-выводных корпусах типа LQFP.
Потребляемая мощность сигнальных процессоров серии ADSP-2147x, монтируемых в корпуса BGA размером 12×12 мм или LQFP размером 14×14 мм, составляет 363 мВт, тактовая частота — 266 МГц. Они перспективны для применения в портативном оборудовании, в том числе медицинском и перспективных системах помощи водителю.
Новые процессоры обеих серий обратно совместимы по коду со всеми процессорами семейства SHARC, а также со средствами проектирования компании. Встроенные аппаратные ускорители с независимыми вычислительными ресурсами и прямой доступ к памяти обеспечивают поддержку БПФ и вычислений конечной и бесконечной импульсных характеристик в фоновом режиме, освобождая ресурсы ядра для выполнения других вычислительных задач. Обращение к памяти оптимизировано с помощью набора переменных команд, позволяющих освободить до 30% объема памяти прикладного кода за счет уменьшения размера кода операции.
Интерес представляют сигнальные процессоры, входящие в семейства TMS320С64х и TMS320С674х компании Texas Instruments (TI). Так, выпущенные в 2009 году процессоры TMS320C6742, TMS320C6746, TMS320C6748 и двухъядерный процессор OMAR L-138 (все с DSP-ядром C674x), входящие в одно семейство, выполняют операции с плавающей запятой при низком энергопотреблении, имеют полный набор интегрированных периферийных устройств, необходимых для конкретного применения, и достаточно дешевы. До настоящего времени подобными характеристиками обладали лишь устройства с фиксированной запятой. Микросхемы процессоров содержат встроенный универсальный параллельный порт (uPP), обеспечивающий быстрый обмен данными с FPGA и другими процессорами. Впервые для процессоров компании в этих микросхемах предусмотрен интерфейс SATA для накопителей данных большой емкости (рис.1). Интерфейс видеопорта обеспечивает ввод/вывод необработанных видеоданных, а встроенный контроллер ЖК-дисплея позволяет разработчикам без проблем подключать микросхему к дисплею с VGA-разрешением. Микропроцессоры работают на тактовой частоте до 300 МГц. Режим динамической регулировки напряжения и частоты (dynamic voltage and frequency scaling, DVFS) позволяет реализовывать гибкое отключение не используемой периферии и настройку напряжения входа-выхода. Емкость внутрисхемной памяти процессоров составляет 128–448 Кбайт, что избавляет от необходимости обращения к внешней памяти. Максимальная потребляемая мощность сигнальных процессоров 420 мВт, в режиме ожидания – 7 мВт при напряжении 1,0 В и температуре 25°С. Все это в сочетании с разработанным компанией TI программным обеспечением для управления питанием и дополняющими аналоговыми решениями позволяет разработчикам оптимизировать свои системы по производительности и потребляемой мощности.
Но сейчас требуемые бытовыми устройствами функции цифровой обработки сигнала реализуются иначе. Если не нужно решать числовые задачи большого объема, достаточно добавить в микросхему обычного RISC-процессора блок умножителя с накоплением (MAC) или другие DSP-расширения, позволяющие выполнять цифровую обработку сигнала. Так, ряд семейств процессоров компании ARM, в том числе процессор ARM9, работают с набором команд ARM V5TE. В процессорах семейства CortevA8 компании использованы расширения медиапроцессора Neon. Аналогично специальные DSP-функции можно найти в ядрах процессоров MIPS32 и MIPS64 компании MIPS, а также в ядрах программируемых процессоров Xtensa LX3 и Xtensa8 компании Tensilica.
Чаще всего в приложениях со стабильными и четко определенными требованиями к функциям цифровой обработки сигнала применяют сопроцессор-акселератор. Например, в микроконтроллере DVD-плеера, выполняющего функции пользовательского интерфейса и управления системой, для декодирования видео- и аудиосигналов. Эти блоки, как правило, представляют собой сигнальные процессоры, отвечающие конкретным требованиям приложения с помощью входящих в них периферийных устройств. Пример – семейство 24-разрядных многоядерных аудиопроцессоров серии DSP5672x семейства Symphony компании Freescale (рис.2), предназначенные для аппаратуры высококачественного воспроизведения звука и формирования объемного звучания. Ядрами микросхем этой серии служат популярные процессоры DSP56300, рассчитанные на тактовую частоту 250 МГц и производительность 500 Mips в диапазоне температур бытовой техники. Микросхема последнего варианта процессора этого семейства DSP56725, помимо ОЗУ емкостью 112Кх24-разрядных слов, содержит следующие блоки (рис.3):
* асинхронный преобразователь частоты дискретизации (Asynchronous Sample Rate Converter, ASRC) для поддержки различных скоростей обмена данными;
* встроенный трансивер c цифровым интерфейсом S/PDIF (Sony/Philips Digital Interface) для передачи цифрового потока звука и снижения стоимости и сложности системы;
* четыре усовершенствованных модуля последовательного сопряжения по звуковой частоте для подключения нескольких источников;
* два последовательных интерфейса хоста, поддерживающие протоколы SPI и I2C и обеспечивающие высокоскоростную связь между многочисленными устройствами системы;
* два трехрежимных таймера, формирующих гибкую программируемую систему синхронизации;
* два сторожевых таймера.
Монтируется процессор в 80-выводной низкопрофильный плоский корпус типа LQFP. Предназначен для аудио- и видеоприемников, автомобильных аудиосистем/усилителей, профессиональной аудиозаписывающей аппаратуры.
Сигнальный процессор такого типа представляет собой устройство с фиксированными заданными функциями, хранимыми во внутрисхемной постоянной памяти. Его, как правило, не отличают от логических схем. Но эти процессоры можно программировать с тем, чтобы они соответствовали вносимым в систему изменениям, например обеспечивали большее разрешение или могли работать с новыми кодеками, позволяющими улучшить качество воспроизведения. Зачастую поставщики даже не именуют такие специализированные микросхемы сигнальными процессорами, оставляя им название, соответствующее их назначению. К таким приборам относится процессор VC034 компании Vimicro, предназначенный для обработки цифровых фотоснимков сетевой камеры и пересылки их хосту через USB-интерфейс. В микросхему процессора цифровой обработки изображения, выполняющего функции сжатия JPEG на основе хранимых в ПЗУ программ, входят интерфейс для прямого подключения к датчику изображения, аппаратный блок для создания заголовка JPEG и ведомый USB-интерфейс. Микросхема могла бы выполнять функции сжатия JPEG только аппаратными средствами. Но наличие "вшитых" в ПЗУ программ позволяет разработчикам задавать системе дополнительные функции, например отслеживать перемещения объекта. Предоставляемая при разработке систем гибкость, позволяющая ускорить выпуск изделия, удовлетворяющего требованиям заказчика, – одна из основных причин, по которым DSP все еще находят применения в устройствах с заданными функциями и их не заменяют более дешевыми аппаратными средствами.
Под знаменами многоядерных процессоров
На другом конце спектра бытовой техники – устройства, которые предъявляют к сигнальным процессорам постоянно меняющиеся требования. Это, в первую очередь, касается сетевых устройств, обрабатывающих различные носители информации. Вследствие развития методов сжатия информации меняются и алгоритмы обработки данных. А потребителю необходимо дальнейшее повышение разрешения изображения и улучшение качества воспроизведения звука, что накладывает дополнительные требования к устройствам цифровой обработки сигнала.
Решить эти проблемы можно с помощью встраиваемых многоядерных сигнальных процессоров. В таких процессорах производительность и гибкость, необходимые для выполнения динамически изменяемых конструктивных требований, обеспечивают несколько ядер, одно (или больше) из которых представляет собой программируемый DSP, другое – RISC-процессор. Так, в маломощном двухъядерном процессоре OMAR L-138 компании Texas Instruments (мощность в активном режиме – 400 мВт, в режиме ожидания – 8 мВт) ядра выполнены на основе RISC-процессора ARM9 и сигнального процессора С674х (рис.1, 4). В микросхему, которая находит широкое применение в промышленных диагностических системах, гидро- и радиолокаторах военного назначения, измерительном медицинском оборудовании, профессиональной аудиоаппаратуре, входит блок ввода-вывода видеоданных.
К последним разработками DSP семейства компании Analog Devices относится микросхема сигнального процессора ADSP-BF561, которая содержит два независимых Blackfin процессорных ядра. В каждое ядро входят два 16-разрядных умножителя/сумматора, два 40-бит АЛУ, четыре восьмиразрядных видеоАЛУ и 40-разрядный сдвиговый регистр. Кроме того, в каждое ядро входят СОЗУ/кэш и СОЗУ команд емкостью 16 Кбайт каждое, СОЗУ/кэш и СОЗУ данных емкостью 32 Кбайт каждое, а также сверхоперативная память емкостью 4 Кбайт. Итого общая емкость внутрисхемной памяти составляет 328 Кбайт. Дополнительно микросхема процессора содержит совместно используемое низколатентное L2 СОЗУ емкостью 128 Кбайт (рис.5).
В число периферийных устройств входят:
32-разрядный контроллер памяти, поддерживающий внешнюю память типа синхронного ДОЗУ, СОЗУ и флеш-памяти;
два 16-канальных DMA-контроллера, поддерживающих одно- и двустороннюю передачу данных;
два параллельных интерфейса ввода/вывода (PPI) c поддержкой видеоформата ITU-R 656 и интерфейса с АЦП аналоговых входных устройств без дополнительных устройств;
два двухканальных полнодуплексных синхронных последовательных порта (SPORT) с поддержкой восьми I2S стереоканалов;
12 32-разрядных таймеров/счетчиков с поддержкой ШИМ;
порт, совместимый с SPI;
UART с поддержкой ИК-интерфейса IrDA;
два 32-разрядных таймера;
два сторожевых таймера;
48 GPIO;
ФАПЧ с коэффициентом умножения частоты от 0,5 до 64.
Напряжение питания ядра составляет 0,8–1,2 В, периферии – 2,5–3,3 В. Монтируется микросхема в 256-контактный мини-BGA корпус размером 12×12 мм или в 297-контактный пластмассовый BGA-корпус.
Микросхема предназначена для автомобильных систем видеонаблюдения, средств машинного зрения, безопасности и наблюдения, цифровых устройств видеозаписи, широкополосных систем связи, VoIP-cистем.
А четырехъядерный процессор SE100 семейства SPURSEngine компании Toshiba позиционируется в первую очередь как медиасопроцессор, спроектированный для обработки трехмерной графики и видеоданных в такой бытовой аппаратуре, как телевизионные приставки и компьютеры. Микросхема содержит четыре так называемых синергетических элемента обработки сигнала (Synergistic Processing Element, SPE), представляющих собой RISC-процессоры, а также аппаратные кодеки, предназначенные для высококачественного кодирования и декодирования MPEG2 и H.264 видеопотоков. Элементами обработки сигнала управляет независимый процессор, связь с которым осуществляется по шине PCIe (рис.6). Наличие в микросхеме отдельных блоков кодеков позволяет отказаться от внешних процессоров для обработки видеосигнала в полной полосе частот, независимо от его сжатия. SPE работают на частоте 1,5 ГГц, производительность каждого составляет 12 Gflops (в целом 48 Gflops) при потребляемой мощности 10–20 Вт. Микросхема выполнена по 65-нм КМОП-технологии с семислойной металлизацией и размещена на кристалле размером 9,98×10,31 мм. Поставляется в 624-выводном FC-BGA-корпусе, монтируемым перевернутым кристаллом (Flip Chip-Ball Grid Array, FC- BGA).
Микросхемы семейства Quatro 4500 компании Zoran, предназначенные для принтеров, обеспечивают высокие скорости печати (до 45 цветных страниц за 1 мин), сканирования и копирования благодаря интеграции двухъядерного процессора ARM11 на частоту 400–600 МГц, аппаратного конвейера обработки изображения и четырех сигнальных процессоров Quatro на тактовую частоту 300 МГц. В число периферийных устройств входят USB 2.0 приборный интерфейс, два USB 2.0 хост-интерфейса, интерфейс платы памяти, интерфейс сканера, поддерживающий LVDS-сигналы, интерфейс лазерных/светодиодных принтеров, три PCIe, обслуживающие в целом до шести каналов. Монтируются микросхемы семейства в 520-выводной корпус типа BGA размером 27×27 мм.
Популярность многоядерной технологии привела к развитию рынка ядер сигнальных процессоров, поставщики которых сегодня отказываются от производства микросхем процессоров. Так, в последнее время DSP-ядра моделей Teak и TeakLite компании CEVA пользуются все большим спросом у компаний Broadcom, Infineon, ST-Ericson, Samsung, Mediatek, Spreadtrum и VIA Telecom, которые прекращают применять свои запатентованные сигнальные процессоры в сотовых телефонах. Сегодня отгружены более 600 млн. сотовых телефонов с процессорами на основе ядер компании CEVA. Компания имеет множество лицензий на телефоны и инфраструктуры, выполненные по технологиям 4G/LTE/WiMAX с использованием DSP-ядер. В результате, по мнению экспертов, в 2012 году из общего объема продаж сотовых телефонов ~50% будут выполнены с использованием DSP-ядра.
Компания STMicroelectronics выпустила семейство микросхем STi5189/5197 для ТВ-приставок, в котором для декодирования сигнала применено DSP-ядро ST40 и запатентованные ядра процессоров графического изображения и аудиосигнала. В ближайшее время компания намерена разрабатывать микросхемы для телевидения высокой четкости на основе ядер других фирм. Так, в микросхемах следующего поколения вместо ядер собственной разработки STMicroelectronics планирует использовать процессор семейства Cortex c встроенными DSP-функциями компании ARM и выполненный на основе сигнального процессора графический процессор Mali-400 этой же компании.
Отказ STM от собственных разработок в пользу DSP-ядер третьих поставщиков обусловлен желанием сократить широкомасштабные фирменные разработки и освободить свои ресурсы для более перспективных работ. Кроме того, многие компании, особенно полупроводниковые фирмы, не имеющие собственного производства, а также разработчики бытовой аппаратуры, стремятся освободится от привязки к одному производителю и иметь дело с многими поставщиками необходимых им микросхем.
Развитие новых архитектур
Применение программно определяемых радиосистем в сотовых телефонах и беспроводных, присоединяемых к Интернету, устройств для обеспечения повсеместной бесперебойной связи требует выполнения разнообразных протоколов беспроводной связи (Bluetooth, Wi-Fi, WiMAX и др.). Объединение различных микросхем для решения этой задачи приведет к существенному увеличению размеров, стоимости и потребляемой энергии устройства. Избежать таких проблем можно за счет применения сигнального процессора с высокими характеристиками, который может быть запрограммирован на работу с любым нужным протоколом, а также управлять выбором частоты, модуляции и подключением антенны радиосистемы. Но новые применения сигнального процессора в ряде случаев требуют новых его архитектур. Пример – архитектура процессора CEVA-XC компании CEVA, содержащего многочисленные вычислительные блоки, позволяющие работать с одним потоком команд и многими потоками данных (SIMD), а также с системой команд сверхбольшой разрядности. CEVA-XC – высокопроизводительное DSP-ядро шестого поколения с низким энергопотреблением, предназначенное для перспективных беспроводных систем связи. Эта полностью программируемая архитектура поддерживает полную обработку сигналов приемопередатчика в стандартах LTE класса 5 и WiMAX II (IEEE 802.16m), а также в стандартах 2G-, 3G-, 3,5G-систем, мобильного ТВ, Wi-Fi, BT, GPS и др.
Архитектура процессора содержит два типа вычислительных блоков: универсальный, выполняющий общие функции цифровой обработки сигнала и управления, и один, два или четыре "векторных вычислительных блока". Каждый векторный блок содержит 256-бит SIMD-процессор, поддерживающий три команды сверхбольшой разрядности. В блок процессора входят 16-бит умножитель/сумматор (МАС), арифметический и логический блоки (рис.7). Векторные блоки могут работать в двух режимах – выполнять все одну и ту же команду с помощью SIMD-процессора, работающего с командами сверхбольшой разрядности, или выполнять каждый свою команду с использованием опционального набора команд. Производительность CEVA-XC за цикл составляет 64 16×16 бит или 128 16×8 МАС-операций, до 128 арифметических операций, до 64 логических операций и до 400 16-разрядных операций.
Компания пока не приводит значение тактовой частоты, но предполагается, что в микросхеме, выполненной по 65-нм технологии, она составит 500 МГц. Согласно оценкам разработчиков, ядро с наибольшей производительностью будет в 8–10 раз превосходить по эффективности цифровой обработки сигнала процессоры с ядром семейства C64x компании Texas Instruments. Правда, эта оценка выполнена с учетом циклов, требуемых для решения задачи, а не быстродействия ядра. А процессоры семейства C64x работают на частоте 1,2 ГГц.
В каком бы направлении ни работали поставщики сигнальных процессоров (создание новых архитектур или оптимального сочетания процессоров и периферии) их основная цель – упрощение задач разработчика бытовой аппаратуры. Высокий спрос на DSP на рынке бытовой техники разрушило представление о сигнальных процессорах как об устройствах, доступных лишь незначительному числу экспертов. Усилия поставщиков помимо совершенствования существующих процессоров направлены на то, чтобы упростить применение программных средств и разработку прикладных решений. Для этого создаются большие семейства программно совместимых процессоров, а также открытые и часто бесплатные библиотеки. Чтобы оперативно реагировать на новые потребности рынка бытовых систем, компании уделяют особое внимание устранению различий между сигнальными процессорами, выполняющими операции с фиксированной и плавающей запятой. Разработчики сигнальных процессоров стремятся упростить их проектирование, выпуская обширные библиотеки функций ядер, которые ускоряют выпуск новых систем. Так, недавно представленная библиотека VLIB для проектировщиков видеосистем компании Texas Instruments содержит функции автоматической идентификации объекта для системы фокусировки цифрового фотоаппарата. Чтобы заинтересовать такими библиотеками озабоченных издержками разработчиков бытовой техники, их предоставляют по сниженным ценам. А компания Analog Devices предлагает своим заказчикам бесплатные библиотеки DSP-функций для различных применений.
Стремление разработчиков бытовой аппаратуры снизить издержки производства приводит к быстрому выпуску новых вариантов все более удивительных сигнальных процессоров. По мере развития рынка и стабилизации потребностей разработчики микросхем для бытовых систем уделяют все больше внимания снижению стоимости своей продукции за счет увеличения уровня интеграции и числа поставщиков компонентов. Это стимулирует переход от представленных на рынке изделий на основе DSP к специализированным системам на кристалле с DSP-ядрами. В результате поставщики микросхем должны постоянно пересматривать выпускаемую продукцию. Следовательно, число и типы представленных на рынке сигнальных процессоров будут постоянно расти. Вместе с тем тенденция к наращиванию функций для конкретных применений, а также стремление к снижению стоимости и увеличению производительности процессоров вкупе с необходимостью сохранения их программной совместимости приведут к сокращению разнообразия архитектур. В результате разработчики бытовых систем получат сигнальные процессоры с большими возможностями, но число их типов сократится.
Требования к таким сигнальным процессорам постоянно ужесточаются. Переход к средствам отображения высокой четкости потребовал увеличения тактовой частоты процессоров изображения, особенно тех, которые использются в мобильных устройствах и телевизионных приставках. А к сигнальным процессорам для аудиосистем с высоким разрешением, в частности для систем "окружающего" звука, предъявляются требования повышенной точности и производительности. Расширяются и требования к DSP для таких относительно простых систем, как цифровые фотоаппараты с функциями стабилизации изображения и распознавания лица. Сигнальные процессоры необходимы и для телевизионных приставок, IP-телефонов, фотоаппаратов, игровых систем и медиаплееров, подключаемых в различных сочетаниях к Интернету для обмена информацией.
Расширение областей применения за счет обширных семейств
Чтобы выполнить все требования, предъявляемые создателями бытовой техники к сигнальным процессорам, их поставщики выпускают устройства (в виде отдельных микросхем или ядер), перекрывающие весь диапазон возможных систем. Зачастую такие изделия образуют совместимые по программным средствам расширенные семейства процессоров различных типов (универсальных и специализированных). В результате отличия между изделиями размываются, облегчая разработчикам выбор прибора, больше всего подходящего для создаваемого устройства. За счет дополнения автономных и многоядерных сигнальных процессоров периферийными устройствами, отвечающими требованиям конкретного применения, улучшаются характеристики и снижается стоимость разрабатываемой системы, хотя и ухудшается эксплуатационная гибкость процессора.
Наряду с этим по-прежнему совершенствуются характеристики универсальных процессоров, отвечающих требованиям пока еще разрабатываемых приложений, для которых нужна достаточно высокая эксплуатационная гибкость, позволяющая эффективно реагировать на быстрые изменения рынка. Разрабатываются новые DSP-архитектуры, обеспечивающие скачок характеристик процессора в соответствии с необычными требованиями новых приложений.
Развитие автономных сигнальных процессоров
Потребности рынка постоянно растут, и в результате функции, выполняемые когда-то автономными DSP, непрерывно наращиваются с целью поддержки беспроводной связи и управления новыми медиасистемами. И универсальные программируемые автономные микросхемы по-прежнему находят применение. Так, на рынке широко представлены сигнальные процессоры семейства Blackfin компании Analog Devices, каждое поколение которых отличается боле высоким быстродействием, меньшей потребляемой мощностью и меньшей стоимостью. Сегодня в семейство Blackfin входят сигнальные процессоры, перекрывающие диапазон тактовых частот от 200 МГц (ADSP-BF535) до 756 МГц (двухъядерный процессор ADSP-BF561) и предназначенные для разнообразной бытовой, контрольно-измерительной аппаратуры, автомобильных, промышленных систем и систем связи. Минимальная потребляемая мощность DSP этого семейства составляет 0,23 мВт/МГц.
В начале 2010 года компания Analog Devices объявила о выпуске двух новых серий 32-разрядных сигнальных процессоров с плавающей запятой семейства SHARC с встроенной памятью емкостью 5 Мбит – ADSP-2147x и ADSP-2148x. С появлением этих DSP разработчики изделий массового производства получили возможность создавать устройства, выполняющие высокоточные вычисления с плавающей запятой. Процессоры серии ADSP-2148x превосходят конкурирующие 32-разрядные DSP с плавающей запятой по производительности на 33% (тактовая частота 400 МГц), а по объему памяти на 250% (5 Мбит). Процессоры этой серии пригодны для применения в системах высокоточной обработки звука, домашних кинотеатрах, а также в "продвинутом" промышленном оборудовании. Поставляются в 176- и 100-выводных корпусах типа LQFP.
Потребляемая мощность сигнальных процессоров серии ADSP-2147x, монтируемых в корпуса BGA размером 12×12 мм или LQFP размером 14×14 мм, составляет 363 мВт, тактовая частота — 266 МГц. Они перспективны для применения в портативном оборудовании, в том числе медицинском и перспективных системах помощи водителю.
Рис.1. Основные характеристики сигнальных процессоров серии TMS320C674x
Новые процессоры обеих серий обратно совместимы по коду со всеми процессорами семейства SHARC, а также со средствами проектирования компании. Встроенные аппаратные ускорители с независимыми вычислительными ресурсами и прямой доступ к памяти обеспечивают поддержку БПФ и вычислений конечной и бесконечной импульсных характеристик в фоновом режиме, освобождая ресурсы ядра для выполнения других вычислительных задач. Обращение к памяти оптимизировано с помощью набора переменных команд, позволяющих освободить до 30% объема памяти прикладного кода за счет уменьшения размера кода операции.
Интерес представляют сигнальные процессоры, входящие в семейства TMS320С64х и TMS320С674х компании Texas Instruments (TI). Так, выпущенные в 2009 году процессоры TMS320C6742, TMS320C6746, TMS320C6748 и двухъядерный процессор OMAR L-138 (все с DSP-ядром C674x), входящие в одно семейство, выполняют операции с плавающей запятой при низком энергопотреблении, имеют полный набор интегрированных периферийных устройств, необходимых для конкретного применения, и достаточно дешевы. До настоящего времени подобными характеристиками обладали лишь устройства с фиксированной запятой. Микросхемы процессоров содержат встроенный универсальный параллельный порт (uPP), обеспечивающий быстрый обмен данными с FPGA и другими процессорами. Впервые для процессоров компании в этих микросхемах предусмотрен интерфейс SATA для накопителей данных большой емкости (рис.1). Интерфейс видеопорта обеспечивает ввод/вывод необработанных видеоданных, а встроенный контроллер ЖК-дисплея позволяет разработчикам без проблем подключать микросхему к дисплею с VGA-разрешением. Микропроцессоры работают на тактовой частоте до 300 МГц. Режим динамической регулировки напряжения и частоты (dynamic voltage and frequency scaling, DVFS) позволяет реализовывать гибкое отключение не используемой периферии и настройку напряжения входа-выхода. Емкость внутрисхемной памяти процессоров составляет 128–448 Кбайт, что избавляет от необходимости обращения к внешней памяти. Максимальная потребляемая мощность сигнальных процессоров 420 мВт, в режиме ожидания – 7 мВт при напряжении 1,0 В и температуре 25°С. Все это в сочетании с разработанным компанией TI программным обеспечением для управления питанием и дополняющими аналоговыми решениями позволяет разработчикам оптимизировать свои системы по производительности и потребляемой мощности.
Рис.2. Процессоры серии DSP5672x компании Freescale
Но сейчас требуемые бытовыми устройствами функции цифровой обработки сигнала реализуются иначе. Если не нужно решать числовые задачи большого объема, достаточно добавить в микросхему обычного RISC-процессора блок умножителя с накоплением (MAC) или другие DSP-расширения, позволяющие выполнять цифровую обработку сигнала. Так, ряд семейств процессоров компании ARM, в том числе процессор ARM9, работают с набором команд ARM V5TE. В процессорах семейства CortevA8 компании использованы расширения медиапроцессора Neon. Аналогично специальные DSP-функции можно найти в ядрах процессоров MIPS32 и MIPS64 компании MIPS, а также в ядрах программируемых процессоров Xtensa LX3 и Xtensa8 компании Tensilica.
Рис.3. Блок-схема процессора DSP56724/25
Чаще всего в приложениях со стабильными и четко определенными требованиями к функциям цифровой обработки сигнала применяют сопроцессор-акселератор. Например, в микроконтроллере DVD-плеера, выполняющего функции пользовательского интерфейса и управления системой, для декодирования видео- и аудиосигналов. Эти блоки, как правило, представляют собой сигнальные процессоры, отвечающие конкретным требованиям приложения с помощью входящих в них периферийных устройств. Пример – семейство 24-разрядных многоядерных аудиопроцессоров серии DSP5672x семейства Symphony компании Freescale (рис.2), предназначенные для аппаратуры высококачественного воспроизведения звука и формирования объемного звучания. Ядрами микросхем этой серии служат популярные процессоры DSP56300, рассчитанные на тактовую частоту 250 МГц и производительность 500 Mips в диапазоне температур бытовой техники. Микросхема последнего варианта процессора этого семейства DSP56725, помимо ОЗУ емкостью 112Кх24-разрядных слов, содержит следующие блоки (рис.3):
* асинхронный преобразователь частоты дискретизации (Asynchronous Sample Rate Converter, ASRC) для поддержки различных скоростей обмена данными;
* встроенный трансивер c цифровым интерфейсом S/PDIF (Sony/Philips Digital Interface) для передачи цифрового потока звука и снижения стоимости и сложности системы;
* четыре усовершенствованных модуля последовательного сопряжения по звуковой частоте для подключения нескольких источников;
* два последовательных интерфейса хоста, поддерживающие протоколы SPI и I2C и обеспечивающие высокоскоростную связь между многочисленными устройствами системы;
* два трехрежимных таймера, формирующих гибкую программируемую систему синхронизации;
* два сторожевых таймера.
Монтируется процессор в 80-выводной низкопрофильный плоский корпус типа LQFP. Предназначен для аудио- и видеоприемников, автомобильных аудиосистем/усилителей, профессиональной аудиозаписывающей аппаратуры.
Сигнальный процессор такого типа представляет собой устройство с фиксированными заданными функциями, хранимыми во внутрисхемной постоянной памяти. Его, как правило, не отличают от логических схем. Но эти процессоры можно программировать с тем, чтобы они соответствовали вносимым в систему изменениям, например обеспечивали большее разрешение или могли работать с новыми кодеками, позволяющими улучшить качество воспроизведения. Зачастую поставщики даже не именуют такие специализированные микросхемы сигнальными процессорами, оставляя им название, соответствующее их назначению. К таким приборам относится процессор VC034 компании Vimicro, предназначенный для обработки цифровых фотоснимков сетевой камеры и пересылки их хосту через USB-интерфейс. В микросхему процессора цифровой обработки изображения, выполняющего функции сжатия JPEG на основе хранимых в ПЗУ программ, входят интерфейс для прямого подключения к датчику изображения, аппаратный блок для создания заголовка JPEG и ведомый USB-интерфейс. Микросхема могла бы выполнять функции сжатия JPEG только аппаратными средствами. Но наличие "вшитых" в ПЗУ программ позволяет разработчикам задавать системе дополнительные функции, например отслеживать перемещения объекта. Предоставляемая при разработке систем гибкость, позволяющая ускорить выпуск изделия, удовлетворяющего требованиям заказчика, – одна из основных причин, по которым DSP все еще находят применения в устройствах с заданными функциями и их не заменяют более дешевыми аппаратными средствами.
Рис.4. Функциональная блок-схема двухъядерного процессора OMAR L-138
Под знаменами многоядерных процессоров
На другом конце спектра бытовой техники – устройства, которые предъявляют к сигнальным процессорам постоянно меняющиеся требования. Это, в первую очередь, касается сетевых устройств, обрабатывающих различные носители информации. Вследствие развития методов сжатия информации меняются и алгоритмы обработки данных. А потребителю необходимо дальнейшее повышение разрешения изображения и улучшение качества воспроизведения звука, что накладывает дополнительные требования к устройствам цифровой обработки сигнала.
Решить эти проблемы можно с помощью встраиваемых многоядерных сигнальных процессоров. В таких процессорах производительность и гибкость, необходимые для выполнения динамически изменяемых конструктивных требований, обеспечивают несколько ядер, одно (или больше) из которых представляет собой программируемый DSP, другое – RISC-процессор. Так, в маломощном двухъядерном процессоре OMAR L-138 компании Texas Instruments (мощность в активном режиме – 400 мВт, в режиме ожидания – 8 мВт) ядра выполнены на основе RISC-процессора ARM9 и сигнального процессора С674х (рис.1, 4). В микросхему, которая находит широкое применение в промышленных диагностических системах, гидро- и радиолокаторах военного назначения, измерительном медицинском оборудовании, профессиональной аудиоаппаратуре, входит блок ввода-вывода видеоданных.
К последним разработками DSP семейства компании Analog Devices относится микросхема сигнального процессора ADSP-BF561, которая содержит два независимых Blackfin процессорных ядра. В каждое ядро входят два 16-разрядных умножителя/сумматора, два 40-бит АЛУ, четыре восьмиразрядных видеоАЛУ и 40-разрядный сдвиговый регистр. Кроме того, в каждое ядро входят СОЗУ/кэш и СОЗУ команд емкостью 16 Кбайт каждое, СОЗУ/кэш и СОЗУ данных емкостью 32 Кбайт каждое, а также сверхоперативная память емкостью 4 Кбайт. Итого общая емкость внутрисхемной памяти составляет 328 Кбайт. Дополнительно микросхема процессора содержит совместно используемое низколатентное L2 СОЗУ емкостью 128 Кбайт (рис.5).
В число периферийных устройств входят:
32-разрядный контроллер памяти, поддерживающий внешнюю память типа синхронного ДОЗУ, СОЗУ и флеш-памяти;
два 16-канальных DMA-контроллера, поддерживающих одно- и двустороннюю передачу данных;
два параллельных интерфейса ввода/вывода (PPI) c поддержкой видеоформата ITU-R 656 и интерфейса с АЦП аналоговых входных устройств без дополнительных устройств;
два двухканальных полнодуплексных синхронных последовательных порта (SPORT) с поддержкой восьми I2S стереоканалов;
12 32-разрядных таймеров/счетчиков с поддержкой ШИМ;
порт, совместимый с SPI;
UART с поддержкой ИК-интерфейса IrDA;
два 32-разрядных таймера;
два сторожевых таймера;
48 GPIO;
ФАПЧ с коэффициентом умножения частоты от 0,5 до 64.
Напряжение питания ядра составляет 0,8–1,2 В, периферии – 2,5–3,3 В. Монтируется микросхема в 256-контактный мини-BGA корпус размером 12×12 мм или в 297-контактный пластмассовый BGA-корпус.
Микросхема предназначена для автомобильных систем видеонаблюдения, средств машинного зрения, безопасности и наблюдения, цифровых устройств видеозаписи, широкополосных систем связи, VoIP-cистем.
А четырехъядерный процессор SE100 семейства SPURSEngine компании Toshiba позиционируется в первую очередь как медиасопроцессор, спроектированный для обработки трехмерной графики и видеоданных в такой бытовой аппаратуре, как телевизионные приставки и компьютеры. Микросхема содержит четыре так называемых синергетических элемента обработки сигнала (Synergistic Processing Element, SPE), представляющих собой RISC-процессоры, а также аппаратные кодеки, предназначенные для высококачественного кодирования и декодирования MPEG2 и H.264 видеопотоков. Элементами обработки сигнала управляет независимый процессор, связь с которым осуществляется по шине PCIe (рис.6). Наличие в микросхеме отдельных блоков кодеков позволяет отказаться от внешних процессоров для обработки видеосигнала в полной полосе частот, независимо от его сжатия. SPE работают на частоте 1,5 ГГц, производительность каждого составляет 12 Gflops (в целом 48 Gflops) при потребляемой мощности 10–20 Вт. Микросхема выполнена по 65-нм КМОП-технологии с семислойной металлизацией и размещена на кристалле размером 9,98×10,31 мм. Поставляется в 624-выводном FC-BGA-корпусе, монтируемым перевернутым кристаллом (Flip Chip-Ball Grid Array, FC- BGA).
Микросхемы семейства Quatro 4500 компании Zoran, предназначенные для принтеров, обеспечивают высокие скорости печати (до 45 цветных страниц за 1 мин), сканирования и копирования благодаря интеграции двухъядерного процессора ARM11 на частоту 400–600 МГц, аппаратного конвейера обработки изображения и четырех сигнальных процессоров Quatro на тактовую частоту 300 МГц. В число периферийных устройств входят USB 2.0 приборный интерфейс, два USB 2.0 хост-интерфейса, интерфейс платы памяти, интерфейс сканера, поддерживающий LVDS-сигналы, интерфейс лазерных/светодиодных принтеров, три PCIe, обслуживающие в целом до шести каналов. Монтируются микросхемы семейства в 520-выводной корпус типа BGA размером 27×27 мм.
Популярность многоядерной технологии привела к развитию рынка ядер сигнальных процессоров, поставщики которых сегодня отказываются от производства микросхем процессоров. Так, в последнее время DSP-ядра моделей Teak и TeakLite компании CEVA пользуются все большим спросом у компаний Broadcom, Infineon, ST-Ericson, Samsung, Mediatek, Spreadtrum и VIA Telecom, которые прекращают применять свои запатентованные сигнальные процессоры в сотовых телефонах. Сегодня отгружены более 600 млн. сотовых телефонов с процессорами на основе ядер компании CEVA. Компания имеет множество лицензий на телефоны и инфраструктуры, выполненные по технологиям 4G/LTE/WiMAX с использованием DSP-ядер. В результате, по мнению экспертов, в 2012 году из общего объема продаж сотовых телефонов ~50% будут выполнены с использованием DSP-ядра.
Компания STMicroelectronics выпустила семейство микросхем STi5189/5197 для ТВ-приставок, в котором для декодирования сигнала применено DSP-ядро ST40 и запатентованные ядра процессоров графического изображения и аудиосигнала. В ближайшее время компания намерена разрабатывать микросхемы для телевидения высокой четкости на основе ядер других фирм. Так, в микросхемах следующего поколения вместо ядер собственной разработки STMicroelectronics планирует использовать процессор семейства Cortex c встроенными DSP-функциями компании ARM и выполненный на основе сигнального процессора графический процессор Mali-400 этой же компании.
Отказ STM от собственных разработок в пользу DSP-ядер третьих поставщиков обусловлен желанием сократить широкомасштабные фирменные разработки и освободить свои ресурсы для более перспективных работ. Кроме того, многие компании, особенно полупроводниковые фирмы, не имеющие собственного производства, а также разработчики бытовой аппаратуры, стремятся освободится от привязки к одному производителю и иметь дело с многими поставщиками необходимых им микросхем.
Рис.5. Функциональная блок-схема сигнального процессора
Развитие новых архитектур
Применение программно определяемых радиосистем в сотовых телефонах и беспроводных, присоединяемых к Интернету, устройств для обеспечения повсеместной бесперебойной связи требует выполнения разнообразных протоколов беспроводной связи (Bluetooth, Wi-Fi, WiMAX и др.). Объединение различных микросхем для решения этой задачи приведет к существенному увеличению размеров, стоимости и потребляемой энергии устройства. Избежать таких проблем можно за счет применения сигнального процессора с высокими характеристиками, который может быть запрограммирован на работу с любым нужным протоколом, а также управлять выбором частоты, модуляции и подключением антенны радиосистемы. Но новые применения сигнального процессора в ряде случаев требуют новых его архитектур. Пример – архитектура процессора CEVA-XC компании CEVA, содержащего многочисленные вычислительные блоки, позволяющие работать с одним потоком команд и многими потоками данных (SIMD), а также с системой команд сверхбольшой разрядности. CEVA-XC – высокопроизводительное DSP-ядро шестого поколения с низким энергопотреблением, предназначенное для перспективных беспроводных систем связи. Эта полностью программируемая архитектура поддерживает полную обработку сигналов приемопередатчика в стандартах LTE класса 5 и WiMAX II (IEEE 802.16m), а также в стандартах 2G-, 3G-, 3,5G-систем, мобильного ТВ, Wi-Fi, BT, GPS и др.
Архитектура процессора содержит два типа вычислительных блоков: универсальный, выполняющий общие функции цифровой обработки сигнала и управления, и один, два или четыре "векторных вычислительных блока". Каждый векторный блок содержит 256-бит SIMD-процессор, поддерживающий три команды сверхбольшой разрядности. В блок процессора входят 16-бит умножитель/сумматор (МАС), арифметический и логический блоки (рис.7). Векторные блоки могут работать в двух режимах – выполнять все одну и ту же команду с помощью SIMD-процессора, работающего с командами сверхбольшой разрядности, или выполнять каждый свою команду с использованием опционального набора команд. Производительность CEVA-XC за цикл составляет 64 16×16 бит или 128 16×8 МАС-операций, до 128 арифметических операций, до 64 логических операций и до 400 16-разрядных операций.
Компания пока не приводит значение тактовой частоты, но предполагается, что в микросхеме, выполненной по 65-нм технологии, она составит 500 МГц. Согласно оценкам разработчиков, ядро с наибольшей производительностью будет в 8–10 раз превосходить по эффективности цифровой обработки сигнала процессоры с ядром семейства C64x компании Texas Instruments. Правда, эта оценка выполнена с учетом циклов, требуемых для решения задачи, а не быстродействия ядра. А процессоры семейства C64x работают на частоте 1,2 ГГц.
В каком бы направлении ни работали поставщики сигнальных процессоров (создание новых архитектур или оптимального сочетания процессоров и периферии) их основная цель – упрощение задач разработчика бытовой аппаратуры. Высокий спрос на DSP на рынке бытовой техники разрушило представление о сигнальных процессорах как об устройствах, доступных лишь незначительному числу экспертов. Усилия поставщиков помимо совершенствования существующих процессоров направлены на то, чтобы упростить применение программных средств и разработку прикладных решений. Для этого создаются большие семейства программно совместимых процессоров, а также открытые и часто бесплатные библиотеки. Чтобы оперативно реагировать на новые потребности рынка бытовых систем, компании уделяют особое внимание устранению различий между сигнальными процессорами, выполняющими операции с фиксированной и плавающей запятой. Разработчики сигнальных процессоров стремятся упростить их проектирование, выпуская обширные библиотеки функций ядер, которые ускоряют выпуск новых систем. Так, недавно представленная библиотека VLIB для проектировщиков видеосистем компании Texas Instruments содержит функции автоматической идентификации объекта для системы фокусировки цифрового фотоаппарата. Чтобы заинтересовать такими библиотеками озабоченных издержками разработчиков бытовой техники, их предоставляют по сниженным ценам. А компания Analog Devices предлагает своим заказчикам бесплатные библиотеки DSP-функций для различных применений.
Стремление разработчиков бытовой аппаратуры снизить издержки производства приводит к быстрому выпуску новых вариантов все более удивительных сигнальных процессоров. По мере развития рынка и стабилизации потребностей разработчики микросхем для бытовых систем уделяют все больше внимания снижению стоимости своей продукции за счет увеличения уровня интеграции и числа поставщиков компонентов. Это стимулирует переход от представленных на рынке изделий на основе DSP к специализированным системам на кристалле с DSP-ядрами. В результате поставщики микросхем должны постоянно пересматривать выпускаемую продукцию. Следовательно, число и типы представленных на рынке сигнальных процессоров будут постоянно расти. Вместе с тем тенденция к наращиванию функций для конкретных применений, а также стремление к снижению стоимости и увеличению производительности процессоров вкупе с необходимостью сохранения их программной совместимости приведут к сокращению разнообразия архитектур. В результате разработчики бытовых систем получат сигнальные процессоры с большими возможностями, но число их типов сократится.
Отзывы читателей