Но сегодняшние простейшие МР3-плейеры не смогут конкурировать с устройствами следующих поколений. Пользователи ждут появления аудиоплатформ, функционально сопоставимых или даже превосходящих обычные домашние музыкальные центры и способных поддерживать разнообразные аудиоформаты. Создание таких цифровых аудиосистем – от простейших портативных до стереомоделей высшего класса – сводится к выбору оптимального набора алгоритмов, аппаратных и программных средств, а также механизмов обеспечения целостности данных. Как считает технический руководитель фирмы Creative Technology Хок Леов, “построение цифрового плейера аналогично разработке ПК, но с меньшим форм-фактором”.
Методы сжатия данных
На вопрос “Слышали ли вы когда-нибудь звуковую запись, формируемую методами сжатия цифровых данных?” большинство ответит “Нет”. Но это не так. Многие радиостанции давно используют средства сжатия данных для архивирования музыкальных записей или для внутристудийного обмена информацией. Методы сжатия данных находят применение и в звуковоспроизводящих системах современных кинотеатров. Что уж говорить об Интернете. Предвидя важность методов сжатия при передаче аудио- и видеоинформации, Международная организация по стандартизации (ISO) с целью разработки и стандартизации таких методов образовала Экспертную группу по движущемуся изображению (Moving Pictures Expert Group – MPEG). Самые известные разработки этой группы – стандарты MPEG-1 и MPEG-2, МР3 (уровень 3 MPEG-2).
Алгоритмы всех MPEG-форматов реализуются методами перцепционного кодирования3, основанными на особенностях восприятия звука человеком. Если шум квантования услышать нельзя, то можно не тратить лишние биты на то, чтобы избавиться от него. Шум квантования распределяется по частотным диапазонам так, чтобы он маскировался общим сигналом, т.е. не был слышен. Модель перцепционного кодирования определяет значение порога маскирования или значение допустимого шума для каждого разбиения кодера. Тем самым задается качество кодирования. Если помехи дискретизации ниже порога маскирования, качество звучания в МР3-формате сопоставимо с исходным.
В сравнении с другими методами сжатия МР3 обеспечивает наилучшее качество воспроизведения при заданной частоте дискретизации. Таким образом, МР3 – самый мощный формат MPEG-стандартов аудиокодирования. Во всех испытаниях МР3-алгоритм обеспечивал качество оригинального звука при сжатии данных 1:12 (частота дискретизации примерно 64 Кбит/с на аудиоканал). Если допускается работа в полосе около 10 кГц, можно получить приемлемое качество стереозвучания при коэффициенте сжатия 1:24.
Еще одно очевидное преимущество МР3 перед другими методами сжатия цифрового аудиосигнала – большая база доступных в Интернете аудиофайлов. Однако МР3 не единственный и не идеальный метод сжатия, пригодный для всех применений (см. табл.).
Наиболее популярные для портативных устройств алгоритмы сжатия
По-видимому, самую острую конкуренцию МР3 сегодня может составить стандарт ААС, известный как усовершенствованный метод кодирования MPEG-2. Этот алгоритм был разработан в начале 1997 года объединенными усилиями Института интегральных схем Фраунгофера и компаний AT&T, Sony и Dolby как эффективный метод кодирования для получения эффекта объемного звука, широко применяемого сегодня в кинематографии. ААС-алгоритм (с некоторыми модификациями) наряду с TwinVQ войдет в разрабатываемый сейчас стандарт MPEG-4 – “глобальный мультимедийный язык” будущего. В нем объединены достоинства стандартов фирмы Dolby, MPEG-2, и PAC фирмы AT&T. Его реализация требует меньшей частоты дискретизации, чем МР3, но быстродействие применяемого микропроцессора должно быть выше на 30–40%.
По своей базовой структуре ААС-алгоритм схож с МР3-форматом (рис.1). Но существует несколько отличий, о которых стоит упомянуть. Во-первых, если МР3-алгоритм реализуется с помощью многофазных фильтров и модифицированного дискретного косинусного преобразования (Modified Discrete Cosine Transform – MDCT), то метод ААС использует только преобразование MDCT. Во-вторых, ААС-формат предусматривает временное формирование шумового сигнала (Temporal Noise Shaping – TNS). Согласно этому методу временного/частотного кодирования, распределение квантованного шума во времени задается путем прогнозирования его распределения в частотном домене. Это позволяет значительно улучшить качество воспроизведения голосовых сигналов. В-третьих, ААС-алгоритм использует метод прогнозирования, часто встречающийся в системах кодирования речи. В-четвертых, точная регулировка разрешения квантования обеспечивает эффективное преобразование сигнала при заданной частоте дискретизации. И, наконец, используемый метод энтропийного кодирования позволяет минимизировать резервирование.
Оживленно обсуждается сегодня и предложенный фирмой Microsoft кодек WMA, поддерживаемый Windows-платформами и способный обрабатывать любой аудиоконтент – от речевого сигнала (в диапазоне 8 кГц) до стереомузыки (48 кГц). В сравнении с аналогичными файлами других форматов время загрузки и объем WMA-файлов в два раза меньше. Сравнение трех кодеков – WMA, RealAudio G2 и МР3 – независимой фирмой NSTL показало, что по качеству звука WMA-файлы превосходят музыкальные клипы, кодируемые G2-алгоритмом, и не уступают МР3-файлам, формируемым с вдвое большей частотой дискретизации. К тому же контент, создаваемый WMA-кодеком, может быть скомпонован программой Windows Media Packager, входящей в пакет Windows Media Rights Manager. Последний обеспечивает воспроизведение записи только после соответствующей оплаты. Пакетированные файлы не могут воспроизводиться без ключа декодирования, указанного в лицензии пользователя.
WMA – формат для электронной торговли музыкальными файлами и как таковой не пригоден для дальнейшего совершенствования качества воспроизведения. Так, этот алгоритм предусматривает применение широкого окна выборок с единым набором множителей, что затрудняет кодирование кратковременных звуков (например, удар музыкальных тарелок). И хотя Microsoft заявляет, что 64-Кбит WMA обеспечивает сопоставимое с 128-Кбит МР3 качество звучания, любители не всегда соглашаются с такой оценкой. Тем не менее Microsoft ввел этот кодек по умолчанию в инструмент Microsoft Media Tools 4.0, а также в комплект Software Development Kit.
В начале года Microsoft объявила о заключении соглашения с фирмой, специализирующейся в Интернет-звукозаписи, – Liquid Audio. По этому соглашению программные средства Liquid Audio будут поддерживать WMA-формат. У Liquid Audio обширная библиотека музыкальных файлов, содержащая 50 тыс. песен и 1 млн. клипов, записанных в собственном формате. Теперь компания переведет их в формат WMA. Как заявила компания Microsoft, “Microsoft как технологический лидер и Liquid Audio как ведущий дистрибьютор музыкальных записей объединяют свои усилия с тем, чтобы облегчить заказчикам участие в цифровой музыкальной революции”.
Таким образом, хотя сегодня МР3-формат, конечно, незаменим для портативных плейеров, его не столь уж безукоризненная репутация заставляет звукозаписывающие компании рассматривать другие стандарты онлайновой работы, предусматривающие защиту от незаконного использования имеющихся в сети музыкальных файлов. Однако по мнению фирмы e.Digital, какой-либо конкретной альтернативы МР3 у крупных звукозаписывающих фирм нет. Следовательно, интересны плейеры, способные работать как с МР3, так и с другими появившимися за последнее время алгоритмами. Правда, сегодня такой плейер нельзя считать привлекательным из-за высокой стоимости и плохого качества звучания, которое скорее можно сравнить с качеством ксерокопии с копии. Но все же считается, что чем больше форматов может поддержать плейер, – тем лучше, и многие фирмы работают над созданием “многостандартных” аудиоустройств. Потребителю все равно, в каком формате воспроизводится музыка. Для него важно не почувствовать переход с одного формата на другой. В последних моделях плейеров семейств Rio фирмы Diamond Multimedia и Lyra фирмы RCA/Thomson уже предусмотрена возможность поддержки нескольких форматов воспроизведения музыкальных файлов.
Какой стандарт победит? МР3 – первый успешный алгоритм, появившийся на рынке, и хотя в Интернете хранится свыше 80 тыс. музыкальных альбомов в этом формате, его будущее может оказаться не столь уж радужным. Индустрию звукозаписи, конечно, волнует влияние этого “свободного” стандарта на ее огромные доходы. И хотя руководство сайта MP3.com не согласно с решением окружного суда США, признавшего в апреле 2000 года нарушение авторских прав гигантов звукозаписи, оно намерено вести переговоры с этими гигантами и получить лицензии на использование принадлежащих им музыкальных произведений.
Элементная база
Основная цель разнообразных методов кодирования и декодирования при сжатии сигнала – добиться баланса между скоростью кодирования/декодирования и объемом и качеством сжатого аудиофайла. При оценке того или иного кодека необходимо принимать во внимание объем и стоимость требуемой для его реализации логики и памяти. Сегодня на рынке можно купить разнообразные оптимизированные для обработки аудиосигнала и перцепционного кодирования микросхемы – от специализированных декодеров до платформ персональных цифровых помощников. Разработчики могут реализовать алгоритм с помощью специализированной микросхемы (что обеспечивает достаточно высокое быстродействие при приемлемой потребляемой мощности и стоимости), программируемого логического устройства или процессора – как универсального, так и сигнального (для обеспечения гибкости и возможности корректировки кодека).
Сейчас на рынке популярны приборы семейства MAS35xx фирмы Micronas, выполненные на основе DSP. В этих микросхемах использованы три независимые шины – одна для выборки кода алгоритма и две для обработки данных. Объединение микросхемы семейства MAS35xx с микроконтроллером PIC16-C74B фирмы Microchip Technology обеспечивает выполнение плейером таких дополнительных функций, как управление каналом пользователя и передача кодированных данных декодеру, управление работой дисплея и другие служебные операции. При этом стоимость блока из двух микросхем равна примерно 6 долл., а число выводов такого блока меньше, чем у других устройств с теми же функциями.
Другой известный изготовитель микросхем для МР3-аудиоплейеров – фирма STMicroelectronics, поставляющая ИС серий STA013 и STA015 (последняя поддерживает адаптивную дифференциальную ИКМ –ADPCM). КМОП-микросхема МР3-декодера семейства STA015 (рис. 2) способна декодировать любой поток данных MP3-стандарта. Данные вводятся через последовательный входной интерфейс, декодируются и пересылаются ЦАП через выходной ИКМ-интерфейс, поддерживающий скорость передачи данных до 20 Мбит/с. С выхода декодера может сниматься стерео-, моно- или цифровой двухканальный выходной сигнал. Сигнал декодера может принимать любой из имеющихся на рынке ЦАП, для чего предусмотрена возможность репрограммирования выходного интерфейса.
Декодеры типа STA015(013) поставляются в корпусах типа SO28, типа STA015B(013В) – в плоских корпусах типа LFBGA 64, а STA015T(015Т) – в плоских корпусах типа TQFP44.
Фирма Samsung представлена на рынке микросхем для МР3-аудиоплейеров ИС типа CalmRISC, объединяющей в одном чипе DSP, микроконтроллер и флэш-память емкостью 128 Кбайт и потребляющей 76 мВт. Фирма SigmaTel планировала выпустить во втором квартале 2000 года программируемый кодек серии STMP-97xx на базе DSP с производительностью 35 MIPS. Цена прибора при закупке больших партий – 10 долларов.
Интерес к технологии аудиоинтернета проявляют и крупнейшие производители сигнальных процессоров. Так, фирма Texas Instruments предлагает DSP, способные поддерживать различные аудиостандарты, такие как ААС, WMA, Real Audio G2. В портативных аудиоустройствах разработчики фирмы рекомендуют применять DSP TMS320C5409, быстродействие которого равно 100 MIPS, а потребляемая мощность – 64 мВт. Цена процессора при закупке партии в 25 тыс. шт. – 10 долл. В системах, где требуется больший объем оперативной памяти, целесообразно использовать процессор TMS320C5410.
В начале года Texas Instruments заключила соглашение с Фраунхоферским институтом интегральных схем, предусматривающее совместную разработку первых кодеров для портативных аудиоплейеров, работающих в двух форматах – МР3 и ААС. Объединив сигнальные процессоры фирмы Texas Instruments с кодирующим программным продуктом института Фраунхофера, можно без ПК переписывать музыкальные файлы не только с сайтов Интернета, но и с компакт-дисков. Программы кодирования оптимизированы для работы с DSP TMSC20С5000, допускающим реализацию программ, рассчитанных на аудиоформаты, совместимые с требованиями SDMI. В 2000 году должны быть выпущены 19 портативных аудиоплейеров нового поколения, сконструированных на базе DSP фирмы Texas Instruments.
Motorola считает для МР3-плейеров самым перспективным процессор DSP-56362, модификации которого также поддерживают стандарты Dolby Digital или MPEG, автоматически выбирая нужный формат. 100-МГц DSP-56362 продается по цене 14,85 долл. при закупке партии в 10 тыс. шт. Analog Devices предлагает для аудиоплейеров устройство ADSST-Melody-5000, в которое входит процессор ADSP-2185M, а также программные средства поддержки МР3-алгоритма.
Агрессивную политику на рынке портативных аудиоплейеров проводит фирма Cirrus Logic, чипсеты семейства Maverick которой уже сегодня поддерживают стандарты МР3 и WMA, а в будущем, возможно, смогут обеспечить и работу в стандарте ААС. Микросхема ЕР7209 семейства – сверхмаломощный аудиодекодер, реализующий MPEG 1, 2 и МР3-алгоритмы и выполненный на базе RISC-процессора ARM720T. В схему ЕР7209 входят 32-разрядный датчик истинного времени (RTC) и компаратор, а также такие периферийные устройства, как контроллер ЖКИ, интерфейсы ЦАП и флэш-памяти (рис.3). Программа хранится во внешней памяти. Для поддержки МР3- и WMA-стандартов требуется всего около 40% вычислительной мощности микросхемы, что и позволяет реализовать дополнительные функции. Поэтому по функциональным возможностям ЕР7209 можно отнести к декодерам следующего поколения.
Потребляемая мощность ЕР7209 – 87 мВт при частоте дискретизации 128 Кбит/с и 50 мВт при 64 Кбит/с. В ненагруженном режиме потребляемая мощность не превышает 1 мВт. Поставляется микросхема в пластмассовом 208-выводном плоском корпусе LQFP и 256-выводном BGA-корпусе. Цена – 11,95 долл. в партии 100 тыс. шт. В семейство Maverick входят также декодер ЕР7211 с встроенным контроллером ДОЗУ, но без аудиоинтерфейсов, и ЕР7212 с интерфейсами и контроллером.
Замена DSP в декодерах RISC-процессором ARM720T позволила перейти к более сложным системам, работающим с более сложной ОС, и тем самым увеличить гибкость устройства. Фирма Cirrus Logic вынашивает планы по реализации аудиоустройства, встраиваемого в персональные цифровые помощники.
В связи с решением фирмы Cirrus Logic использовать RISC-процессоры возникает вопрос, на базе какого процессора целесообразно выполнять кодер, RISC или DSP? По мнению ряда специалистов, RISC-процессоры в сравнении с DSP менее пригодны для обработки потока данных, они “съедают” всю производительность устройства и набор реализуемых ими дополнительных функций меньше. К тому же хорошо известно, что в аудиоустройствах на базе RISC-процессоров функции сопряжения и управления сложнее и требуют большего объема памяти, чем в схемах на DSP.
Обычно для обработки сигнала в МР3-формате требуется быстродействие 20–25 MIPS, что оставляет универсальным DSP еще достаточно возможностей для выполнения других алгоритмов и функций, предусматриваемых в современных аудиосистемах. Так, DSP56362 фирмы Motorola может выполнять еще до 25 процедур постобработки, в том числе операции регулировки нижних частот, задержки и громкости, устранения дрожания звука, создания объемного звука, корректировки его, автоматического включения и установления длительности воспроизведения. Сложность постобработки зависит от типа плейера: в устройствах младших моделей может быть предусмотрена лишь компенсация низкого качества наушников, не способных воспроизводить низкие частоты, с помощью разнообразных алгоритмов воспроизведения гармоник на отсутствующих частотах. В стереоплейерах или телевизионных приставках типа set-top возможно создание эффекта объемного звука или компенсация акустических характеристик помещения. Могут выполняться и такие функции, как исправление ошибок в файлах, переписанных с поврежденных компакт- или мини-дисков. Устройства, предлагаемые Texas Instruments и ее партнерами, способны поддерживать свойства, присущие домашним аудиосистемам, в том числе пятидиапазонный графический эквалайзер, быструю перемотку, высококачественное стереовоспроизведение и т.п.
Избыточное быстродействие позволяет плейерам помимо воспроизведения музыкальных файлов выполнять и функции записи/воспроизведения голосовых сообщений. Тем самым расширяется область их применения, например они могут оказаться полезными при изучении иностранного языка. Фирмы Samsung и Ericsson уже сообщили о создании сотовых телефонов, в батарейном блоке которых размещены МР3-декодер и разъем для подключения наушников, что позволит использовать эти трубки для воспроизведения МР3-музыкальных файлов.
Вы выбираете плейер, исходя из его свойств: типа накопителя, средства подключения к сети, пользовательского интерфейса. Если в МР3-плейерах не предусмотрен интерфейс флэш-памяти, необходим вспомогательный микроконтроллер. К счастью, как правило, поставщики ИС или флэш-памяти могут предложить средства поддержки разнообразных интерфейсов флэш-памяти различными микроконтроллерами. Если в плейере предусмотрена возможность перепрограммирования, флэш-память способна хранить код микропрограммы (за счет незначительного сокращения длительности воспроизведения). Появляется перспектива создания автономной цифровой стереоаудиосистемы. Эти аудиосистемы можно подключать к музыкальным шлюзам, контролирующим не только загрузку музыкальных файлов в плейер, но и поступление платы за доступ к этим файлам.
Рынок аудиоустройств для портативных плейеров пока только развивается. По мере его расширения будет возрастать и сложность предлагаемых чипов. Возможно появление чипа портативного аудиоустройства, выполненного подобно ПК на базе высокопроизводительного процессора с программной поддержкой МР3-алгоритма. Так, софтовая компания Micoware перенесла МР3-алгоритм на платформу операционной системы OS-9 и разрабатывает средства поддержки МР3-стандарта на языке Java. Объем памяти, необходимой для OS-9, а также для поддержки МР3-формата и передачи данных из сети, – 512 Кбайт. Гибкий интерфейс на Java позволит воспроизводить одновременно с музыкальными файлами и видеоизображение. Правда, может возникнуть вопрос: зачем применять ОС, требующую дополнительную память и высокопроизводительный процессор, потребляющий большую мощность? Но это позволит реализовать все устройство на одном чипе и, тем самым, упростить систему, облегчить ее обновление, сделать ее более гибкой, а также сократить период “разработка-выпуск на рынок”. Такие устройства скорее всего найдут применение в плейерах или домашних аудиосистемах старших моделей.
Что ждать от МР3-плейеров следующих поколений? Они смогут выполнять все больше функций, даже таких, требующие высокой производительности, как кодирование. В конце концов, пользователь перережет шнур ПК и непосредственно присоединится к “живым” источникам. Если в первых плейерах не было дисплея, устройства следующего поколения смогут, по крайней мере, воспроизводить список записанных файлов с указанием текущего исполнителя и произведения или поддерживать графический режим работы для отображения спектра сигнала. Изменяя интерфейс, можно варьировать тип плейера и его назначение.
Но совершенно ясно, что МР3 – не единственный формат, который будут поддерживать плейеры. Интерес к плейерам с ограниченными возможностями, работающими только в МР3-формате, быстро угаснет. Сегодня на рынке аудиоинтернета происходят как революционные, так и эволюционные процессы. Темпы совершенствования цифровых аудиоплейеров растут, и чтобы не промахнуться в этой игре, нельзя расслабляться. Делайте Ваши ставки, господа!
EDN, 2000, Feb.2
www.iis.fhg.de/amm/techinf/layer3/index.html
www.iis.fhg.de/amm/techinf/aac/index.html
Electronic News, 2000, March 7
www.msdn.microsoft.com/workshop/imedia/windowsmedia/Tools/MSAudio.asp