Статьи

Deep Stereo - новый способ слушать музыку



DEEP STEREO
Новый способ слушать музыку

От редакции: В прошлом номере «А3» мы упоминали о дебютной демонстрации технологии Deep Stereo, состоявшейся (применительно к автомобильной системе) на выставке в Римини. И обещали рассказать о новой технологии подробнее, когда будет такая возможность. Возможность появилась: Deep Stereo — технология синтеза трёхканальной записи из двухканальной, была представлена сообществу специализированной прессы на состоявшейся в середине мая 8-й пресс-конвенции EISA в Брюсселе. Всё нижеизложенное — текст официальной публикации, подготовленной специалистами издательского дома Technipress для этого случая. Без каких-либо изменений или сокращений.
Уже более сорока лет мы слушаем музыку одинаково: в форме стереофонии, если не считать немногочисленных, хотя и заметных, попыток выйти за пределы этого формата. Первая из таких попыток относится к 70-м годам и носит название «квадрофония», век которой оказался недолог: несмотря на то, что рынок был готов к новинке, она исчезла из поля зрения очень быстро: технология была несовершенной, оборудование — дорогим и ненадёжным, даже те немногие записи, что выпущены в квадро, были отнюдь не дёшевы. Вторая попытка продолжается, она предлагает слушать музыку через громкоговорители, расположенные более или менее по кругу со слушателем в центре, у этой технологии нет собственного имени, её обычно называют «многоканальным звуком». Несмотря на огромный потенциал, интерес к многоканальным музыкальным системам идёт на убыль, им не удалось завоевать сердца аудиофилов, главным образом из-за плохого маркетинга и неубедительных демонстраций. То, что мы сейчас представляем под именем Deep Stereo — не очередной формат многоканальной записи, это попытка вывести традиционное стерео на качественно новый этап развития путём устранения главного недостатка, присущего этому способу звуковоспроизведения, известному как «межслуховые погрешности»*, не меняя при этом исходного стереосигнала. Поскольку новая технология работает с обычным форматом стерео, её можно использовать с любыми существующими стереозаписями.

Deep Stereo: что это и зачем это

Если коротко, то, что мы назвали Deep Stereo, состоит из четырёх основных этапов:

1. Извлечение с помощью разработанного нами нового алгоритма и реализующей его компьютерной программы общей для двух каналов монофонической составляющей из исходной стереозаписи.

2. Вычитание этой составляющей из исходного правого и левого каналов так, что там останутся только «боковые» составляющие исходной фонограммы. При этом, если выполнить обратную операцию, то есть суммировать центральную составляющую с «боковыми», исходная стереозапись будет восстановлена в абсолютно неизменном виде.

3. Запись получившейся трёхканальной фонограммы на подходящем для этого носителе (DVD-Audio или DTS CD/DVD).

4. Воспроизведение фонограммы на системе с тремя каналами и тремя громкоговорителями, при этом центральный должен быть расположен между традиционными левым и правым.

Этот алгоритм делает возможным трёхканальное воспроизведение обычных стереозаписей, устраняя (или радикально уменьшая) негативный эффект межслуховой погрешности, являющийся врождённым дефектом традиционного двухканального стерео, равно как и делая ненужным использование временной коррекции в тех случаях (как, например, в автомобиле), когда слушатель не может находиться на равном расстоянии от правого и левого громкоговорителей, создаваемая при этом звуковая сцена будет стабильной, однородной и симметричной для обоих пассажиров.

Межслуховые погрешности

Межслуховые погрешности — искажения слухового восприятия, возникающие, когда звук, в оригинале издаваемый одним точечным источником, воспроизводится двумя или более громкоговорителями. В оригинале такой звук достигнет наших ушей по двум траекториям, в то время как при традиционном стереовоспроизведении таких траекторий станет четыре (рис. 2), что изменит восприятие звукового образа. Нечто похожее относится и к случаю первых отражений от стен помещения.

Что изменится при переходе от стерео к Deep Stereo?

1. Когда стереосигнал воспроизводится как боковые составляющие и исходящая точно из центра монофоническая компонента, межслуховые погрешности полностью устраняются; восстанавливаются пропорции кажущихся источников звука, инструменты и голоса, записанные монофонически, локализуются и фокусируются намного более точно.

2. Если кажущийся источник звука в исходном стереосигнале занимает промежуточное положение (рис. 4), то есть присутствует в обоих каналах, но с разным уровнем, результатом будет существенное уменьшение эффекта межслуховой погрешности, поскольку вдвое уменьшится угол, под которым слушателя достигают нежелательные компоненты сигнала. Локализация и фокусировка также заметно улучшатся.

3. В первом случае (рис. 5) первые отражения от боковых стен будут такими же, как если бы перед слушателем находился реальный источник звука, в то время как в случае двухканальной системы они совершенно не такие, какими были бы при реальном точечном источнике ни по времени, ни по направлению. В случае КИЗ, занимающего промежуточное положение, указанный эффект будет устранён частично.

Бас и тональный баланс

Извлечение центральной составляющей и последующее воспроизведение трёхканальной фонограммы может вызвать проблемы с тональным и динамическим балансом, если их не принять во внимание. Понять происхождение этих потенциальных проблем в типичном помещении для прослушивания нетрудно:

1. Низкие частоты, не несущие информации о направлении на источник звука, часто уже в исходной стереопрограмме записываются монофонически, таким образом, снижается нагрузка на низкочастотные громкоговорители: мощная органная нота будет воспроизводиться одновременно двумя громкоговорителями практически синфазно (длина волны уже на частоте 100 Гц — это 3,4 м), звуковое давление будет складываться, и каждый из НЧ-динамиков должен будет создавать звуковое давление на 6 дБ ниже, чем при воспроизведении одним каналом, с соответствующим уменьшением амплитуды колебаний диффузора, искажений и рассеиваемой мощности. Когда бас записан чисто монофонически, динамический диапазон возрастает на 6 дБ, а искажения заметно снижаются.

2. Традиционное стерео требует двух громкоговорителей, при этом расстояния между громкоговорителями, а также между ними и стенами оказываются небольшими. Это приводит к росту звукового давления на низких частотах и подчёркиванию басов.

3. Когда два громкоговорителя одновременно воспроизводят широкополосный сигнал, тональный баланс (и фактическая АЧХ) исходной записи будут меняться. Басы станут суммироваться с ростом уровня до +6 дБ, а на более высоких частотах начнут сказываться фазовые различия в сигналах, излучаемых громкоговорителями. Если сигналы приходят в фазе, их амплитуды будут складываться, если в противофазе — сигналы будут взаимно уничтожаться. Если разность фаз равномерно распределена между этими крайними значениями (средняя разность фаз 90 градусов), мы можем ожидать, что звуковое давление на верхних частотах будет на 3 дБ больше, чем при одном громкоговорителе.

Итог: широкополосный моносигнал при воспроизведении типичной стереосистемой в типичном помещении будет тонально разбалансирован: басовые компоненты станут усилены больше, чем верхние частоты. Если мы проведём «полное» извлечение центральной составляющей из стереозаписи, все басы окажутся в центральном канале. При этом произойдёт следующее:

1. Басовая секция центрального канала будет работать с мощностью, в четыре раза превышающей ту, что нужна была бы при стереовоспроизведении, при этом ход диффузора и искажения возрастут. Поскольку моносоставляющая в любой стереозаписи несёт наибольшую энергию, центральный громкоговоритель (и его канал усиления) будет работать намного напряжённее, чем боковые.

2. Меньшая акустическая нагрузка на низких частотах приведёт к дальнейшему падению эффективности излучения, типично — на 1 — 2 дБ.

3. Центральное расположение третьего громкоговорителя может вызвать резонансные моды в помещении, отличающиеся от создаваемых боковыми громкоговорителями. Есть лишь одно разумное решение этой проблемы: оставить басовые частоты в исходных стереоканалах, отфильтровав их из центрального на этапе его извлечения из двухканальной стереофонограммы. Разработанная нами программа позволяет выбрать частоту среза (от нуля до 216 Гц) и наклон характеристики (от 6 до 30 дБ, Баттерворт), не внося фазовых искажений, которые неизбежно возникли бы при аналоговой фильтрации.

Таким образом, чтобы получить максимальный эффект от Deep Stereo, необходимо отфильтровать НЧ-составляющие из центрального канала и увеличить уровень сигнала в нём на 2 — 4 дБ по отношению к боковым.

Есть, однако, ещё одна важная особенность Deep Stereo: тональный баланс звукового материала, подвергшегося обработке, не может оставаться абсолютно таким же, как у исходной стереозаписи (которая, в свою очередь, отличается по тональному балансу от исходного материала), пусть даже отклонения редко будут превышать 1 дБ. Ответственность за это всё же следует возлагать на несовершенство традиционного стерео, а не на новую технологию. Необходимость ограничить снизу полосу частот центрального канала оказывается очень кстати в автомобильных системах, где всегда непросто расположить широкополосный громкоговоритель в центре салона.

Deep Stereo и техника записи

Для корректной работы Deep Stereo необходимо найти моносоставляющую записи, которая впоследствии будет извлечена. Алгоритм, реализующий этот процесс, составлен так, чтобы по возможности учесть все факторы. В процессе извлечения могут возникнуть два крайних случая:

1. Исходный сигнал монофонический или по большей части монофонический. В этом случае основная часть сигнала окажется в центральном канале, за исключением НЧ-составляющих, если при обработке будет принято решение оставить низкие частоты в боковых каналах.

2. Исходный сигнал состоит из совершенно независимых по содержанию стереоканалов. В этом случае в центральном канале не окажется ничего.

На основе собственного опыта мы обнаружили, что на реально существующих записях эффект от Deep Stereo варьируется от «очень интересно» до «бесподобно» для джаза, камерной музыки и большинства современной музыки студийной записи и от «не очень интересно» до «бесподобно» на оркестровых произведениях. Всё зависит от природы исходной записи. В студийной фонограмме или во внестудийной, но в которой инструменты записываются через индивидуальные микрофоны, звуковой образ фактически формируется на этапе сведения. Даже если в записи содержатся отзвуки помещения (которые, как правило, не монофонические), основные компоненты фонограммы сохраняют временную и спектральную корреляцию, позволяющую Deep Stereo найти и извлечь их.
С классической музыкой ситуация совсем иная. Даже в простых случаях (камерные трио, квартет или квинтет), где для записи отдельных инструментов используются индивидуальные микрофоны, дополнительный стереомикрофон записывает звуковое окружение, но захватывает и часть звуков инструментов, приходящих в различные моменты, в зависимости от расположения источников при записи. С большими оркестрами всё ещё сложнее, они записываются в самой разной технике. В таких неблагоприятных условиях Deep Stereo улучшает звучание не так сильно, как в описанных ранее: звуковой образ стабилизируется, отчасти улучшается фокусировка, но эффект не очень силён. Когда же в центре сцены находится вокалист или солирующий инструмент, Deep Stereo вновь показывает все свои достоинства, благодаря которым вокал или лидирующий инструмент буквально материализуются в центре воображаемой сцены.

Evocator

Программа, названная нами Evocator, не требует установки: её функции строго определены, и мы решили избежать ненужного взаимодействия её с операционной системой. Необходимо лишь скопировать все файлы в одну папку и создать значок на рабочем столе. Можно даже запускать несколько копий программы одновременно, надо лишь иметь в виду: даже мощный PC едва ли сможет превысить при обработке скорость, соответствующую реальному времени, поэтому едва ли имеет смысл запускать в обработку многочасовые коллекции, если только вы не хотите, чтобы компьютер трудился над этой задачей сутками напролёт, тем более что программа занимает большую часть ресурсов процессора, параллельно с работой «Эвокатора» не удастся решать другие серьёзные задачи. Стоимость Evocator 1.0 — 39 евро.

Работа с программой

В окне Input (оранжевый фон) находятся три кнопки. Две верхние позволяют выбрать формат исходной записи: классический майкрософтовский .WAV или беззаголовочный .RAW со стандартным совходящим порядком битов. Нижняя кнопка открывает новое окно для выбора файлов. В существующей версии Evocator способен обрабатывать только 16-битные файлы, но мы сейчас работаем над возможностью применения программы к файлам с более высоким разрешением (и на входе, и на выходе), пусть даже эта опция найдёт лишь ограниченное применение. С DVD-Audio можно обрабатывать только 16-битные файлы, и даже когда мы можем извлечь файлы с более высоким разрешением, придётся ограничиться стереофонограммами, что для DVD-Audio скорее исключение, чем правило.
Когда файлы открыты, Evocator автоматически создаёт путь и имена для выходных файлов. Выходные файлы записываются в той же папке, где находился исходный, а к имени добавляются индексы L, К и С для каждой из трёх одноканальных записей или же LR, если по выбору пользователя боковые каналы записываются в общий файл как двухканальная фонограмма. Последняя опция полезна для тех, кто будет записывать Deep Stereo на DVD-Audio с помощью программы Wavelab, требующей единого файла для стереоканалов, для другой программы, Minnetonka, напротив, нужны отдельные «поканальные» файлы.
В окне «Параметры извлечения» задаются возможные опции. Все они построены по «неразрушающему» принципу: при обратном смещении каналов в двухканальную запись исходная фонограмма восстанавливается без изменений при любом сочетании параметров. Извлечение центральной составляющей — процесс эвристический, в поиске наилучшего результата надо попробовать различные сочетания параметров.

* В оригинале использован английский термин «interaural diaphony». В отечественной литературе этот эффект называют кто «межушным», кто «межслуховым», большинство предпочитает застенчивое «так называемая interaural»... и так далее. Считаем, что выбранный нами русский эквивалент не хуже первых двух и уж точно лучше третьего.

 

Рис. 1. При прослушивании вне центра акустической системы, вдали от наилучшей для прослушивания точки, как это всегда происходит в автомобиле, и вводя временную задержку в тракт ближнего громкоговорителя, моносоставляющую записи (с амплитудой, равной в обоих каналах) можно виртуально поместить в центре звуковой сцены. При прослушивании из идеального положения внесение небольшой временной коррекции (от долей миллисекунды до единиц миллисекунд) изменит кажущееся направление на источник звука, но иным, гомогенным образом.

 

Рис. 2. В типичной стереосистеме, когда один и тот же звук излучается обоими громкоговорителями, кажущимся источником звука для слушателя, равноудалённого от громкоговорителей, будет точка между ними. Ситуация отличается от той, которая имеет место в реальности (фиолетовые линии), потому что спустя доли миллисекунды после основного звука (красные линии) ушей достигнут звуки нежелательные (зелёные линии), это и есть источник межслуховой погрешности. Направление, с которого приходит основной звук, также отличается от существующего в реальности, а это приводит к различной частотной фильтрации при огибании головы и ушных раковин.

Рис. 3. Прослушивание Deep Stereo: если в программе присутствует центральная моносоставляющая и две боковые составляющие (показанные разными цветами), межслуховые погрешности полностью устраняются и кажущиеся размеры центрального источника звука возвращают себе истинные пропорции. Звуковая сцена становится стабильной, а прослушивание делается возможным при расположении слушателя, далёком от идеального.

Рис. 4. Наихудший случай для Deep Stereo — это когда одна и та же звуковая компонента присутствует в обоих каналах. Но в одном из них амплитуда ровно вдвое больше, чем в другом. В этом случае после извлечения моносоставляющей эта компонента будет присутствовать в центральном и одном из боковых каналов с одинаковым уровнем, чем создаются условия для межслуховых погрешностей. Однако углы прихода нежелательных звуков будут вдвое меньше, чем в случае стереосистемы, и погрешности, как следствие, выражены слабее.

Рис. 5. В Deep Stereo первые отражения звука центрального канала приходят к слушателю так же, как в случае реального источника.

Рис. 6. В традиционном стерео первые отражения приходят не в те моменты и не с тех направлений, с каких они пришли бы в реальности.

Некогда фирма Everest сделала запись балетной сюиты «Гаянэ» небезызвестного композитора Хачатуряна в виде трёхканальной фонограммы на 35-миллиметровой магнитной ленте. При первом издании (на виниле) три канала были, естественно, сведены в два. Студия Classic Recodrs разыскала исходный мастер и для познавательных целей выпустила на DVD это же произведение в двух вариантах: двухканальном, как было на виниле, и исходном трёхканальном, как на мастер-ленте. Для оценки эффективности своей технологии Монтануччи взял двухканальную запись с этого диска, переформатировал в Deep Stereo и сравнил с трёхканальным оригиналом, констатировав, что результат оказался очень близок к оригиналу, в том числе и в смысле колоссального преимущества перед двухканальным сведением.

Дома, как всегда, всё просто: акустическая система для Deep Stereo состоит из трёх идентичных громкоговорителей.

Самая первая мобильная установка Deep Stereo. Точность фокусировки хорошо иллюстрирует палец разработчика.

Этапы строительства одной из опытных аудиосистем для тестирования и доводки Deep Stereo. В машине требование идентичности распространяется только на СЧ и ВЧ-звено.

Многие автомобильные мультимедийные системы уже, по существу, готовы к трёхканальному режиму, хоть и строились под многоканальный звук.

Диалоговое окно программы Evolator1.0. Любителям экспериметов сообщаем: демо-версию программы, с пониженной скоростью обработки и частично заглушенными опциями, можно скачать в сайта «АЗ», прямо с заглавной страницы, чтобы не искать.

Фабрицио Монтануччи

Автор метода, алгоритма и программы, реализующих технологию Deep Stereo, родился в Риме в 1959 году. Член AES (Общества Инженеров-акустиков) с 1988 года, Ф. Монтануччи с 1978 года сотрудничает с несколькими итальянскими аудиожурналами. В 1987-м он впервые создал программу-аудиоанализатор для микрокомпьютера, названную Fourier 64, предложенную читателям журнала «Suono Stereo Hi-Fi».
Сегодня Ф. Монтануччи — технический директор издательства Technipress, выпускающего журналы «AudioReview», «Digital Video HT» и «ACS Audio Car Stereo». Ф. Монтануччи — автор нескольких новых методов аудиоизмерений, новейший из которых получил название TND (Total Noise Distrotion).

Статья взята из журнала "Автозвук".

<<< назад

Акции

Дарим деньги!

Дарим деньги!


Новогодние акции: Первый за деньги, а второй в подарок! Забудь про CD-диски! Зачем нужны зеркала, когда дарят камеру?!

Новогодние акции: Первый за деньги, а второй в подарок! Забудь про CD-диски! Зачем нужны зеркала, когда дарят камеру?!


Специальные
предложения