uzluga.ru
добавить свой файл
УДК 37.01:007

А. Ю. ГРУША1

(Санкт-Петербургский Государственный Университет, г. Санкт-Петербург)

УЧЕБНЫЙ СТЕНД ДЛЯ ОБРАБОТКИ ЗВУКА

Представляется учебный стенд для лабораторных занятий студентов по задачам идентификации и распознавания сигналов. Рассматриваются примеры постановок задач и методы их решения.

Введение

В современных образовательных программах для студентов прикладной математики очень мало внимания уделяется практическому аспекту тех теорий, которые им преподаются. Обычно, даже в рамках лабораторных занятий, ограничиваются лишь математическими или компьютерными моделями, которые не отражают всей сложности реальных объектов исследования. Обработка звуковых сигналов и человеческой речи – одно из немногих направлений, в которых возможно провести полномасштабное исследование и поставить полноценный эксперимент, привлекая относительно небольшое количество ресурсов. В предлагаемом докладе мы описываем устройство простейшего стенда для лабораторных работ и приводим ряд задач, которые могут быть выполнены с его помощью. Задачи рассчитаны на студентов 4-5 курсов специальности «Прикладная математика и информатика».

Описание стенда

Установка, изготовленная для решения задач, представляет собой тетраэдр, в вершинах которого установлены микрофоны. Три из которых лежат в горизонтальной плоскости, а четвертый находится сверху. Рядом с верхним микрофоном установлена веб-камера. От микрофонов сигнал поступает в усилитель, который связан с интерфейсом звукового устройства, которое через USB-порт соединяется с портативным компьютером, и обеспечивает одновременную запись со всех четырех устройств.

Для аналитического описания сигналов микрофонов определим систему координат, связанную с установкой. Начало координат определяется как проекция верхнего микрофона на горизонтальную плоскость, содержащую остальные три микрофона. Ось OZ содержит верхний микрофон и направлена из начала координат к микрофону. Ось OY содержит фронтальный микрофон и направлена к нему. Ось OX содержит оставшиеся два микрофона и составляет правую тройку векторов с осями OY и OZ.



Рис. . Экспериментальный стенд и связанная с ним система координат

Модель речевого сигнала

Голосовой сигнал или монофонический музыкальный сигнал можно описать как сумму гармоник кратной частоты с медленно меняющейся частотой основного тона:

(1)

где vt - погрешность модели с учетом шумов измерения, F – частота основного тона, Fs – частота дискретизации (обе частоты берутся в Гц), Ak и φk – амплитуды и фазы гармоник соответственно. Считается, что параметры гармоник меняются медленно, поэтому на небольших участках могут быть оценены константами.



Рис. . Пример спектра голосового сигнала

На таких участках преобразование Фурье от сигнала s состоит из равноотстоящих пиков соответствующих частотам, кратным частоте основного тона kF. Так как пики отстоят друг от друга, возможно извлечь каждую из гармоник сигнала и определить неизвестные параметры модели. Такая полигармоническая модель сигнала позволяет поставить и решить ряд задач по идентификации.

Образовательные цели

У студентов не возникнет затруднения в проведении эксперимента с обычной речью, синтезированным шумом или музыкальным сигналом, воспроизведенным с помощью динамика компьютера. Каждый эксперимент может быть полностью спланирован и проведен в лабораторных условиях. Предположительный круг задач охватывает следующие:

  • Предварительный анализ данных и обнаружение погрешностей;

  • Оценка параметров модели;

  • Оценка передаточной функции линейной модели;

  • Эхо компенсация;

  • Оценка параметров нелинейной модели;

  • Определение пути распространения звукового сигнала в пространстве;

  • Разделение голосов;

  • Смежные задачи.

Примеры задач

Каждый эксперимент планируется непосредственно студентом. Анализируемый сигнал записывается в файл или синтезируется, если необходимо. Динамик, или другой источник звука фиксируется в пространстве. Исследуемые данные предварительно исследуются на наличие перегрузок и других дефектов, которые могут возникнуть при записи.

  1. Оценки параметров модели.

Приведенная выше гармоническая модель содержит следующие параметры: частота основного тона (F), набор амплитуд (Ak) и фаз (φk). Для каждой отдельной гармоники определяется комплексная амплитуда:

. (2)

Идентификация комплексных амплитуд (λk) и частоты основного тона (F) производится с помощью техники «колокольчиков». Колокольчик определяется как преобразование Фурье от синусоиды с нулевой фазой в центре интервала. Задача идентификации сводится к методу наименьших квадратов относительно набора λk и минимизации по одной переменной (F) градиентным методом [1].

  1. Оценка параметров акустического канала.

Исходный сигнал и сигнал записанный микрофоном полагаются известными. Требуется оценить импульсную характеристику системы. Под системой подразумеваются все преобразования, которые претерпевает сигнал, проходя через динамик, распространяясь по комнате и попадая в микрофон. Наилучшие оценки получаются если в качестве сигнала использовать сигнал близкий к белому шуму. Такой сигнал легко создать с помощью генератора случайных чисел.



Рис. . Пример импульсной характеристики акустического канала

Метод оценивания основан на алгоритме Шура супербыстрого решения Теплицевых систем, чья размерность равна длине оцениваемой последовательности.

Оценка импульсной характеристики не убывает к нулю т.к. окрашена шумами. Одной из задач может быть оценка погрешности импульсной характеристики с учетом оценок дисперсии шума. Решение основано на свойствах решения уравнения Юла-Уокера.

  1. Оценка передаточной функции

Передаточная функция акустического канала является преобразованием Фурье от импульсной характеристики. В данном случае существенной является длина рассматриваемой импульсной характеристики, поскольку она напрямую связана с объемом шумов, искажающих оценки.



Рис. . Оценка передаточной функции

Передаточная функция может иметь нерегулярную структуру сама по себе. Это зависит от акустических свойств помещения, в котором проводился эксперимент. Задача так же ставит цель научиться отличать шумы измерения от собственных свойств передаточной функции.

  1. Компенсация акустического эха

Реверберация в помещении порождает длинный эхо-сигнал. Компенсация акустического эха является очень сложной задачей, так как сильно зависит от качества оборудования (динамиков и микрофонов).



Рис. . Разница сигналов записанных в помещении с высоким уровнем реверберации. Microphone1 - близкий микрофон; Microphone2 - удаленный микрофон

Построение оценок передаточной функции достаточной точности позволяет удалить из записи неприятные эффекты, создаваемые длинным эхо-сигналом [2].

  1. Оценка пространственного положения источника звука

Рассмотрим сигнал, получаемый одновременно с помощью четырех микрофонов. Для каждой пары микрофонов можно рассчитать разность фаз полученного сигнала. Разность расстояний от источника до каждого из микрофонов из пары можно определить как:

(3)

где частота гармоники fk считается фиксированной, φi и φj – фазы i-того и j-того микрофона, l – длина волны на данной частоте fk.

Легко увидеть, что, если рассматривается хотя бы одна гармоника, для оценки положения в трехмерном пространстве требуется не менее четырех микрофонов: после вычисления разности расстояний количество измерений уменьшается до трех. Разности расстояний вычисляются с точностью до полного периода рассматриваемой волны.

Разность расстояний до микрофонов задает геометрическое место точек, которому принадлежит источник звука. Этим геометрическим местом точек является двуполостный гиперболоид вращения с фокусами, совпадающими с координатами микрофонов и вещественной полуосью, равной величине Δi,j вычисленной ранее.



Рис. . Пересечение трех гиперболоидов - оценка пространственного положения источника звукового сигнала

Построив гиперболоиды для каждой из пар микрофонов можно найти их пересечение, что и дает оценку положения источника звука. Задача определения положения имеет геометрические и статистические основания, вспомнить которые будет так же полезно для студентов.

  1. Разделение голосов

Рассмотрим многоголосую запись, которая содержит наборы гармоник, принадлежащие разным голосам, которые нужно оценить отдельно. Основная идея решения состоит в разделении гармоник в спектре сигнала. Но в многоголосом сигнале гармоники от различных голосов могут интерферировать, если их частоты близки между собой. Это препятствует выделению чистой гармоники и вносит существенные помехи в механизм оценивания гармоник.

Решение задачи по разделению голосов основывается на рекурсивном алгоритме последовательного выделения голосов. Сначала определяется один голос (как правило, самый громкий) в смеси. Его параметры грубо оцениваются по исходной голосовой смеси. Затем оценки этого сигнала вычитаются из смеси. Если после вычитания сигнал содержит только шумовую составляющую, алгоритм останавливается. Если же сигнал после вычитания сохраняет гармоническую структуру, то в ней можно выделить еще один голос и оценить его параметры, чтобы вычесть из смеси.

Этот алгоритм повторяется несколько раз для найденных голосов, пока оценки их параметров не станут устойчивыми. Голос, найденный и оцененный первым, как правило, удается оценить с большей точностью, так как он «захватывает» больше общих с другими голосами гармоник.

Техника разделения голосов может быть полезной в более глобальных задачах:

  1. Повышение точности оценок фаз гармоник для определения расстояния;

  2. Выделение и подавление голосов, которые не принадлежат интересующему источнику звука.

Заключение

Мы описали экспериментальный стенд для лабораторных занятий и ряд задач, которые могут быть поставлены и решены с его помощью. Все предложенные эксперименты студенты могут легко провести самостоятельно. Теоретическая база необходимая для решения предложенных задач содержит методы теории устойчивости, теории идентификации, полигармонического анализа и многих разделов распознавания и обработки речевых сигналов.

ЛИТЕРАТУРА

  1. Daniel W. Griffin, Jae S. Lim. Multiband Excitation Vocoder. – IEEE Transactions On Acoustic, Speech and Signal Processing, v. 36, no. 8, August, pp 1223-1235. 1998.

  2. A. E. Barabanov, K. M. Putyakov, S. I. Salischev, V. I. Sitnikov. Echo compensation by equalizer with precise spectrum estimation. – The 21st AES International conference “Architectural acoustics and sound reinforcement”, St. Petersburg, June 1-3, 2002, pp. 357-362.

Текст доклада согласован с научным руководителем.

Научный руководитель: д. ф.-м. н., профессор Барабанов Андрей Евгеньевич, Санкт-Петербургский Государственный Университет



1Научный руководитель: д. ф.-м. н., профессор Барабанов Андрей Евгеньевич