banner
Центр новостей
Грамотно и компетентно владеют своим опытом.

Масштабирование звука

Aug 04, 2023

Предыдущее изображение Следующее изображение

Исследователи из MIT, MIT-IBM Watson AI Lab, IBM Research и других компаний разработали новую методику анализа немаркированных аудио- и визуальных данных, которая может повысить производительность моделей машинного обучения, используемых в таких приложениях, как распознавание речи и обнаружение объектов. Работа впервые сочетает в себе две архитектуры самоконтролируемого обучения, контрастное обучение и моделирование замаскированных данных, чтобы масштабировать задачи машинного обучения, такие как классификация событий в одно- и мультимодальных данных, без необходимости аннотаций, тем самым воспроизводя как люди понимают и воспринимают наш мир.

«Большая часть человеческих знаний усваивается самоконтролем, потому что мы не всегда получаем сигналы надзора, и мы хотим, чтобы модель машинного обучения имела такие же возможности», — говорит Юань Гун, постдок Массачусетского технологического института. в Лаборатории компьютерных наук и искусственного интеллекта (CSAIL).

«Иными словами, обучение с самоконтролем часто формирует основу исходной модели, поскольку оно может обучаться на огромных объемах неразмеченных данных. А затем вы можете использовать классическое обучение с учителем или обучение с подкреплением для точной настройки смоделируйте что-то конкретное, если хотите», — говорит Джим Гласс, старший научный сотрудник Массачусетского технологического института и член лаборатории искусственного интеллекта MIT-IBM Watson.

Этот метод, называемый контрастным аудиовизуальным маскированным автокодировщиком (CAV-MAE), представляет собой тип нейронной сети, которая может научиться извлекать и отображать значимые скрытые представления в многомерном пространстве из акустических и визуальных данных путем обучения на больших наборах данных YouTube. аудио и видео 10-секундные ролики. Исследователи говорят, что этот метод более эффективен, чем предыдущие подходы, поскольку он явно моделирует отношения между аудио и визуальными данными, чего не делают другие методы.

К Гонгу и Глассу в исследовании присоединяются аспиранты Эндрю Рудиченко и Александр Х. Лю из Массачусетского технологического института, Дэвид Харват, доктор философии '18 из Техасского университета в Остине, а также сотрудники MIT-IBM Watson AI Lab Леонид Карлинский и Хильда Кюне. Кюне также является филиалом Франкфуртского университета имени Гете. Недавно метод был представлен на Международной конференции по обучению представлений.

Совместный и скоординированный подход

CAV-MAE работает путем «обучения путем прогнозирования» и «обучения путем сравнения», говорит Гонг. Моделирование маскированных данных, или метод прогнозирования, берет видео вместе с его скоординированной формой звукового сигнала, преобразует звук в спектрограмму и маскирует 75 процентов того и другого. Немаскированные данные токенизируются, затем передаются в отдельные аудио- и визуальные кодеры, а затем поступают в совместный кодировщик/декодер, где модели предлагается восстановить недостающие данные. Разница (потери при реконструкции) между полученным реконструированным прогнозом и исходной аудиовизуальной комбинацией затем используется для обучения модели для повышения производительности. Примером этого может быть покрытие части видео фортепиано и части спектрограммы фортепианной музыки, а затем предложение модели попытаться определить замаскированные входные данные. К сожалению, этот метод может не уловить связь между парой видео и аудио, тогда как контрастное обучение использует это, но может отбросить некоторую уникальную для модальности информацию, например фон в видео.

Контрастное обучение направлено на сопоставление схожих друг с другом представлений. Например, модель попытается разместить разные видео- и аудиоданные разных попугаев близко друг к другу и дальше от пар видео и аудио игры на гитарах. Подобно маскированному автокодированию, аудиовизуальные пары передаются в отдельные кодеры модальности; однако аудио и визуальные компоненты хранятся отдельно в объединенном кодере до того, как модель выполнит объединение и потерю контрастности. Таким образом, контрастное обучение пытается определить части каждого аудио или видео, которые наиболее релевантны друг другу. Например, если на видео показано, как кто-то говорит, а соответствующий аудиоклип содержит речь, автоэнкодер научится связывать движения рта говорящего с произносимыми словами. Затем он скорректирует параметры модели так, чтобы эти входные данные были представлены близко друг к другу. В конечном счете, метод CAV-MAE сочетает в себе оба метода с несколькими прямыми потоками данных с маскированием в качестве первого шага, кодировщиками, зависящими от модальности, и нормализацией слоев, так что степень представления аналогична.