banner
Центр новостей
Грамотно и компетентно владеют своим опытом.

AutoDistill: конец

Nov 24, 2023

Исследователи из Университета Иллинойса Урбана-Шампейн и Google представляют AutoDistill, комплексную полностью автоматизированную среду дистилляции моделей, которая объединяет исследование архитектуры модели и многокритериальную оптимизацию для создания аппаратно-эффективных предварительно обученных моделей обработки естественного языка.

Поскольку языковые модели на базе искусственного интеллекта продолжают увеличиваться в размерах, снижение стоимости обслуживания стало важной областью исследований. Дистилляция знаний стала многообещающим и эффективным методом сжатия моделей, но существующие методы дистилляции могут сталкиваться с трудностями при обслуживании моделей в современных крупных центрах обработки данных, где они сталкиваются с такими проблемами, как обработка быстро развивающихся моделей, учет производительности обслуживания и оптимизация для нескольких целей. .

Чтобы решить эти проблемы, исследовательская группа из Университета Иллинойса в Урбане-Шампейне и Google представила AutoDistill, комплексную полностью автоматизированную структуру дистилляции моделей, которая объединяет исследование архитектуры модели и многокритериальную оптимизацию для создания предварительно обученных аппаратно-эффективных моделей. Модели обработки естественного языка (NLP).

Команда резюмирует свой основной вклад следующим образом:

AutoDistill — это комплексное решение, предназначенное для создания оптимизированных предварительно обученных языковых моделей, не зависящих от задачи, для целевых конфигураций оборудования. AutoDistill принимает требования, цели и ограничения пользователя в качестве входных данных, представляющих ключевые компоненты для рассмотрения, такие как задачи предварительного обучения, пространства проектирования модели, целевое оборудование, показатели оценки и т. д.

Общий процесс AutoDistill включает три основных этапа: исследование модели, мгновенная дистилляция и оценка. Исследование моделей используется для поиска моделей с лучшим сжатием с учетом пространства проектирования, показателей оценки и ограничений, заданных пользователем. Затем применяется флэш-дистилляция для выращивания наиболее перспективной модели-кандидата в виде модели ученика, которая учится как на наборах данных для предварительного обучения, так и на модели учителя. Этот этап также отвечает за регулярную дистилляцию с одной и той же моделью учителя, но с разными настройками обучения. Затем флэш-фильтрованная модель студента оценивается на целевых задачах и оборудовании на предмет точности прогнозирования, точности прогнозирования следующего предложения и производительности оборудования. После того, как все желаемые метрики собраны, информация передается обратно на этап исследования модели, где поисковая система выбирает оптимальную модель для следующей итерации.

Примечательно, что AutoDistill формулирует поиск архитектуры модели студента как задачу оптимизации «черного ящика», интегрируя алгоритм байесовской оптимизации (BO) и облачный сервис оптимизации «черного ящика» Vizier (Головин и др., 2017) в поисковую систему для студенческой архитектуры. поиск. Исследователи могут получить достоверную и точную обратную связь об оборудовании, измерив модель студента на целевом оборудовании и программной среде центра обработки данных на полностью автоматизированном и интегрированном этапе оценки.

AutoDistill имеет несколько преимуществ по сравнению с предыдущими методами поиска дифференцируемой нейронной архитектуры (DNAS): 1) не нужно тратить огромные усилия на предварительное обучение большой суперсети задачам предварительного обучения НЛП, 2) он может лучше масштабироваться для обработки гораздо большего пространства проектирования. и 3) его можно легко расширить для новых целей и новых моделей с различными конфигурациями архитектуры.

Команда провела обширные эксперименты для оценки AutoDistill. В тесте общей оценки понимания языка (GLUE) с девятью последующими задачами на понимание естественного языка AutoDistill получила более высокие средние баллы, чем BERTBASE, DistilBERT, TinyBERT6 и MobileBERT со значительно меньшими размерами моделей. В экспериментах на оборудовании Google TPUv4i модели, созданные с помощью AutoDistill, достигли предварительно обученной точности на 3,2 процента выше и увеличения задержки до 1,44 раза по сравнению с MobileBERT.

В целом, AutoDistill повышает как точность прогнозирования, так и задержку обслуживания на целевом оборудовании, что указывает на его перспективность и потенциал для создания аппаратно-эффективных предварительно обученных моделей НЛП следующего поколения.