Meta* представила новую генеративную ИИ-модель CM3leon
Компания Meta* в продолжение своих исследований возможностей генеративных моделей ИИ представила последнюю разработку — мультимодальную модель для преобразования текста в изображение и наоборот — под названием CM3leon (произносится близко к слову «хамелеон»).
Meta* представила новую генеративную ИИ-модель CM3leon Екатерина Алипова
Аналог популярных инструментов Stable Diffusion, DALL-E и Midjourney, «новичок» CM3leon, по словам разработчиков, достигает лучших результатов за счет использования «авторегрессионной модели на основе токенов» взамен более распространенной сейчас диффузионной модели, пишет VentureBeat.
«Диффузионные модели в последнее время доминируют в работе по генерации изображений из-за их высокой производительности и относительно скромных вычислительных затрат, – говорится в исследовании Meta* research. – Но авторегрессионные модели на основе токенов также дают хорошие результаты, хотя их намного дороже обучать и использовать для вывода».
Основная схема работы CM3leon в чем-то похожа на то, как работают существующие модели генерации текста. Но в процессе разработки представители Meta* уделили особое внимание юридическим вопросам: «Этические последствия поиска данных изображений в области преобразования текста в изображение были предметом значительных дебатов».
В результате на этапе тестирования в CM3leon использовались только лицензированные изображения с Shutterstock. Сейчас — после предварительной подготовки — разработка проходит этап «контролируемой тонкой настройки» (SFT, который использует также OpenAI для обучения ChatGPT).
По утверждению исследователей Meta, этот подход дает «высокооптимизированные результаты» (как с точки зрения использования ресурсов, так и качества изображения). Программа учится пониманию даже самых сложных подсказок, что полезно для генеративных задач. В ответ на многоступенчатые запросы генерируются высококачественные и релевантные изображения с высоким разрешением.
«Мы обнаружили, что настройка инструкций заметно повышает производительность мультимодальной модели в различных задачах, таких как генерация подписи к изображению, визуальный ответ на вопрос, редактирование текста на основе и условная генерация изображений», – пишут разработчики.
Получайте свежие новости о мире Web3 в рассылке. Регулярно.
Без рекламы.
Пока что CM3leon все еще тестируется, и нет информации, Meta* сделает эту технологию общедоступной, но, если это произойдет, весьма вероятно, что с учетом мощности и эффективности модели компания захочет монетизировать разработку.
* Признана экстремистской и запрещена в РФ
Пишу о технологиях, науке и кино!