Meta* представила новую генеративную ИИ-модель CM3leon

15.07.2023 Ольга Волкова 0 Комментариев

Компания Meta* в продолжение своих исследований возможностей генеративных моделей ИИ представила последнюю разработку — мультимодальную модель для преобразования текста в изображение и наоборот — под названием CM3leon (произносится близко к слову «хамелеон»).

Meta* представила новую генеративную ИИ-модель CM3leon Екатерина Алипова

Аналог популярных инструментов Stable Diffusion, DALL-E и Midjourney, «новичок» CM3leon, по словам разработчиков, достигает лучших результатов за счет использования «авторегрессионной модели на основе токенов» взамен более распространенной сейчас диффузионной модели, пишет VentureBeat.

«Диффузионные модели в последнее время доминируют в работе по генерации изображений из-за их высокой производительности и относительно скромных вычислительных затрат, – говорится в исследовании Meta* research. – Но авторегрессионные модели на основе токенов также дают хорошие результаты, хотя их намного дороже обучать и использовать для вывода».

Основная схема работы CM3leon в чем-то похожа на то, как работают существующие модели генерации текста. Но в процессе разработки представители Meta* уделили особое внимание юридическим вопросам: «Этические последствия поиска данных изображений в области преобразования текста в изображение были предметом значительных дебатов».

В результате на этапе тестирования в CM3leon использовались только лицензированные изображения с Shutterstock. Сейчас — после предварительной подготовки — разработка проходит этап «контролируемой тонкой настройки» (SFT, который использует также OpenAI для обучения ChatGPT).

По утверждению исследователей Meta, этот подход дает «высокооптимизированные результаты» (как с точки зрения использования ресурсов, так и качества изображения). Программа учится пониманию даже самых сложных подсказок, что полезно для генеративных задач. В ответ на многоступенчатые запросы генерируются высококачественные и релевантные изображения с высоким разрешением.

«Мы обнаружили, что настройка инструкций заметно повышает производительность мультимодальной модели в различных задачах, таких как генерация подписи к изображению, визуальный ответ на вопрос, редактирование текста на основе и условная генерация изображений», – пишут разработчики.

Получайте свежие новости о мире Web3 в рассылке. Регулярно.
Без рекламы.

Пока что CM3leon все еще тестируется, и нет информации, Meta* сделает эту технологию общедоступной, но, если это произойдет, весьма вероятно, что с учетом мощности и эффективности модели компания захочет монетизировать разработку.

* Признана экстремистской и запрещена в РФ

Источник