Сегодняшняя новость — появление инициативы Open Model Initiative, которая сделала заявку на создание открытых, в том числе с лицензионной точки зрения, моделей генеративного ИИ. Размах впечатляет: заявлены планы на создание моделей для генерации картинок, видео и аудио. Ближайшие планы скромнее: создать рабочую группу. Но важнее всего контекст этой новости.
При чем тут Stable Diffusion?
Отмотаем время на несколько месяцев назад. Компания Stability AI, известная благодаря моделям Stable Diffusion, анонсировала выход революционной Stable Diffusion 3. Это набор моделей, который должен был заменить как актуальную SDXL, так и старую SD 1.5, которая еще используется там, где важна скорость работы, или просто недостаточно вычислительных ресурсов. В анонсе всячески склонялась тема «безопасности» новой модели, что вызвало закономерные подозрения: провал SD 2.0, которая из-за тотальной цензуры с большим трудом справлялась с генерацией обычных земных людей, все еще на слуху.
Две недели назад модель Stable Diffusion 3 Medium, наконец, была открыта для скачивания и локального использования. Модель оказалась даже более «безопасной», чем провальная SD 2.0; запрос «woman lying on grass» успел стать локальным мемом.
Stable Diffusion 3 оказалась выхолощенной не только в плане генерации обычных людей; по сравнению с SDXL из модели пропали практически все изобразительные стили; изображения с упоминанием имен художников или известных личностей выдают что-то усредненное в стиле стоковых фото. Модель оказалась практически бесполезной, но даже в таком виде её, возможно, смогли бы исправить сторонние разработчики. Однако лицензия на новую модель оказалась настолько жесткой, что инвестировать в обучение производных моделей никто не захотел, а владельцы сайта Civit.Ai после консультации с юристом ее и вовсе удалили.
Таким образом, получившие долгожданную модель Stable Diffusion 3 энтузиасты оказались не в восторге от ее качества, а разработчики не хотят с ней связываться из-за лицензии.
Король умер.
Да здравствует король?
Вернемся к нашей новости. Потерявшее веру в будущее Stable Diffusion сообщество разработчиков решило скоординироваться для создания новой, улучшенной модели. В число крупных участников проекта вошли разработчики приложений Invoke и Comfy, портал Civitai и компания LAION. У разработчиков Invoke и Comfy (кстати, бывший работник Stability AI) есть необходимый для создания модели опыт, у LAION — гигантская база аннотированных изображений, на которых будет обучаться модель, а у портала Civitai — необходимые для обучения модели вычислительные ресурсы.
Такой состав команды внушает некоторую надежду на возможный успех, но скорого появления модели в любом случае ожидать не стоит: пока что идёт создание управленческой структуры и рабочих групп, которые будут координировать развитие сообщества.