#культура

9 крутых нейросетей, которые создают картинки по тексту

#культура

9 крутых нейросетей, которые создают картинки по тексту

Брейкданс Дарта Вейдера, падение астероида на Землю и животные в исторических костюмах — для искусственного интеллекта нет невозможного. Выбрали интересные проекты от Google, Сбера, NVIDIA и даже от бывшего инженера NASA, которые позволяют генерировать изображения по самым безумным описаниям — многие из них можно попробовать бесплатно.

Нейронные сети шагнули далеко вперед. Самая совершенная из них, DALL·E 2 от компании OpenAI (ее связывают с Илоном Маском), вот-вот бросит вызов творческим профессиям: иллюстраторам, фотографам и дизайнерам.

Ее суть в том, что она может создавать изображение по любому, даже самому безумному текстовому описанию. Начиная от «рестлеров в бальном платье эпохи Возрождения», заканчивая туристическими фотографиями Рыбинска. Результат получается порой впечатляющим.

Недавно бета-версия DALL·E 2 стала доступна онлайн — чтобы протестировать ее, нужно встать в лист ожидания и дождаться очереди. Если же хочется понять прямо сейчас, на что способны современные нейросети, составили подборку программ на базе ИИ, которые создают картинки по текстовому описанию. Одни из них идеально подходят для портретов, другие — для сюрреалистичного искусства и иллюстраций. Можете испытать их сами или посмотреть на картинки, которые сгенерировали мы.

Для навигации по статье:

1

Imagine — главный конкурент DALL·E 2
2

Midjourney — самая художественная нейросеть
3

ruDALL-E — российский ответ Илону Маску
4

DALL·E Mini — главный источник мемов
5

WOMBO Dream — приложение для NFT
6

Starryai — еще одно приложение для NFT
7

Deep Dream — родоначальник генеративного искусства
8

Artbreeder — идеально для портретов и персонажей
9

GauGAN2 — для реалистичных пейзажей

Imagine — главный конкурент DALL·E 2

Компания Google (вернее, ее исследовательское отделение Google Brain) представила собственную нейросеть Imagine немногим позже DALL·E 2 — в мае 2022-го. Обучали ее на базе из 400 миллионов готовых пар изображений и текстовых описаний.

По словам разработчиков, Imagine работает лучше, чем детище OpenAI. Но верить приходится на слово — проект находится на экспериментальной стадии (и непонятно, когда из нее выйдет). Пока можно ознакомиться с примерами работ, либо попробовать небольшое демо на официальном сайте (нам предлагают составить запрос из нескольких готовых шаблонов).

Midjourney — самая художественная нейросеть

Проект одноименной независимой исследовательской лаборатории под руководством бывшего инженера NASA сейчас тоже на стадии бета-тестирования. Как и остальные, Midjourney относится к классу диффузионных нейронных сетей, то есть состоит как бы из двух нейросетей: одна отвечает за распознавание текста, другая — за генерацию изображений.

Инструмент быстро завоевывает популярность: с его помощью британский журнал The Economist создал обложку июньского номера 2022 года, а один из пользователей Reddit в августе перенес Гарри Поттера в мир киберпанка.

Midjourney называют более художественной нейросетью (в противовес DALL·E — более реалистичной), с ее помощью можно создавать сложные арты, удивляющие креативностью. Попробовать можно бесплатно в Discord (для этого нужно выбрать любую комнату в разделе Newcomer rooms, написать в чате /imagine и в строке promt вписать описание картинки на английском; если не поняли, вот инструкция).

ruDALL-E — российский ответ Илону Маску

Команда отечественных разработчиков (среди них сотрудники Sber AI) запустила российский аналог генератора в конце 2021-го, с тех пор нейросеть обзавелась несколькими вариациями:

ruDALL-E Kandinsky можно запустить в Discord или приложении Сбера Салют с помощью голосовой команды.
ruDALL-E Malevich доступна на сайте или в Telegram-боте Сбера.
Еще есть uDALL-E Emojich, которая генерирует смайлики по текстовому запросу — она тоже доступна на сайте или через бота.

Работает алгоритм не идеально — он ближе к уже устаревшей первой версии американской DALL·E. Однако это все еще самая сложная нейросеть в РФ. На ее тренировку ушло 24 тысяч GPU-дней — так называют произведение задействованных GPU (графических процессоров) и дней, которые ушли на обучение алгоритма (так, если вы используете 5 GPU и тренируете сеть 5 дней, потратите 25 GPU-дней).

DALL·E Mini — главный источник мемов

Еще одна программа, вдохновленная детищем OpenAI — ее создал энтузиаст из Техаса Борис Дайма для участия в конкурсе программистов. Сгенерировать картинку можно на сайте — вы получите сразу девять вариантов запроса не более, чем за две минуты. Правда, изображения в плане детальности уступают топовым проектам — нейронная сеть использует меньший набор параметров и обучена всего на 30 миллионах примеров, хотя создана на той же архитектуре, что и оригинальная DALL·E.

Не очень высокое качество отрисовки, тем не менее, не помешало проекту взорвать интернет. Довольно быстро появился форум на Reddit (сейчас там больше 100 тысяч подписчиков) и Twitter-сообщество (миллионник), где пользователи делятся самыми безумными вариантами генерации — нередко из них рождаются новые мемы (вот, например, Танос, который ищет свою маму в супермаркете Walmart, а вот Дарт Вейдер, попавший на камеру видеонаблюдения во время брейкданса).

В какой-то момент к DALL·E Mini обращались так часто, что компания Hugging Face — владелец серверов, на которых лежал проект — фиксировала по 50 тысяч генераций в сутки (команда не спала ночами, обслуживая нейросеть, пишет Wired). Популярность даже заставила разработчиков сменить название на Craiyon, чтобы алгоритм не ассоциировался с оригинальным проектом OpenAI.

WOMBO Dream — приложение для создания NFT

Алгоритм канадского стартапа задумывался как приложение для генерации NFT — невзаимозаменяемых токенов (косвенно мы говорили о них в этой статье). WOMBO Dream — это два в одном. Во-первых, программа умеет преобразовывать текст в уникальные произведения искусства. Во-вторых, вы можете загрузить готовую фотографию и сделать из нее сюрреалистичный арт, либо использовать ее как референс для генеративной картинки.

WOMBO Dream доступна бесплатно (на сайте и в приложениях для Android и iOS). Сеть не очень известна, но смотрится достойно. Возможно, дело в том, что она даже не пытается заходить на территорию реализма.

Starryai — еще одно приложение для генерации NFT

Приложение работает на основе двух алгоритмов — первый создает более фантазийные и абстрактные изображения (он называется Altair), второй — более реалистичные (Orion). Дополнительно к тексту того, что вы хотели бы видеть на картинке, можно добавить желаемый стиль изображения, либо загрузить готовую картинку, которую ИИ использует в качестве отправной точки. В день можно создавать до пяти изображений бесплатно (как в мобильных приложениях, так и на официальном сайте).

Starryai тоже позиционируют себя как нейросеть для генерации NFT, но для создания сколько-нибудь ценных картинок может потребоваться много попыток (главное — придумать подходящий запрос; у нас не особо получилось). Однако и здесь можно получить выдающийся результат — посмотрите на лучшие работы в сообществе.

Deep Dream — родоначальник генеративного искусства

Проект от разработчика Google Александра Мордвинцева довольно старый — он шумел в интернете еще в 2015 году. Сейчас его подзабыли, однако нейросеть все еще создает необычные арты, напоминающие то ли психоделический трип времен Джими Хендрикса, то ли картины Эдварда Мунка.

В отличие от современных нейронных сетей, Deep Dream не работает по текстовому запросу (тогда технология распознавания слов была не совершенна). Она создает арт на основе загруженного изображения, которое можно объединить с другой картинкой, часто абстрактной — готовой или тоже загруженной. Далее можно задать различные параметры генерации и выбрать качество изображения (высокое — только за подписку). Попробовать можно на официальном сайте (нужна регистрация).

Artbreeder — идеально для портретов и персонажей

Эта нейросеть дает максимум гибкости при создании картинки, но она ограничена по типу того, что будет на изображении. Лучше всего создавать с ее помощью портреты: реалистичные и фантастические. Вы можете менять цвет кожи, волос, глаз, тип эмоций, черты лица и другие параметры, просто перетаскивая бегунок по шкале значений. Можно генерировать новое изображение на основе уже готового или создавать с нуля. Artbreeder доступна бесплатно (тоже нужна регистрация).

GauGAN2 — для реалистичных пейзажей

Модель глубокого обучения GauGAN2 разработала компания NVIDIA, которую вы, скорее всего, знаете как производителя видеокарт, хотя она занимается не только полупроводниками. Например, у нее есть проект метавселенной, она продвигает искусственный интеллект (в том числе в здравоохранении), занимается облачными технологиями, автопилотами для машин и много чем еще.

Возможно, поэтому нейросеть GauGAN2 получилась довольно сложной — она не просто генерирует изображение по тексту, но и позволяет уточнить его с помощью эскизов и других параметров. Хотя сеть еще тестируется (обучена на ограниченном наборе данных), она уже довольно ярко демонстрирует, как в будущем за пару кликов можно будет создавать реалистичные ландшафты, которых никогда не было на нашей планете. Попробовать GauGAN2 можно бесплатно по ссылке (но предупреждаем, что интерфейс, несмотря на подсказки, сложный).

Нейронные сети — вдохновляющая область знаний (которая, вероятно, прокладывает дорогу к созданию истинного искусственного интеллекта, но это отдельная тема для разговора). Пока она просто завоевывает умы пользователей и постепенно становится мейнстримом. Так, на сайте Phygital уже сотни тематических проектов, а в августе 2022 года генерация картинок по тексту стала доступна в социальной сети TikTok в виде отдельного AI-фильтра — об этом есть статья The Verge.

С другой стороны, индустрия наверняка столкнется с новыми — этическими вызовами. Показателен пример лондонского стартапа Stability AI, который, судя по всему, не уступает DALL·E 2 и Imagine в качестве алгоритмов (проект тоже доступен в бете — для участия нужно подать запрос).

Но если два первых имеют рукотворные ограничения: например, не дают ИИ создавать фото реальных людей, Stable Diffusion многих барьеров лишен (хотя разработчики все равно используют фильтры). Он уже генерировал картинки с экс-президентом США Бараком Обамой и бывшим премьер-министром Великобритании Борисом Джонсоном, и даже создавал nude-картинки с определенной степенью достоверности. Это открывает поле для злоупотреблений.