Тестируем ИИ-приложения для генерации изображений

Фото - Тестируем ИИ-приложения для генерации изображений
Экспансия искусственного интеллекта стала особенно заметной в направлении генерации изображений. Нейросети, обученные на огромных массивах данных, теперь способны создавать реалистичные и даже сюрреалистические картинки по текстовому описанию.
Мы протестировали несколько общедоступных популярных ИИ-приложений и готовы поделиться своими впечатлениями.Сервисы оценивались по нескольким параметрам:

  • качество изображений;
  • стилистическое разнообразие;
  • удобство использования;
  • стоимость подписки.

Все приложения мы тестировали на одном текстовом задании: ”Black and white dogs play with a red ball” (”Черная и белая собаки играют с красным мячом”). Для теста было выбрано два направления – реализм и анимация.

Leonardo.ai

Приложение, которое использует собственную технологию Alchemy и позволяет генерировать изображения с высоким уровнем детализации и реалистичности. Есть широкий выбор настроек и стилей. Например, можно создать картинку в гиперреализме, 3D, на прозрачном фоне.
Кроме того, в Leonardo можно обрабатывать уже готовые изображения: производить цветокоррекцию, добавлять различные эффекты, стилизовать под разные арт-направления.

Тестовый (бесплатный) период предоставляется на сутки. При этом пользователь получает 150 токенов (генерация одной картинки стоит 3 токена). На каждый запрос можно создать от 1 до 8 картинок (то есть вы сами можете выбрать количество предлагаемых вариантов обработанного запроса). В зависимости от количества созданных изображений, это обойдется от 3 до 24 токенов.
Приложение поддерживает только один язык, поэтому запрос должен быть введен на английском. 
К недостаткам можно отнести достаточно перегруженный деталями интерфейс. Новичкам придется потратить время, чтобы разобраться во всех возможностях приложения.

С мультяшными собаками (3D Animation Style) пришлось повозиться. Приложение очень долго не понимало, что “черная и белая” и “черно-белая” – это разные вещи. Кроме того, и собачьих лап, и мячей на изображения было больше, чем того требовал здравый смысл.
Чтобы не тратить ограниченное количество токенов на желаемый результат, мы  в итоге удовлетворились пятнистыми собаками.
Leonardo.ai 3D Animation Style удачный вариант

Leonardo.ai 3D Animation Style удачный вариант

3D Animation Style Leonardo.ai забракованный вариант

3D Animation Style Leonardo.ai забракованный вариант

На генерацию изображения в стиле Animation приложению необходимо от 4 до 6 минут.

С реализмом все прошло проще и значительно быстрее: на одну картинку уходило не более минуты. Хотя проблемы с трех- и пятилапыми монстрами тоже были.
Leonardo Kino XL забракованный вариант

Leonardo Kino XL забракованный вариант

Leonardo Kino XL приемлемый вариант

Leonardo Kino XL приемлемый вариант

При наличии достаточного количества токенов вполне можно добиться от программы и нужного окраса собак, и наличия всех лап. Мы же решили оставить монеток на генерацию по готовому описанию.

За идеями можно зайти в раздел Prompt Generation, ввести название предмета, который вы хотите сгенерировать и ИИ выдаст вам пару вариантов готовых запросов.
Например, вам нужно создать картинку с собакой. Введите запрос “A dog” и выберите из предложенного списка описание картинки: “Величественный золотистый ретривер, греющийся в теплом солнечном свете летнего дня, с игривым блеском в глазах и виляющий хвостом” (“A majestic golden retriever, basking in the warm sunlight of a summer afternoon, with a playful glint in its eyes and a wagging tail”).
Leonardo Kino XL генерация по готовому описанию

Leonardo Kino XL генерация по готовому описанию

Ретривер действительно выглядит очень реалистичным и величественным, но вот хвостом он точно не виляет.
В стиле 3D Animation мы выбрали из готовых описаний такой вариант: “Озорной корги, гоняется за бабочкой среди полевых цветов, очарования ему добавляют короткие лапки и пушистая шерсть” (“A mischievous corgi, chasing after a butterfly in a field of wildflowers, its short legs and fluffy coat adding to its adorable charm”).
Leonardo 3D Animation Style по готовому описанию

Leonardo 3D Animation Style по готовому описанию

Корги среди цветов выглядит мило, но ни одной бабочки на картинке мы так и не нашли. Выходит, что многословные запросы не гарантируют, что на выходе вы получите исчерпывающее изображение.
Над созданными искусственным интеллектом картинками можно проводить различные манипуляции: генерировать видео, масштабировать, улучшать качество изображения, вырезать фон. Но эти функции доступны только в платных пакетах.

Стоимость подписки на приложение Leonardo.ai:

  • Apprentice Standard — $12/ month (8 500 токенов в месяц); 
  • Artisan Unlimited — $30/ month (25 000 токенов в месяц);
  • Maestro Unlimited — $60/ month (60 000 токенов в месяц и безлимитная генерация).

Leonardo.ai доступен как в веб-версии, так и в мобильном приложении для iOS.
Наша оценка: 4/5

Playground AI

Позиционируется как сервис, сочетающий передовые технологии и простой удобный интерфейс. C настройками и функциями действительно легко справится любой новичок. На платформе все понятно — от загрузки изображений до выбора стилей и настройки параметров.

В бесплатной версии доступно 100 генераций в сутки. На одно описание ИИ предлагает 4 варианта картинок.

Для создания реалистичного изображения мы использовали несколько фильтров, остановив свой выбор на Cinematic и Realism Engine, поскольку они выдавали самые качественные изображения.

Вопросов к окрасу собак у нас не возникло, но поиграть с мячом по нашему запросу у них так и не получалось. С реалистичностью мяча тоже вышло не очень — игрушка выглядела каким-то инопланетным объектом.
Playground AI, фильтр Cinematic

Playground AI, фильтр Cinematic

Гораздо натуральнее выглядел мяч на изображении, сгенерированном через фильтр Realism Engine. Но возникла проблема с количеством: ИИ наотрез отказывался давать собакам один мяч на двоих. Видимо, при запуске этого фильтра у машинного разума дополнительно включается повышенное чувство справедливости. По поводу окраса ИИ также имел своё специфическое мнение.
Playground AI, фильтр Realism Engine

Playground AI, фильтр Realism Engine

Нельзя не отметить отличный рендеринг изображений. Приложение действительно способно генерировать реалистичные текстуры, световые эффекты и детали, которые могут конкурировать с фотографиями.

При генерации изображения в анимированном стиле ИИ буквально засыпал щенков мячиками. Мы несколько раз уточняли запрос, требуя сократить количество мячей до одного, но переубедить искусственный интеллект не смогли.
Playground AI фильтр Lush Illumination

Playground AI фильтр Lush Illumination

Отметим, что для создания “мультяшных” собак нам пришлось  потратить больше времени на подбор фильтра и расширить текстовый запрос: “Две анимированные черная и белая 3D собаки играют с красным мячом на зеленой траве”(“Two cartoon 3D black and white dogs playing with a red ball on the green grass”). Без этих уточнений ИИ упорно рисовал красную траву и зеленое небо. При создании реалистичных изображений таких казусов не было.

Каждый фильтр предлагает свою собственную интерпретацию запроса: ее видно, если навести мышку на изображение. Проще всего выбрать “None” в разделе фильтров и написать собственное описание.

Самые интересные варианты генерации получаются для футуристических изображений, в которых задний план и движения персонажей не являются критичными. Такие картинки кажутся симпатичными и подходящими для использования.
Playground AI: генерация изображения в футуристическом стиле

Playground AI: генерация изображения в футуристическом стиле

Стоимость подписки на приложение Playground AI:
  • годовая подписка Playground Pro — $12/month;
  • годовая подписка Playground Turbo — $36/month;
  • можно оформить также месячную подписку Playground Pro за $15.
Наша оценка: 4/5

Bing Image Creator

Бесплатный онлайн-сервис от Microsoft, который позволяет создавать изображения на основе текстовых описаний.
Как и всякое бесплатное приложение, оно имеет ограниченные возможности, но с генерацией реалистичных и рисованных изображений справляется. Кроме того, созданную картинку можно потом увеличить, растянуть, обрезать или добавить несложные фильтры.

Для генерации картинок дается 15 усилителей (бустов), которые ускоряют время создания изображения. На одну генерацию (4 картинки на один запрос) расходуется один усилитель. После того, как бусты закончатся, возможность генерировать картинки сохраняется, но времени на это будет уходить намного больше: с бустом на обработку одного запроса уходит меньше минуты, а без него — около часа.

Ускорители генерации можно покупать за баллы, которые выдаются за несложные задания от Microsoft или за пожертвования в благотворительные фонды.
В приложении Bing нет настроек установленных стилей, поэтому в запросе придется самостоятельно прописывать стиль, бэкграунд, цвета предметов и т. д.
Собаки, сгенерированные в стиле realism, могут разочаровать. Мало того, что они похожи на сиамских близнецов, так еще и с лапами получилось не слишком красиво: такие длинные когти мы видели только у росомахи. Все четыре предложенные варианта содержали грубые ошибки с точки зрения анатомии животных.
Bing, realism

Bing, realism

Также понадобилось очень много бустов на то, чтобы добиться от собак какого-то взаимодействия с мячом: искусственный интеллект считал, что если мы пользуемся бесплатным приложением, то достаточно того, чтобы мяч просто находился в кадре. 
Над анимированным стилем нужно потрудится еще больше. Лучше всего к основному запросу сразу добавлять желаемый стиль. В нашем случае это Disney style.
Bing, Disney style

Bing, Disney style

С рисованными картинками приложение справляется хорошо. Из 12 вариантов обработанных запросов в разных стилях ни на одном не было ненужных артефактов в виде лишней лапы или второго хвоста.

Для тех, кто не понимает, как строится запрос для ИИ, есть кнопка “Удиви меня”. Нажав ее, можно увидеть вариант описания и картинку, выполненную по нему.

Один из главных общих выводов: прежде, чем начинать работать с любым ИИ-приложением, необходимо научиться “разговаривать” с ним на понятном для него языке. Анализа неудачных попыток и настойчивости (хотя это тоже необходимо) бывает недостаточно. Универсального рецепта для создания запроса не существует. Учитывайте контекст, стиль и специфику выбранного сервиса — и вам быстрее удастся найти взаимопонимание с ИИ.