OpenAI представляет GPT-4o: создание изображений, улучшенный текст и точное следование инструкциям

Загрузка...

ai

openai

GPT-4o: Новый уровень генерации изображений

Примерно год назад OpenAI представила GPT-4o, но с тех пор модель претерпела множество улучшений и получила новые возможности. Одной из самых впечатляющих новинок стала генерация изображений. Теперь искусственный интеллект не только создает детализированные и качественные изображения, но и позволяет редактировать их в соответствии с вашими пожеланиями, выраженными на естественном языке. Можете представить? Всего несколько слов — и картинка, которая только что существовала в вашем сознании, оживает на экране.

Умный подход к тексту на изображениях

Помните, как старые модели ИИ пытались рисовать текст? Вы просите создать вывеску, а в итоге получаете либо бессмысленный набор символов, либо каракули, которые даже буквами не назвать. GPT-4o полностью изменил правила игры: теперь изображения могут содержать идеально читаемый текст. Процесс стал интуитивным — сначала вы задаете основной текстовый запрос, а затем постепенно уточняете детали. GPT-4o позволяет не только создавать изображения, но и шаг за шагом модифицировать их, пока результат не совпадет с вашим представлением.

Генерация и редактирование: проще некуда

Всё, что нужно, — это выразить свои пожелания словами. Например, вы можете попросить GPT-4o создать изображение или изменить уже существующее. Один из примеров — пользователь загрузил фотографию кота и попросил добавить ему шляпу детектива и монокль. Затем изображение было доработано до вида, напоминающего кадр из RPG-игры. Этот процесс позволяет воплотить даже самые необычные идеи.

Использование нескольких изображений

GPT-4o способен работать не только с одним изображением, но и комбинировать элементы из нескольких. Такой подход позволяет создавать сложные сцены, содержащие от 10 до 20 объектов, при этом модель остаётся точной и послушной инструкциям. Для сравнения, другие ИИ обычно справляются только с 5–8 объектами, что подчёркивает мощь GPT-4o. Однако OpenAI откровенно признает, что модель всё ещё неидеальна. Иногда нижняя часть изображения обрезается, случаются галлюцинации, а работа с текстами на нелатинице требует доработки.

Ошибки случаются, но результаты впечатляют

Конечно, GPT-4o далек от совершенства, и примеры ошибок — тому подтверждение. Но даже с учетом этих недостатков, результаты выглядят впечатляюще. Простота интерфейса позволяет легко экспериментировать с изображениями, а возможности модели открывают двери для самых смелых творческих экспериментов.

Чтобы оценить новые способности GPT-4o, OpenAI подготовила видео-демонстрации, которые показывают весь процесс генерации изображений. Если вы хотите увидеть технологию в действии, не пропустите эти примеры. GPT-4o уже сейчас задаёт новые стандарты в мире искусственного интеллекта, и это только начало!