Build a Text-to-Image Generator (from Scratch) With transformers and diffusions

Эта книга представляет собой практическое руководство по созданию генератора текст-в-изображение с нуля, используя современные архитектуры трансформеров и диффузионных моделей. Автор подробно объясняет, как работают модели, подобные Stable Diffusion и DALL-E, и проводит читателя через процесс их реализации.

Книга разделена на пять частей. В первой части рассматриваются основы внимания и трансформеров, включая построение собственного трансформера и применение Vision Transformer для классификации изображений. Вторая часть посвящена диффузионным моделям, их обучению и контролю над генерацией изображений. Третья часть фокусируется на генерации текст-в-изображение с использованием латентной диффузии и глубокому анализу Stable Diffusion.

Четвертая часть исследует альтернативные подходы на основе трансформеров, такие как VQGAN и минимальная реализация DALL-E. В заключительной части обсуждаются новые разработки и вызовы в области генерации изображений по текстовым описаниям. Книга содержит множество практических примеров и кода, что делает её ценным ресурсом для разработчиков и исследователей в области искусственного интеллекта.

Build a Text-to-Image Generator (from Scratch) With transformers and diffusions
A
Автор
Mark Liu
Издательство
Manning Publications
Год
2026
Язык
Английский
1
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент