Generative AI on Kubernetes: Operationalizing Large Language Models

Эта книга представляет собой практическое руководство по развертыванию, тонкой настройке и масштабированию больших языковых моделей (LLM) и генеративного искусственного интеллекта (GenAI) в среде Kubernetes. Авторы, эксперты Red Hat, предлагают чёткую дорожную карту для MLOps-инженеров, разработчиков и администраторов Kubernetes, желающих эффективно управлять ресурсоёмкими AI-нагрузками в продакшене.

Книга охватывает ключевые аспекты операционализации GenAI: от оптимизации инференса моделей с использованием специализированных рантаймов (например, vLLM) до сложных задач планирования GPU-ресурсов, включая аппаратное обнаружение и масштабирование на несколько узлов. Особое внимание уделяется мониторингу специфичных для LLM метрик, таких как Time to First Token (TTFT) и пропускная способность по токенам.

Читатели научатся принимать обоснованные решения о необходимости тонкой настройки модели или использовании Retrieval-Augmented Generation (RAG), оценивать модели с помощью стандартизированных бенчмарков перед выделением дорогостоящих GPU-ресурсов, а также создавать и запускать агентные приложения с безопасной интеграцией инструментов, управлением идентификацией и сохранением состояния.

Издание построено на использовании современных open source проектов облачно-нативного AI-стека, таких как KServe, Kubeflow, TrustyAI и llm-d, что делает его актуальным ресурсом для построения отказоустойчивых, наблюдаемых и безопасных GenAI-систем в корпоративной среде.

Generative AI on Kubernetes: Operationalizing Large Language Models
A
Автор
Roland Huß, Daniele Zonca
Издательство
O’Reilly Media, Inc.
Год
2026
Язык
Английский
1
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент