Операционализация LLM на Kubernetes: Развертывание и управление GenAI

Эта книга представляет собой практическое руководство по развертыванию, тонкой настройке и масштабированию больших языковых моделей (LLM) и генеративного искусственного интеллекта (GenAI) в среде Kubernetes. Авторы, эксперты Red Hat, предлагают чёткую дорожную карту для MLOps-инженеров, разработчиков и администраторов Kubernetes, желающих эффективно управлять ресурсоёмкими AI-нагрузками в продакшене.

Книга охватывает ключевые аспекты операционализации GenAI: от оптимизации инференса моделей с использованием специализированных рантаймов (например, vLLM) до сложных задач планирования GPU-ресурсов, включая аппаратное обнаружение и масштабирование на несколько узлов. Особое внимание уделяется мониторингу специфичных для LLM метрик, таких как Time to First Token (TTFT) и пропускная способность по токенам.

Читатели научатся принимать обоснованные решения о необходимости тонкой настройки модели или использовании Retrieval-Augmented Generation (RAG), оценивать модели с помощью стандартизированных бенчмарков перед выделением дорогостоящих GPU-ресурсов, а также создавать и запускать агентные приложения с безопасной интеграцией инструментов, управлением идентификацией и сохранением состояния.

Издание построено на использовании современных open source проектов облачно-нативного AI-стека, таких как KServe, Kubeflow, TrustyAI и llm-d, что делает его актуальным ресурсом для построения отказоустойчивых, наблюдаемых и безопасных GenAI-систем в корпоративной среде.

Generative AI on Kubernetes: Operationalizing Large Language Models

Похожие книги

Generative Artificial Intelligence: Exploring the Power and Potential of Generative AI

AI and ML for Coders in PyTorch: A Coder’s Guide to Generative AI and Machine Learning

Building Generative AI Applications with Opensource Libraries: Practical guide to implementing large language models

Mastering Large Language Models with Python: Unleash the Power of Advanced Natural Language Processing for Enterprise Innovation and Efficiency Using Large Language Models (LLMs) with Python

Generative AI with LangChain: Build large language model (LLM) apps with Python, ChatGPT, and other LLMs

Scaling Enterprise Solutions with Large Language Models: Comprehensive End-to-End Generative AI Solutions for Production-Grade Enterprise Solutions

Large Language Models Projects: Apply and Implement Strategies for Large Language Models

Building Generative AI Services with FastAPI: A Practical Approach to Developing Context-Rich Generative AI Applications

Introduction to Python and Large Language Models: A Guide to Language Models

Generative Deep Learning with Python: Unleashing the Creative Power of AI