Data Contracts: Developing Production-Grade Pipelines at Scale
Книга «Data Contracts: Developing Production-Grade Pipelines at Scale» представляет собой практическое руководство по внедрению архитектуры данных контрактов для обеспечения высокого качества данных в масштабируемых производственных средах. Авторы, включая эксперта по данным контрактам Чада Сандерсона, подробно объясняют, как плохое качество данных может нарушать критически важные процессы и подрывать доверие к данным, особенно когда источники данных находятся вне контроля команды аналитиков.
Основное внимание уделяется архитектуре данных контрактов — механизму, который документирует ожидания от данных, устанавливает владение активами данных и автоматически обеспечивает соблюдение этих ограничений в рамках CI/CD-процессов. Книга предлагает чёткое определение данных контрактов, объясняет их необходимость в современной индустрии данных и делится реальными примерами использования в продакшене.
Читатели узнают, как реализовать компоненты архитектуры данных контрактов, включая интеграцию с CI/CD, мониторинг, контроль версий данных и другие инструменты. Особое внимание уделяется использованию open source инструментов для внедрения контрактов и стратегиям разрешения проблем с качеством данных. Книга также помогает измерить влияние внедрения данных контрактов в организации и разработать стратегию их применения.









