Обнаружение, диагностика и отладка с помощью датчиков и функционального мониторинга: как найти droop на кристалле при 0,8 В и сотни ампер

Предел производительности уже не в транзисторе: когда питание становится узким местом

Современные AI-нагрузки предъявляют к системе питания нестандартные требования. Низкоуровневые вычисления генерируют «импульсный» профиль потребления: сотни ампер за наносекунды на кристалле с рабочим напряжением ниже 0,8 В. В результате узким местом становится не скорость переключения транзисторов, а способность on-die PDN (power delivery network) обеспечить моментальный ток без просаживания напряжения. Просадки (droop) штатно приводят к деградации пропускной способности и к ошибкам, которые традиционные методы верификации трудно уловить.

Почему это важно сейчас

Плотность мощности в стойке выросла от нескольких киловатт до десятков и даже сотен киловатт в конфигурациях, оптимизированных под AI. Акселераторы на GPU и специализированные SoC проходят через циклы работы с разными фазами: предзагрузка, декодирование, простаивание — каждая фаза имеет свою тепловую и энергетическую подпись. Переходы между фазами создают динамические возмущения с малой инерцией, большими пиками и высоким отношением «пик/спокойный режим» — сценарий, на который классическая инфраструктура питания не рассчитана.

Проблема наблюдения и верификации

Ключевая трудность — поведение нагрузок: оно инструкционно и датозависимо, проявляется эпизодически и часто маскируется в стандартных тестах. Типичные инструменты верификации не позволяют воспроизвести или зафиксировать условия, которые вызвали редкую функциональную ошибку. В результате проектировщики вынуждены выбирать между избыточным запасом напряжения (guard band), теряющим эффективность, и риском скрытых ошибок в продуктивном парке систем.

Две необходимые способности: что и где мерить

Для решения задачи нужны две согласованные возможности:

видимость функционального поведения on-chip (что делает рабочая нагрузка на уровне ядер и шин);
реальная, транзистор-уровневая телеметрия напряжения в реальном времени.

Решение на практике: наблюдаемое поведение и детектирование droop

Siemens Tessent Embedded Analytics предоставляет функциональные мониторы, которые непрерывно наблюдают активность на ядрах и межсоединениях без нарушения работы устройства. Мониторы можно настроить на фильтрацию релевантных событий и, что важно, на cross-triggering — запись окна активности до и после события, давая контекст причины аномалии.

Movellus Aeonic Insight Droop Detector обеспечивает непрерывный мониторинг on-die напряжения и генерирует аппаратный триггер при пересечении настроенного порога. Доступная в реальном времени телеметрия (уровни напряжения, watermarks, усреднения, аналитика фронтов) позволяет напрямую связать событие droop с наблюдаемой рабочей нагрузкой.

Демонстрационный кейс: как это работает вместе

На демонстрационной платформе с AMD Zynq UltraScale+ два RISC-V ядра выполняют целевую нагрузку, Tessent Bus Monitor отслеживает трафик на шинах SoC, а Droop Detector следит за on-die напряжением. Когда детектор фиксирует переход порога, он подает аппаратный триггер в инфраструктуру Embedded Analytics — которая тут же снимает снимок состояния ядер и шины в момент события.

Совмещение временных рядов активности шины и уровня напряжения даёт диагностический инструмент: видны не просто факты просадки, а конкретные последовательности инструкций и участки архитектуры, которые их вызвали. Это позволяет отличать случайные выбросы от повторяемых, работающих при определённых паттернах.

Практическая отдача для дизайна и эксплуатации

Согласованная функциональная и энергетическая наблюдаемость превращает гипотезы в измеримые факты. Для проектировщиков это означает возможность:

калибровать guard bands под реальные, а не «худшие из возможных» сценарии;
оптимизировать топологию PDN и конденсаторный бюджет;
выявлять узкие места в цепях питания на ранних стадиях верификации.

Для операторов ферм и дата-центров — гранулярная телеметрия PDN открывает путь к принятию решений о распределении нагрузок и параметры разграничения QoS на основании измеренных ограничений, что снижает потери эффективности и позволяет безопасно работать ближе к физическим пределам платформы.

Выводы

Переход ИИ-нагрузок к экстремально динамичному потреблению делает критически важной комбинацию на-чип наблюдаемости и точной, транзистор-уровневой телеметрии напряжения. Инструменты, такие как Tessent Embedded Analytics и Movellus Aeonic Insight Droop Detector, демонстрируют применимость подхода: синхронная фиксация функций и состояния питания переводит PDN из «черного ящика» в управляемый ресурс. Это не просто улучшает диагностику ошибок — это меняет подход к проектированию и эксплуатации высокоплотных вычислительных систем, позволяя вытянуть больше производительности без раздувания запасов и потерь эффективности.

Другие новости

Способ доставки