В интернете ведутся споры о технических характеристиках будущих графических ускорителей Nvidia под кодовым именем Feynman, релиз которых прогнозируется к 2028 году. Специалисты и инсайдеры отрасли считают, что производитель кардинально пересмотрит конструкцию чипов, интегрировав разработки компании Groq для оптимизации работы с нейросетевыми алгоритмами.
Толчком к обсуждениям послужили заявления осведомленного источника AGF, утверждающего, что модули Groq LPU впервые будут применены именно в архитектуре Feynman, приходящей на смену поколению Rubin. Основной причиной называют замедление темпов миниатюризации SRAM-памяти. Площадь ее ячеек практически не сокращается при переходе на новые техпроцессы, а перспективная технология TSMC N2 не обеспечивает необходимого увеличения плотности транзисторов в кэш-памяти. Размещение крупных блоков SRAM на цельном кристалле становится нерентабельным из-за высокой стоимости кремниевых пластин.
Вероятным решением станет многокристальная компоновка с вертикальным наслоением. По мнению экспертов, Nvidia может располагать SRAM-чипы непосредственно над вычислительными ядрами, подобно технологии 3D V-Cache от AMD. Это позволит производить логические модули по передовому процессу TSMC A16 для максимальной мощности, а память SRAM создавать на устаревших и бюджетных техпроцессах, сохраняя высокую скорость обмена данными без потерь в компактности.
Ключевым элементом конструкции станет технология подвода электропитания с тыльной стороны чипа (Backside Power Delivery). По данным специалистов, применение BS-PDN в рамках норм A16 значительно упрощает создание вертикальных структур, освобождая верхний слой для плотных соединений и решая проблемы с разводкой сигналов, характерные для классических решений. Также это уменьшит потери напряжения и повысит энергоэффективность.
Аналитик Бен Поладян назвал потенциальное внедрение технологий Groq настоящим «взломом системы» для CEO Nvidia Дженсена Хуанга. Предполагается, что детерминированный поток информации и статическое распределение операций с минимальными задержками, свойственные архитектуре Groq, будут напрямую интегрированы в ядра Feynman. Подобная схема позволит задействовать память HBM при обучении нейросетей, тогда как многослойная SRAM устранит проблему недостаточной эффективности вычислений в ходе инференса с минимальными задержками.
