Fierce Electronics попросила ChatGPT описать свою вычислительную инфраструктуру и сразу же получила следующие ответы на четыре разных вопроса:
«ChatGPT — это модель машинного обучения, работающая в распределенной вычислительной инфраструктуре, которая обычно состоит из кластера мощных серверов с несколькими графическими процессорами (графическими процессорами) для параллельной обработки.
«Конкретное оборудование и поставщики, используемые для обучения и запуска ChatGPT, могут различаться в зависимости от реализации, но обычно оно обучается на графических процессорах NVIDIA, поскольку они широко используются для глубокого обучения из-за их высокой производительности и поддержки CUDA.
Кроме того, некоторые платформы облачных вычислений, такие как AWS, GCP и Azure, предоставляют инфраструктуру для обучения и запуска крупных моделей глубокого обучения, таких как ChatGPT».
На вопрос, какие вычисления поддерживают вывод, ChatGPT ответил следующее:
«Вывод — это процесс использования обученной модели машинного обучения для прогнозирования новых данных. В случае ChatGPT вывод используется для создания человеческого текста на основе введенных данных.
«Вычислительная инфраструктура, используемая для логического вывода с помощью ChatGPT, может различаться в зависимости от реализации.
Он может работать на одном мощном графическом процессоре или на нескольких графических процессорах для более быстрой обработки. Его также можно запускать на серверах с процессором.
В некоторых случаях его также можно запускать на периферийных устройствах, таких как мобильные телефоны или встроенные системы.
«Конкретное оборудование и поставщики, используемые для вывода, могут зависеть от требований приложения, таких как желаемая скорость вывода и энергопотребление.
Как и в случае обучения, некоторые платформы облачных вычислений, такие как AWS, GCP и Azure, предоставляют инфраструктуру для запуска больших модели глубокого обучения, такие как ChatGPT, для логического вывода.
«Стоит отметить, что OpenAI выпустила модель разных размеров и архитектур (маленькая, средняя и большая), чтобы адаптировать ее к различным потребностям и ограничениям конечного пользователя».
На вопрос, будет ли ChatGPT использовать графические процессоры других поставщиков, кроме Nvidia, чат-бот ответил следующим образом:
«Возможно, в будущем ChatGPT или другие модели глубокого обучения можно будет обучать или запускать на графических процессорах других поставщиков.
Однако в настоящее время графические процессоры NVIDIA широко используются в сообществе глубокого обучения благодаря их высокой производительности и поддержке CUDA. CUDA — это платформа параллельных вычислений и модель программирования, разработанная NVIDIA, которая позволяет эффективно выполнять вычисления на графических процессорах NVIDIA.
Многие библиотеки и фреймворки глубокого обучения, такие как TensorFlow и PyTorch, имеют встроенную поддержку CUDA и оптимизированы для графических процессоров NVIDIA.
«Кроме того, другие поставщики, такие как AMD, Intel и Google, недавно выпустили новое аппаратное и программное обеспечение для поддержки рабочих нагрузок глубокого обучения, и вполне вероятно, что все больше и больше моделей будут обучаться и работать на этих платформах.
«Стоит также упомянуть, что OpenAI, организация, разработавшая ChatGPT, сосредоточена на разработке новых методов и моделей ИИ, поэтому они всегда экспериментируют с новым оборудованием и программным обеспечением для повышения производительности своих моделей».
Демонстрируя способность ChatGPT быть политически проницательным, чат-бот не сказал, когда его спросили, сколько графических процессоров Nvidia было использовано для его обучения, со следующим ответом:
«Возможно обучение ChatGPT на большом кластере графических процессоров, например, на 10 000 графических процессоров Nvidia.
Однако точное количество графических процессоров, используемых для обучения, будет зависеть от конкретной реализации и доступных ресурсов.
Кроме того, количество графических процессоров, используемых при обучении, также может зависеть от размера обучаемой модели и объема доступных обучающих данных».