Международная команда разработчиков BigScience запустили обучение языковой модели искусственного интеллекта с открытым исходным кодом на 176 млрд параметров.
BigScience main training just started💥 A large language model created as a tool for research🔬
Model: 176 billion parameters
📖https://t.co/7gz2GibybxData: 46 languages
📖https://t.co/EOgshEDrnwCluster: 416 GPU — low carbon energy
📖https://t.co/VA1u4OpnVrFollow it live👇
— BigScience Research Workshop (@BigscienceW) March 15, 2022
Алгоритм обучают на данных 46 языков. Модель тренируют на суперкомпьютере Jean Zay французского Института развития и ресурсов в области интенсивных научных вычислений. Он построен на основе видеоускорителей Nvidia V100 и A100. Пиковая производительность установки превышает 28 петафлопс.
Руководитель отдела исследований Hugging Face Дау Киела сообщил, что процесс обучения займет три-четыре месяца.
По словам разработчиков, проект предназначен для исследовательских целей. Проприетарные языковые модели компаний вроде OpenAI, Google или Microsoft демонстрируют одинаково проблемное поведение, порождая токсичную речь, предвзятость и дезинформацию, считают инженеры. Алгоритм с открытым исходным кодом поможет исследователям понять эти проблемы и исправить их, добавили они.
«Если мы заботимся о демократизации исследовательского прогресса и хотим убедиться, что весь мир может использовать эту технологию — мы должны найти решение для этого. Это именно то, чем должна заниматься большая наука», — сказал Киела.
Открытый проект BigScience объединяет около тысячи разработчиков со всего мира, создающих и поддерживающих больших наборов данных для обучения языковых моделей.
Напомним, в январе OpenAI сообщила о создании менее токсичной версии GPT-3.
В декабре 2021 года DeepMind представила языковую модель с 280 млрд параметров.
В октябре Microsoft и Nvidia разработали алгоритм в три раза больше GPT-3.
Источник: forklog.com