Исследователи создадут большую языковую модель с открытым исходным кодом

Международная команда разработчиков BigScience запустили обучение языковой модели искусственного интеллекта с открытым исходным кодом на 176 млрд параметров.

Алгоритм обучают на данных 46 языков. Модель тренируют на суперкомпьютере Jean Zay французского Института развития и ресурсов в области интенсивных научных вычислений. Он построен на основе видеоускорителей Nvidia V100 и A100. Пиковая производительность установки превышает 28 петафлопс.

Руководитель отдела исследований Hugging Face Дау Киела сообщил, что процесс обучения займет три-четыре месяца.

По словам разработчиков, проект предназначен для исследовательских целей. Проприетарные языковые модели компаний вроде OpenAI, Google или Microsoft демонстрируют одинаково проблемное поведение, порождая токсичную речь, предвзятость и дезинформацию, считают инженеры. Алгоритм с открытым исходным кодом поможет исследователям понять эти проблемы и исправить их, добавили они.

«Если мы заботимся о демократизации исследовательского прогресса и хотим убедиться, что весь мир может использовать эту технологию — мы должны найти решение для этого. Это именно то, чем должна заниматься большая наука», — сказал Киела.

Открытый проект BigScience объединяет около тысячи разработчиков со всего мира, создающих и поддерживающих больших наборов данных для обучения языковых моделей.

Напомним, в январе OpenAI сообщила о создании менее токсичной версии GPT-3.

В декабре 2021 года DeepMind представила языковую модель с 280 млрд параметров.

В октябре Microsoft и Nvidia разработали алгоритм в три раза больше GPT-3.

Источник: forklog.com

Оцените автора
( Пока оценок нет )
КриптоВики
Добавить комментарий