Вчера Meta (запрещена в РФ) выложили свою модель на 66 млрд. параметров, и объявила её крупнейшей, но меньше чем за сутки этот рекорд был побит Яндексом. Речь о языковой модели YaLM 100B на 100 млрд параметров. Модели YaLM применяются, например, в Алисе.
YaLM 100B обученна на почти 2 ТБ русских и английских текстов. Причём не только на Википедии/новостных статьях/книгах, но и на коде и научных статьях.
Теперь исходный код доступен на Github (https://github.com/yandex/YaLM-100B), а на Хабре (https://habr.com/ru/company/yandex/blog/672396/) можно почитать об истории создания и обучения. Спойлер: без суперкомпьютеров не обошлось
YaLM 100B обученна на почти 2 ТБ русских и английских текстов. Причём не только на Википедии/новостных статьях/книгах, но и на коде и научных статьях.
Теперь исходный код доступен на Github (https://github.com/yandex/YaLM-100B), а на Хабре (https://habr.com/ru/company/yandex/blog/672396/) можно почитать об истории создания и обучения. Спойлер: без суперкомпьютеров не обошлось