Где взять данные для предобучения LLM - Анатолий Потапов, Тинькофф
2023 ж. 1 Қар.
4 882 Рет қаралды
Вы вдруг решили, что вам недостаточно LLaMA-2 и вы очень хотите сделать свою LLM. Где взять данные для предобучения? Большая часть проблем в воспроизведении результатов ChatGPT лежит именно в данных для предобучения. Модель берет все свои знания о мире с этапа претрейна, алаймент же позволяет их вытащить. Анатолий рассказал, какие есть тонкости и нюансы при подготовке датасетов для предобучения и что они уже сделали с командой.
Наш телеграм: t.me/tinkoffai
Дайджесты, статьи и анонсы митапов: t.me/itstinkoff
Жизнь команда изнутри и вакансии по направлениям: t.me/tinkoffjobs
Блог на Хабре: l.tinkoff.ru/habr-tinkoff
#ai #ml #rl #тинькофф
Нормально, только почему используете термин Расстояние Жикарда, если есть Расстояние Левенштейна?
Вопрос по слайду с семантической дедупликацией: внутри кластера очистка происходит чисто семантически, или есть какая то проверка на истину каждого выражения? Например, если в кластере несколько похожих семантически ответов на одну тему, но только один из них верный. Вы сказали что оставляете один пример в своей эпсилон окрестности, он же может быть ложным в своем кластере?
Когда Russian LLM можно будет скачать дайте знать пожалуйста.
Интересные моменты подсвечены, если собираетесь обучить свою LLM, это хорошая вводная чтобы понять масштаб задачи подготовки данных.
а почему не взять англоязычный датасет и перевести его на русский язык ? вместо создания самому русскоязычного датасета собирая и фильтруя русскоязычные данные со всего интернета
Когда уже LLM сами начнут краулить и отбирать то что им интересно?...
Докладчик че переминаться с ноги на ногу. В туалет что ли хочет или что . Невозможно смотреть
да какая разница, суть на слайдах
в аптеке успокоительное рекоммендую ;)