Где взять данные для предобучения LLM - Анатолий Потапов, Тинькофф

2023 ж. 1 Қар.

4 882 Рет қаралды

Вы вдруг решили, что вам недостаточно LLaMA-2 и вы очень хотите сделать свою LLM. Где взять данные для предобучения? Большая часть проблем в воспроизведении результатов ChatGPT лежит именно в данных для предобучения. Модель берет все свои знания о мире с этапа претрейна, алаймент же позволяет их вытащить. Анатолий рассказал, какие есть тонкости и нюансы при подготовке датасетов для предобучения и что они уже сделали с командой.
Наш телеграм: t.me/tinkoffai
Дайджесты, статьи и анонсы митапов: t.me/itstinkoff
Жизнь команда изнутри и вакансии по направлениям: t.me/tinkoffjobs
Блог на Хабре: l.tinkoff.ru/habr-tinkoff
#ai #ml #rl #тинькофф

Пікірлер

Нормально, только почему используете термин Расстояние Жикарда, если есть Расстояние Левенштейна?
@blackbigdeath4 күн бұрын
Вопрос по слайду с семантической дедупликацией: внутри кластера очистка происходит чисто семантически, или есть какая то проверка на истину каждого выражения? Например, если в кластере несколько похожих семантически ответов на одну тему, но только один из них верный. Вы сказали что оставляете один пример в своей эпсилон окрестности, он же может быть ложным в своем кластере?
@VasilyVasilyVasily2 ай бұрын
Когда Russian LLM можно будет скачать дайте знать пожалуйста.
@Aidar_ZaripovАй бұрын
Интересные моменты подсвечены, если собираетесь обучить свою LLM, это хорошая вводная чтобы понять масштаб задачи подготовки данных.
@achmedzhanov_nail3 ай бұрын
а почему не взять англоязычный датасет и перевести его на русский язык ? вместо создания самому русскоязычного датасета собирая и фильтруя русскоязычные данные со всего интернета
@ekolvah2 ай бұрын
Когда уже LLM сами начнут краулить и отбирать то что им интересно?...
@FeelUsАй бұрын
Докладчик че переминаться с ноги на ногу. В туалет что ли хочет или что . Невозможно смотреть
@user-vl9km6ot1h3 ай бұрын
- да какая разница, суть на слайдах
  @achmedzhanov_nail3 ай бұрын
- в аптеке успокоительное рекоммендую ;)
  @ekolvah2 ай бұрын