Если обучить нереально, то о чем эта работа?
Я про то, что обучить модель делать то, что я написал (ждать, пока в паттерн попадет нужный токен) нереально. Тут проблема не во времени обучения, а в составлении датасета.
Запрос, контекст, последовательность - не знаю как правильно
Я просто не понимаю, о чем речь.
У нас есть контекст - последовательность токенов (с хорошей точностью можно считать последовательностью слов), который подается на вход.
Дальше мы его как-то обрабатываем, выдаем новый токен, дописываем его в последовательность и возвращаемся на исходную позицию.
И весь вопрос в том, как контекст обрабатывать. И тут хочется обрабатывать побольше токенов и каким-то однородным образом. Товарищи предлагают следующую систему: если у нас есть токены

(предыдущие), и мы хотим угадать токен

- давайте не будем смотреть на все эти

токенов, а будем смотреть только на (условно) токены

- это позволяет нам учитывать токен, который был миллион слов назад, но при этом прямо сейчас смотреть только на

токенов, что вычислительно просто.
У такого подхода есть очевидная проблема: мы можем сейчас посмотреть на токен

, но довольно долго не сможем посмотреть на токен

.
Там не всё так плохо, и токены, которые были очень давно, всё же можно использовать чуть более эффективно, чем если нам просто сейчас случайно повезет на нужный наткнуться - за счет того, что если мы сейчас видим токен

и понимаем, что он нам скоро понадобится - не обязательно текущий токен от него зависит, но один из тех что скоро будут, то мы можем его запомнить. Но как в этой постановке учить модель "тянуть время" пока она не сможет посмотреть на нужный ей старый кусок контекста - непонятно.
-- 06.07.2023, 22:15 --MoonWatcher, токен - это некоторая последовательность байт. Подбирается таким образом, чтобы часто встречающиеся последовательности байт получались конкатенацией небольшого числа токенов (например в GPT3 слово в среднем кодируется полутора токенами).
Число, в зависимости от количества цифр, может быть как одним так и несколькими токенами. Но я говорил не о том, что 1 миллион длинных чисел выходит за миллиард токенов контекста - это тривиально, неинтересно и неважно.