MaxPEPool - жнец данных

Mihaylo · 22.03.2026, 14:36

Придумал я такой наивный слой нейросети - MaxWithPositionalEncodingPooling. Это такой сильно поднавороченный брат старого доброго слоя MaxPooling. Просто прикрутил к MaxPooling позиционное кодирование (глобальное и локальное, другими словами, абсолютное и псевдоотносительное).

Сам по себе MaxWithPositionalEncodingPooling безжизненный, так как не обучается, поэтому я дооборудовал его входным и выходным слоем:
входной обучаемый - произведение Адамара, типа "линейный слой без суммирования" (потом я ещё придумал аналогичное свёрточное произведение),
выходной обучаемый - обычный линейный слой с функцией активации или аналогичный.

Итог разработки:
GatedMaxPEPool1D
ConvMaxPEPool1D
ConvMaxPEPool2D

Цель - [хотя бы частичная] замена рекуррентных алгоритмов RNN/LSTM/GRU. У этих алгоритмов недостаток - невозможность распараллеливания алгоритма.

Я обнаружил, что серия слоёв MaxPEPool может вполне успешно выжимать из последовательностей полезные данные, поэтапно сокращая их размерность. Сравнивал с LSTM.

Были данные - таблица (in_seqlen, in_features), получили новые данные - таблица (out_seqlen, out_features), где out_seqlen < in_seqlen.
В конце жатвы можно просто найти среднее или максимальное значение оставшихся элементов последовательности, и вроде даже такие итоговые данные успешно поддаются дальнейшему анализу с помощью обычного линейного слоя.

Недостаток нового слоя - он может работать только с фиксированными размерами последовательности. Жнецу нужно что-то жать, иначе возникает неразрешимый вопрос. Мне кажется, над этим можно поработать.

Для работы с последовательностями переменной длины предполагаю использовать устоявшийся уже слой SoftBinning (бывший SoftOrdering). SoftBinning, как мастер по работе с данными переменной длины, делает окончательное обобщение с фиксацией размера данных. Жнецы сокращают длину последовательности, это решает проблему сильного различия длины входных данных. Это проблема позиционного кодирования в трансформерах - данные более 10000 символов кодировать затруднительно. Я надеюсь, жнецы или их аналог - это решение этой проблемы.

Код:

MaxPEPool1 #Жатва началась
MaxPEPool2
MaxPEPool3
SoftBinning #Главный жнец
Linear #Анализ

Главного жнеца можно заменить на mean() или max(), которые выжимают последовательность до конца, оставляя лишь одного члена последовательности, не изменяя число признаков в отличие от SoftBinning. Вполне рабочий вариант для некоторых задач. Проверил.

Mihaylo · 28.03.2026, 16:52

Как работает MaxPEPool:

По сути, это обычный MaxPooling, в который добавлен Positional Encoding (PE) - глобальная и локальная позиция (локальная - в пределах окна, на рисунке window_size=5, stride=2).

Интереснее, когда в последовательности несколько переменных. Здесь сопоставляются две переменные:

Вообще помимо привлечения к анализу глобальной и локальной позиции сохраняется возможность применение принципа NoPE (global_pos=false, local_pos=false).

*Здесь не показаны входные и выходные слои MaxPEPool с весами.

Mihaylo · 28.03.2026, 19:53

Достоинства MaxPEPool:
1. Не относится к рекуррентным алгоритмам, то есть можно распараллелить.
2. Высокая эффективность, даже по сравнению с трансформером -

O(N)

.

Недостатки MaxPEPool:
1. Нужно задавать размер окна window_size, который иногда выступает как не совсем понятный гиперпараметр.
2. Неспособность работать с последовательностями короче чем window_size. Это создаёт трудности работы с последовательностями переменной длины в частности.
3. Максимальное значение (Max) в пределах окна может "экранировать" другое сильное значение. Это сильное значение может попасть под жатву и не пройти на выход.

Недостаток 2 - чисто технический, его можно решить, я думаю.

Недостаток 3 - считаю, что есть смысл в разработке слоя TopPEPool, который будет поддерживать анализ нескольких наилучших значений. Кстати, без потери эффективности алгоритма.

-- 28.03.2026, 20:16 --

Недостаток 1 - он взрывает мой мозг... Window_size - это величина, с которой нейросеть должна работать также как с позициями автоматически, так как это по сути то же самое: window_size = max_pos - min_pos. Есть общее понимание, но пока конкретных идей нет. Но я считаю, что прорыв должен быть в этом направлении.

-- 28.03.2026, 20:42 --

Сейчас понял, что локальные позиции - это избыточная информация для анализа, так как линейно вычислимы через глобальные позиции, надо удалить. Ну что ж, всё к лучшему.

Mihaylo · 13.04.2026, 21:56

Topk-пулинг продемонстрировал более интересные результаты, чем аналогичный слой на базе Max-пулинга (когда k=1).

Как происходит жатва:

L_o = \left\lfloor \frac{L_i - window}{stride} \right\rfloor

,

L_o

- размер выходной последовательности,

L_i

- размер входной последовательности (алгоритм относится к типу seq2seq),
где

window

- это размер окна в пределах которого ищутся topk-значения,

stride

- это шаг перемещения окна.

Обычно

stride = 1

, но мне видится полезным устанавливать

stride = 2

и выше, чтобы обеспечить экспоненциальное уменьшение размера последовательности от слоя к слою. Это может позволить обнаруживать достаточно далёкие закономерности в последовательности без полного перебора.

Несколько последовательных слоёв topk-пулинга можно рассматривать как текстовые саммаризаторы, которые из последовательности слов отбирают заголовки всё более высокого уровня от слоя к слою. Так я вижу философию работы слоя.

Почему maxpooling плох? Он немного грубоват и теряет слишком много информации при сжатии. Напомню, я рассматриваю работу усовершенствованного maxpooling, который дополнен позицией максимума (argmax), но этого улучшения недостаточно.

Mihaylo · 17.05.2026, 20:08

Я тут немного обновил теорию и практику нейроструктуры MaxPEPool.

1. Я стал попроще называть эту структуру - это просто "макспулинг с позиционным кодированием" или просто "макспулинг".

2. Во-вторых, макспулинг - это круто, но теперь я шире пробую работать на практике с Topk-pooling - со значимым расширением функциональности слоя.

3. Убрал локальные позиции, они вычисляемы через глобальные, оставил только глобальные позиции - или теперь просто "позиции".

4. Добавил smooth-вариант слоя макспулинга топкпулинга (дифференцируемый вариант). На практике хороши слои со smooth=False (быстрые) и smooth=True (медленнее, но иногда лучше работают).

Ещё чуток подполирую библиотеку topkpooling и выложу в общий доступ. Кстати, аналогичная библиотека softbinning (бывшая softordering), уже готова, тоже заодно выложу в доступ.

Научный форум dxdy

MaxPEPool - жнец данных