Методы оптимизации производительности LLM систем

High-trade · 13.05.2026, 14:52

Здравствуйте. Использую связку OpenCode и LM Studio. Применяю Qwen 3.6 35B. Хочу распараллелить нагрузку на несколько машин. Нашел 2 подхода:
1) разбрасывать запросы из OpenCode по IP адресам разных машин
2) Ставить систему, которая объединяет машины в кластеры, например EXO -https://github.com/exo-explore/exo

Кто какие методы использует, предлагаю обсудить. Оценить перспективы развития локальных LLM. По моим наблюдениям LLM требует многих навыков в обслуживании - это должно увеличить спрос на новые курсы и специальности..

Научный форум dxdy

Методы оптимизации производительности LLM систем