[2511.01831] Routing-Based Continual Learning for Multimodal Large

[2511.01831] Routing-Based Continual Learning for Multimodal Large Language Models

arXiv - AI April 08, 2026 4 min read

About this article

Abstract page for arXiv paper 2511.01831: Routing-Based Continual Learning for Multimodal Large Language Models

Computer Science > Machine Learning arXiv:2511.01831 (cs) [Submitted on 3 Nov 2025 (v1), last revised 6 Apr 2026 (this version, v3)] Title:Routing-Based Continual Learning for Multimodal Large Language Models Authors:Jay Mohta, Kenan Emir Ak, Gwang Lee, Dimitrios Dimitriadis, Yan Xu, Mingwei Shen View a PDF of the paper titled Routing-Based Continual Learning for Multimodal Large Language Models, by Jay Mohta and 5 other authors View PDF HTML (experimental) Abstract:Multimodal Large Language Models (MLLMs) struggle with continual learning, often suffering from catastrophic forgetting when adapting to sequential tasks. We introduce a routing-based architecture that integrates new capabilities while robustly preserving foundational knowledge. While Multi-Task Learning (MTL) offers a theoretical performance upper bound, it incurs a linearly scaling computational overhead as the number of tasks increases. In contrast, our method maintains fixed data and compute requirements regardless of the task sequence length. Across models ranging from 2B to 8B parameters, we demonstrate that our routing approach performs on par with MTL while retaining the training efficiency of sequential fine-tuning. Beyond merely mitigating forgetting, we observe that token-level routing facilitates cross-modal transfer, leveraging knowledge from one modality to bolster performance in another. Ablation studies confirm the approach's scalability: routing remains robust even with large expert pools and e...

Originally published on April 08, 2026. Curated by AI News.

Llms

[2602.06869] Uncovering Cross-Objective Interference in Multi-Objective Alignment

Abstract page for arXiv paper 2602.06869: Uncovering Cross-Objective Interference in Multi-Objective Alignment

arXiv - Machine Learning · 3 min · 12 minutes ago

Llms

[2512.14954] Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation

Abstract page for arXiv paper 2512.14954: Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation

arXiv - Machine Learning · 4 min · 12 minutes ago

Llms

[2603.08022] Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

Abstract page for arXiv paper 2603.08022: Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

arXiv - Machine Learning · 4 min · 12 minutes ago

Llms

[2505.00753] LLM-Based Human-Agent Collaboration and Interaction Systems: A Survey

Abstract page for arXiv paper 2505.00753: LLM-Based Human-Agent Collaboration and Interaction Systems: A Survey

arXiv - Machine Learning · 4 min · 12 minutes ago

[2511.01831] Routing-Based Continual Learning for Multimodal Large Language Models

About this article

Related Articles

[2602.06869] Uncovering Cross-Objective Interference in Multi-Objective Alignment

[2512.14954] Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation

[2603.08022] Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

[2505.00753] LLM-Based Human-Agent Collaboration and Interaction Systems: A Survey

No comments

Stay updated with AI News