token - 96915导航

2026-05-20

2B小模型吊打7B大模型 | 突破传统！视觉感知Token让MLLM自主控制视觉输入

精简阅读版本本文主要解决了什么问题 1. MLLM缺乏对视觉感知过程的自主控制能力：当前多模态大语言模型（MLLM）在处理视觉信息时，依赖于固定的视觉编码流程，无法根据任务需求动态调整感知区域或引入额外的视觉特征。 2. 视觉感知的完整性和准确性影响任务性能：例如在空间推理、细粒度理解等任务中，视觉信息的缺失或误判会显著降低模型表现。 3. 传统方法依赖人工设计流程：现有方法多通过人工标注、图像裁剪或特征增强来提...