← กลับหน้าแรก · 2026-04-09

# 🔍 Q-Zoom — เร่ง MLLM 2.52-4.39 เท่า ไม่เสีย accuracy

# 🔍 Q-Zoom — เร่ง MLLM 2.52-4.39 เท่า ไม่เสีย accuracy

**Source:** arXiv CS.AI — https://arxiv.org/abs/2604.06912

**Score:** 39/50

---

🔍 งานวิจัยใหม่ — เร่ง multimodal LLM ได้ 4 เท่า ในงาน high-res image

ปัญหาเดิม:
MLLM (เช่น GPT-4V, Qwen-VL) ใช้ self-attention ซึ่ง quadratic → รับภาพ high-res = ช้ามาก + เสีย token ไปกับส่วนที่ไม่เกี่ยว

💡 Q-Zoom (Query-Aware Adaptive Perception):
— Dynamic Gating Network — ข้าม high-res processing ที่ไม่จำเป็น
— Self-Distilled Region Proposal — หา task-relevant regions จาก intermediate features
— Coarse-to-fine framework

📊 ตัวเลข:
— 2.52× faster บน Document & OCR benchmarks
— 4.39× faster ใน high-resolution scenarios
— Peak performance +1.1% ถึง +8.1% over baseline (ไม่เสีย accuracy)

🛠 ทำอะไรได้ต่อ:
Project page: yuhengsss.github.io/Q-Zoom/
— Paper + architecture details
— Integrate ได้กับ MLLM ที่คุณใช้อยู่

🧠 เรียนรู้อะไร:
ปัญหา inference cost ของ MLLM แก้ได้ด้วย adaptive perception — ไม่ต้องดูทุก pixel ด้วย attention เท่ากัน เลือกดูเฉพาะส่วนที่ query สนใจ
เหมาะมากสำหรับ production use case: OCR, document Q&A, visual search

📄 arxiv.org/abs/2604.06912

#MLLM #Efficiency #Vision #Research #PowerBoltAI

แชร์: