توضیح کوهستانمدل‌های فضای حالتتوضیحJul 5, 2026, 3:21 AM· 5 دقیقه مطالعه· #3 از 5 در هوش مصنوعی

توضیح: چگونه «مدل‌های فضای حالت» انحصار ترنسفورمرها را می‌شکنند و حافظه نامحدود هوش مصنوعی را فعال می‌کنند

یک معماری جدید به نام مدل‌های فضای حالت (State Space Models) با پردازش خطی اطلاعات، سلطه ترنسفورمرها را به چالش کشیده و به هوش مصنوعی اجازه می‌دهد تا مجموعه‌داده‌های عظیم را فوراً روی سخت‌افزار استاندارد تحلیل کند.

به قلم تیم سردبیری کوهستان

نوآوران معماری 40%عمل‌گرایان ترکیبی 35%مهندسان استقرار 25%
نوآوران معماری
محققانی که بر مدل‌های فضای حالت خالص تمرکز دارند و استدلال می‌کنند که گلوگاه درجه دوم ترنسفورمر یک نقص بنیادی است که باید کنار گذاشته شود.
عمل‌گرایان ترکیبی
آزمایشگاه‌های تجاری هوش مصنوعی که معتقدند ترکیب مدل‌های فضای حالت با ترنسفورمرها عملی‌ترین مسیر برای تولید است.
مهندسان استقرار
کارشناسان زیرساخت که بر اقتصاد سخت‌افزار، محدودیت‌های حافظه GPU و هزینه‌های استنتاج (inference) اجرای هوش مصنوعی در مقیاس بزرگ تمرکز دارند.

زوایای پوشش‌داده‌نشده

  • · تولیدکنندگان سخت‌افزار (مانند Nvidia، AMD)
  • · توسعه‌دهندگان هوش مصنوعی متن‌باز

چرا مهم است

با از بین بردن گلوگاه محاسباتی هوش مصنوعی سنتی، مدل‌های فضای حالت به هوش مصنوعی اجازه می‌دهند تا حجم عظیمی از اطلاعات—مانند کل کتاب‌ها یا ژنوم‌ها—را با کسری از هزینه پردازش کند. این پیشرفت، دسترسی به هوش مصنوعی قدرتمند را دموکراتیزه می‌کند و اجرای آن را روی سخت‌افزار استاندارد، ارزان‌تر و سریع‌تر می‌سازد.

نکات کلیدی

  • معماری ترنسفورمر که نیروی محرکه بیشتر هوش مصنوعی مدرن است، از یک «گلوگاه درجه دوم» رنج می‌برد که پردازش متون طولانی را به شدت پرهزینه می‌کند.
  • مدل‌های فضای حالت (SSMs) این مشکل را با پردازش خطی داده‌ها حل می‌کنند و هزینه‌های محاسباتی را صرف نظر از طول فرمان ورودی، ثابت نگه می‌دارند.
  • معماری «مامبا» با معرفی یک فیلتر پویا که به صورت انتخابی زمینه حیاتی را به خاطر می‌سپارد و پرکننده‌ها را فراموش می‌کند، مدل‌های فضای حالت را با ترنسفورمرها رقابتی کرد.
  • آزمایشگاه‌های تجاری اکنون در حال استقرار مدل‌های ترکیبی هستند که سرعت مامبا را با دقت ترنسفورمر ترکیب می‌کنند و پنجره‌های زمینه عظیم ۲۵۶,۰۰۰ توکنی را فعال می‌سازند.
O(n²)
مقیاس‌بندی محاسباتی ترنسفورمر
O(n)
مقیاس‌بندی محاسباتی SSM
5x
افزایش توان عملیاتی مامبا
256,000
پنجره زمینه جامبا (توکن)
2.5x
افزایش سرعت استنتاج ترکیبی

از سال ۲۰۱۷، مقاله «توجه تنها چیزی است که نیاز دارید» (Attention is All You Need) به انجیل هوش مصنوعی تبدیل شده است. هر مدل بنیادی اصلی—از GPT-4 شرکت OpenAI گرفته تا Gemini گوگل—بر اساس معماری ترنسفورمر ساخته شده است. این موتور، هوش مصنوعی مولد را به دست عموم رساند. اما در حالی که آزمایشگاه‌های هوش مصنوعی برای پردازش حجم فزاینده‌ای از اطلاعات—کل پایگاه‌های کد، ویدئوهای یک ساعته و میلیون‌ها خط داده ژنومی—رقابت می‌کنند، ترنسفورمر در حال برخورد با یک دیوار بنیادی ریاضی است.[1][5]

این دیوار به عنوان «گلوگاه درجه دوم» (quadratic bottleneck) شناخته می‌شود. مکانیسم اصلی ترنسفورمر «خودتوجهی» (self-attention) است که مدل را ملزم می‌کند تا هر توکن (کلمه یا قطعه) در یک دنباله را با هر توکن دیگری مقایسه کند تا زمینه را درک کند. اگر طول یک فرمان ورودی دو برابر شود، کار محاسباتی دو برابر نمی‌شود—بلکه چهار برابر می‌شود.[3][4]

در عمل، این مقیاس‌پذیری تصاعدی یک بحران جدی حافظه و هزینه ایجاد می‌کند. هنگامی که کاربر یک سند ۱۰۰,۰۰۰ کلمه‌ای را بارگذاری می‌کند، ترنسفورمر باید یک «حافظه پنهان کلید-مقدار (KV cache)» عظیم را در حافظه واحد پردازش گرافیکی (GPU) ذخیره کند. با بزرگ شدن پنجره زمینه (context window)، سرعت مدل به شدت کاهش می‌یابد و هزینه اجرای آن سر به فلک می‌کشد. صنعت هوش مصنوعی این گلوگاه را با ترفندهای مهندسی هوشمندانه مدیریت کرده است، اما مالیات ریاضی زیربنایی همچنان پابرجاست.[3][5]

در اینجا مدل فضای حالت (SSM) وارد می‌شود. مدل‌های فضای حالت که ریشه در نظریه کنترل و پردازش سیگنال دهه ۱۹۶۰ دارند، در اصل برای ردیابی سیستم‌های دینامیکی در طول زمان، مانند مسیر یک فضاپیما، طراحی شده بودند. برخلاف ترنسفورمرها، مدل‌های فضای حالت اطلاعات را به صورت خطی پردازش می‌کنند. با طولانی‌تر شدن یک دنباله، هزینه محاسباتی با نرخ ثابت و یکنواخت رشد می‌کند و کسری از حافظه را نیاز دارد.[4][5]

با این حال، برای سال‌ها، مدل‌های فضای حالت نتوانستند با قابلیت‌های درک زبان ترنسفورمرها برابری کنند. آنها از «ناوردایی زمانی خطی» (Linear Time Invariance) رنج می‌بردند—به این معنی که هر قطعه داده ورودی را با همان ماتریس‌های ریاضی ثابت پردازش می‌کردند. یک خط مونتاژ را تصور کنید که با یک دستورالعمل حیاتی و یک کلمه پرکننده بی‌معنی با سطح اولویت یکسان رفتار می‌کند. از آنجایی که نمی‌توانستند اطلاعات را به صورت پویا فیلتر کنند، مدل‌های فضای حالت اولیه در استدلال‌های پیچیده مشکل داشتند.[3][4]

این وضعیت در اواخر سال ۲۰۲۳ با معرفی «مامبا» (Mamba)، یک معماری که توسط محققان آلبرت گو (Albert Gu) و تری دائو (Tri Dao) توسعه داده شد، تغییر کرد. پیشرفت آنها مکانیزمی به نام «فضاهای حالت انتخابی» (Selective State Spaces) بود که اساساً نحوه مدیریت داده‌های ورودی توسط مدل را بازسازی کرد.[1][5]

این وضعیت در اواخر سال ۲۰۲۳ با معرفی «مامبا» (Mamba)، یک معماری که توسط محققان آلبرت گو (Albert Gu) و تری دائو (Tri Dao) توسعه داده شد، تغییر کرد.

مامبا یک فیلتر پویا به مدل فضای حالت داد. به جای اعمال قوانین ثابت بر روی هر توکن، پارامترهای مامبا بر اساس ورودی تطبیق می‌یابند. مدل یاد می‌گیرد که به صورت انتخابی زمینه حیاتی را «به خاطر بسپارد» و پرکننده‌های نامربوط را «فراموش کند». این فشرده‌سازی انتخابی به مامبا اجازه داد تا به هدف نهایی دست یابد: کارایی خطی یک مدل فضای حالت همراه با استدلال زمینه‌ای یک ترنسفورمر.[1][4]

اما نوآوری نرم‌افزاری مامبا تنها نیمی از معادله بود. گو و دائو همچنین یک «اسکن موازی آگاه از سخت‌افزار» را معرفی کردند. واحدهای پردازش گرافیکی (GPU) مدرن دو نوع حافظه دارند: یک حافظه عظیم اما کند با پهنای باند بالا (HBM)، و یک حافظه دسترسی تصادفی ایستا (SRAM) کوچک اما فوق‌العاده سریع.[4]

مامبا به طور صریح برای بهره‌برداری از این سلسله مراتب سخت‌افزاری طراحی شده است. با ادغام عملیات‌ها، این معماری حالت فعال را در داخل SRAM فوق‌العاده سریع نگه می‌دارد و انتقال کند داده‌ها را که معمولاً گلوگاه استنتاج (inference) هوش مصنوعی هستند، به حداقل می‌رساند. نتیجه، مدلی است که می‌تواند متن را تا پنج برابر سریع‌تر از یک ترنسفورمر با اندازه مشابه تولید کند، در حالی که کسری از حافظه GPU را استفاده می‌کند.[1][5]

صنعت هوش مصنوعی به سرعت متوجه این موضوع شد، اما محققان به زودی دریافتند که مدل‌های خالص مامبا هنوز یک ضعف کوچک دارند. در حالی که آنها در منطق پیوسته و پردازش زمینه طولانی عالی بودند، ترنسفورمرها همچنان در «بازیابی تداعی‌گر» (associative recall)—توانایی بیرون کشیدن فوری یک واقعیت خاص و مجزا از عمق داده‌های آموزشی خود—برتری داشتند.[2][4]

راه‌حل در قالب معماری‌های ترکیبی (هیبریدی) ظاهر شد. شرکت‌هایی مانند AI21 Labs با «جامبا» (Jamba)، یک مدل در سطح تولید که لایه‌های مامبا را با لایه‌های توجه ترنسفورمر سنتی در هم می‌آمیزد، پیشگام این رویکرد شدند.[2]

با ترکیب این دو، جامبا بهترین ویژگی‌های هر دو دنیا را به دست می‌آورد. لایه‌های ترنسفورمر کار سنگین بازیابی تداعی‌گر را انجام می‌دهند، در حالی که لایه‌های مامبا بخش عمده دنباله را به صورت خطی پردازش می‌کنند. این رویکرد ترکیبی به AI21 اجازه داد تا یک پنجره زمینه عظیم ۲۵۶,۰۰۰ توکنی—که برای پردازش یک رمان ۴۰۰ صفحه‌ای کافی است—را ارائه دهد، در حالی که سرعت استنتاج را تا ۲.۵ برابر سریع‌تر از ترنسفورمرهای خالص ارائه می‌دهد.[2][6]

ظهور مامبا و مدل‌های فضای حالت ترکیبی نشان‌دهنده یک تغییر محوری در اقتصاد هوش مصنوعی است. همانطور که صنعت از آموزش مدل‌های عظیم به سمت استقرار آنها در مقیاس بزرگ حرکت می‌کند، هزینه اجرای هوش مصنوعی به محدودیت اصلی نوآوری تبدیل شده است.[5][6]

با شکستن گلوگاه درجه دوم، مدل‌های فضای حالت در حال دموکراتیزه کردن دسترسی به هوش مصنوعی در سطح مرزی هستند. آنها به مدل‌های عظیم با زمینه طولانی اجازه می‌دهند تا به راحتی روی سخت‌افزارهای ارزان‌تر و در دسترس اجرا شوند و راه را برای عوامل هوش مصنوعی هموار می‌کنند که می‌توانند جریان‌های داده زنده را به طور مداوم نظارت کنند، کل پایگاه‌های داده شرکتی را تحلیل کنند و توالی‌های ژنومی پیچیده را بدون ورشکست کردن اپراتورهایشان پردازش کنند.[5][6]

روند رویداد

  1. 1960s

    مدل‌های فضای حالت برای نظریه کنترل و پردازش سیگنال توسعه یافتند.

  2. 2017

    محققان گوگل مقاله «توجه تنها چیزی است که نیاز دارید» را منتشر کردند و ترنسفورمر را تثبیت کردند.

  3. Dec 2023

    آلبرت گو و تری دائو مقاله مامبا را منتشر کردند و فضاهای حالت انتخابی را معرفی کردند.

  4. Mar 2024

    AI21 Labs جامبا، اولین مدل ترکیبی SSM-ترنسفورمر در سطح تولید، را منتشر کرد.

  5. Mid 2024

    مامبا-۲ منتشر شد و معماری را برای GPUهای مدرن بیشتر بهینه‌سازی کرد.

بررسی عمیق دیدگاه‌ها

نوآوران معماری

محققانی که بر مدل‌های فضای حالت خالص تمرکز دارند، استدلال می‌کنند که گلوگاه درجه دوم ترنسفورمر یک نقص بنیادی است که باید کنار گذاشته شود.

طرفداران مدل‌های فضای حالت خالص معتقدند که با پالایش بیشتر، معماری‌هایی مانند مامبا می‌توانند در همه زمینه‌ها با ترنسفورمرها برابری کرده یا از آنها پیشی بگیرند و نیاز به مکانیسم‌های توجه با مصرف حافظه بالا را به طور کامل از بین ببرند. آنها مقیاس‌بندی خطی مدل‌های فضای حالت را نه تنها به عنوان یک بهینه‌سازی، بلکه به عنوان پایه و اساس ضروری برای نسل بعدی هوش مصنوعی می‌بینند.

عمل‌گرایان ترکیبی

آزمایشگاه‌های تجاری هوش مصنوعی استدلال می‌کنند که روی هم قرار دادن لایه‌های مامبا و ترنسفورمر عملی‌ترین مسیر برای تولید است.

در حالی که این توسعه‌دهندگان اذعان دارند که مدل‌های فضای حالت به طرز باورنکردنی کارآمد هستند، اشاره می‌کنند که ترنسفورمرها همچنان دارای توانایی منحصر به فردی برای انجام «بازیابی تداعی‌گر» هستند—بازیابی فوری یک واقعیت خاص از عمق یک دنباله. آنها از معماری‌های ترکیبی حمایت می‌کنند تا به مقیاس‌بندی خطی دست یابند بدون اینکه دقت بازیابی مورد نیاز برای کاربردهای سازمانی را قربانی کنند.

مهندسان استقرار

کارشناسان زیرساخت مدل‌های فضای حالت را در درجه اول به عنوان یک اقدام حیاتی برای کاهش هزینه اجرای هوش مصنوعی در مقیاس بزرگ می‌بینند.

برای مهندسانی که واقعاً هوش مصنوعی را در مراکز داده اجرا می‌کنند، خلوص معماری کمتر از اقتصاد واحد اهمیت دارد. آنها تأکید می‌کنند که توانایی نگه داشتن حالت فعال مدل در داخل SRAM فوق‌العاده سریع GPU، به شدت تأخیر و هزینه‌های انرژی ارائه خدمات هوش مصنوعی به میلیون‌ها کاربر را کاهش می‌دهد و استقرار گسترده را از نظر مالی امکان‌پذیر می‌سازد.

آنچه نمی‌دانیم

  • اینکه آیا مدل‌های فضای حالت خالص در نهایت می‌توانند در وظایف استدلال منطقی پیچیده و چند مرحله‌ای با ترنسفورمرها برابری کنند یا خیر.
  • قوانین مقیاس‌بندی معماری‌های ترکیبی مدل فضای حالت چگونه در هنگام آموزش در مقیاس چند تریلیون پارامتری مدل‌هایی مانند GPT-4 عمل خواهند کرد.

اصطلاحات کلیدی

مدل فضای حالت (SSM)
یک چارچوب ریاضی از نظریه کنترل که نحوه تکامل یک حالت پنهان در طول زمان را مدل‌سازی می‌کند و دنباله‌ها را به صورت خطی پردازش می‌کند.
خودتوجهی (Self-Attention)
مکانیسم اصلی یک ترنسفورمر که هر کلمه در یک دنباله را با هر کلمه دیگری مقایسه می‌کند تا زمینه را درک کند.
گلوگاه درجه دوم
محدودیت ریاضی که در آن دو برابر شدن اندازه ورودی، هزینه محاسباتی را چهار برابر می‌کند.
فضاهای حالت انتخابی
نوآوری مامبا که به مدل اجازه می‌دهد اطلاعات را به صورت پویا فیلتر کند، آنچه مهم است را به خاطر بسپارد و پرکننده‌ها را فراموش کند.
حافظه پنهان KV
بانک حافظه‌ای که ترنسفورمرها زمینه یک مکالمه را در آن ذخیره می‌کنند و با طولانی‌تر شدن فرمان‌های ورودی به شدت رشد می‌کند.

پرسش‌های متداول

آیا مامبا به طور کامل جایگزین ترنسفورمرها خواهد شد؟

در کوتاه‌مدت بعید است. صنعت در حال حاضر مدل‌های ترکیبی را ترجیح می‌دهد که سرعت مامبا را با توانایی ترنسفورمر در بازیابی حقایق خاص ترکیب می‌کنند.

چرا مقیاس‌بندی خطی اهمیت دارد؟

این امر به مدل‌های هوش مصنوعی اجازه می‌دهد تا کل کتاب‌ها، پایگاه‌های کد یا ژنوم‌ها را به یکباره بخوانند بدون اینکه حافظه تمام شود یا هزینه زیادی برای قدرت محاسباتی صرف شود.

آیا امروز می‌توانم از مدل مامبا استفاده کنم؟

بله. چندین مدل متن‌باز، از جمله جامبا از AI21 و Codestral Mamba از Mistral، برای استفاده توسعه‌دهندگان در دسترس هستند.

منابع

پوشش منابع

6 منبع

3 دیدگاه شناسایی‌شده

نوآوران معماری 40%عمل‌گرایان ترکیبی 35%مهندسان استقرار 25%
  1. [1]arXivنوآوران معماری

    Mamba: Linear-Time Sequence Modeling with Selective State Spaces

    مطالعه در arXiv
  2. [2]AI21 Labsعمل‌گرایان ترکیبی

    Announcing Jamba: The world's first production-grade Mamba-style model

    مطالعه در AI21 Labs
  3. [3]The Gradientنوآوران معماری

    Is Attention all you need? Mamba, a novel AI model based on State Space Models

    مطالعه در The Gradient
  4. [4]Mamba Authorityنوآوران معماری

    Mamba Architecture: State Space Models Explained

    مطالعه در Mamba Authority
  5. [5]IBMمهندسان استقرار

    What is Mamba?

    مطالعه در IBM
  6. [6]Factlen Editorial Teamمهندسان استقرار

    Synthesis by Factlen editorial team

    مطالعه در Factlen Editorial Team
همیشه در جریان باشید

هر زاویه. هر روز.

دریافت هوش مصنوعی اخبار همراه با پوشش کامل منابع و تحلیل دیدگاه‌ها، مستقیم در صندوق ورودی شما.