توضیح: چگونه «مدلهای فضای حالت» انحصار ترنسفورمرها را میشکنند و حافظه نامحدود هوش مصنوعی را فعال میکنند
یک معماری جدید به نام مدلهای فضای حالت (State Space Models) با پردازش خطی اطلاعات، سلطه ترنسفورمرها را به چالش کشیده و به هوش مصنوعی اجازه میدهد تا مجموعهدادههای عظیم را فوراً روی سختافزار استاندارد تحلیل کند.
به قلم تیم سردبیری کوهستان
این خبر را به اشتراک بگذارید
- نوآوران معماری
- محققانی که بر مدلهای فضای حالت خالص تمرکز دارند و استدلال میکنند که گلوگاه درجه دوم ترنسفورمر یک نقص بنیادی است که باید کنار گذاشته شود.
- عملگرایان ترکیبی
- آزمایشگاههای تجاری هوش مصنوعی که معتقدند ترکیب مدلهای فضای حالت با ترنسفورمرها عملیترین مسیر برای تولید است.
- مهندسان استقرار
- کارشناسان زیرساخت که بر اقتصاد سختافزار، محدودیتهای حافظه GPU و هزینههای استنتاج (inference) اجرای هوش مصنوعی در مقیاس بزرگ تمرکز دارند.
زوایای پوششدادهنشده
- · تولیدکنندگان سختافزار (مانند Nvidia، AMD)
- · توسعهدهندگان هوش مصنوعی متنباز
چرا مهم است
با از بین بردن گلوگاه محاسباتی هوش مصنوعی سنتی، مدلهای فضای حالت به هوش مصنوعی اجازه میدهند تا حجم عظیمی از اطلاعات—مانند کل کتابها یا ژنومها—را با کسری از هزینه پردازش کند. این پیشرفت، دسترسی به هوش مصنوعی قدرتمند را دموکراتیزه میکند و اجرای آن را روی سختافزار استاندارد، ارزانتر و سریعتر میسازد.
نکات کلیدی
- معماری ترنسفورمر که نیروی محرکه بیشتر هوش مصنوعی مدرن است، از یک «گلوگاه درجه دوم» رنج میبرد که پردازش متون طولانی را به شدت پرهزینه میکند.
- مدلهای فضای حالت (SSMs) این مشکل را با پردازش خطی دادهها حل میکنند و هزینههای محاسباتی را صرف نظر از طول فرمان ورودی، ثابت نگه میدارند.
- معماری «مامبا» با معرفی یک فیلتر پویا که به صورت انتخابی زمینه حیاتی را به خاطر میسپارد و پرکنندهها را فراموش میکند، مدلهای فضای حالت را با ترنسفورمرها رقابتی کرد.
- آزمایشگاههای تجاری اکنون در حال استقرار مدلهای ترکیبی هستند که سرعت مامبا را با دقت ترنسفورمر ترکیب میکنند و پنجرههای زمینه عظیم ۲۵۶,۰۰۰ توکنی را فعال میسازند.
از سال ۲۰۱۷، مقاله «توجه تنها چیزی است که نیاز دارید» (Attention is All You Need) به انجیل هوش مصنوعی تبدیل شده است. هر مدل بنیادی اصلی—از GPT-4 شرکت OpenAI گرفته تا Gemini گوگل—بر اساس معماری ترنسفورمر ساخته شده است. این موتور، هوش مصنوعی مولد را به دست عموم رساند. اما در حالی که آزمایشگاههای هوش مصنوعی برای پردازش حجم فزایندهای از اطلاعات—کل پایگاههای کد، ویدئوهای یک ساعته و میلیونها خط داده ژنومی—رقابت میکنند، ترنسفورمر در حال برخورد با یک دیوار بنیادی ریاضی است.[1][5]
این دیوار به عنوان «گلوگاه درجه دوم» (quadratic bottleneck) شناخته میشود. مکانیسم اصلی ترنسفورمر «خودتوجهی» (self-attention) است که مدل را ملزم میکند تا هر توکن (کلمه یا قطعه) در یک دنباله را با هر توکن دیگری مقایسه کند تا زمینه را درک کند. اگر طول یک فرمان ورودی دو برابر شود، کار محاسباتی دو برابر نمیشود—بلکه چهار برابر میشود.[3][4]
در عمل، این مقیاسپذیری تصاعدی یک بحران جدی حافظه و هزینه ایجاد میکند. هنگامی که کاربر یک سند ۱۰۰,۰۰۰ کلمهای را بارگذاری میکند، ترنسفورمر باید یک «حافظه پنهان کلید-مقدار (KV cache)» عظیم را در حافظه واحد پردازش گرافیکی (GPU) ذخیره کند. با بزرگ شدن پنجره زمینه (context window)، سرعت مدل به شدت کاهش مییابد و هزینه اجرای آن سر به فلک میکشد. صنعت هوش مصنوعی این گلوگاه را با ترفندهای مهندسی هوشمندانه مدیریت کرده است، اما مالیات ریاضی زیربنایی همچنان پابرجاست.[3][5]
در اینجا مدل فضای حالت (SSM) وارد میشود. مدلهای فضای حالت که ریشه در نظریه کنترل و پردازش سیگنال دهه ۱۹۶۰ دارند، در اصل برای ردیابی سیستمهای دینامیکی در طول زمان، مانند مسیر یک فضاپیما، طراحی شده بودند. برخلاف ترنسفورمرها، مدلهای فضای حالت اطلاعات را به صورت خطی پردازش میکنند. با طولانیتر شدن یک دنباله، هزینه محاسباتی با نرخ ثابت و یکنواخت رشد میکند و کسری از حافظه را نیاز دارد.[4][5]
با این حال، برای سالها، مدلهای فضای حالت نتوانستند با قابلیتهای درک زبان ترنسفورمرها برابری کنند. آنها از «ناوردایی زمانی خطی» (Linear Time Invariance) رنج میبردند—به این معنی که هر قطعه داده ورودی را با همان ماتریسهای ریاضی ثابت پردازش میکردند. یک خط مونتاژ را تصور کنید که با یک دستورالعمل حیاتی و یک کلمه پرکننده بیمعنی با سطح اولویت یکسان رفتار میکند. از آنجایی که نمیتوانستند اطلاعات را به صورت پویا فیلتر کنند، مدلهای فضای حالت اولیه در استدلالهای پیچیده مشکل داشتند.[3][4]
این وضعیت در اواخر سال ۲۰۲۳ با معرفی «مامبا» (Mamba)، یک معماری که توسط محققان آلبرت گو (Albert Gu) و تری دائو (Tri Dao) توسعه داده شد، تغییر کرد. پیشرفت آنها مکانیزمی به نام «فضاهای حالت انتخابی» (Selective State Spaces) بود که اساساً نحوه مدیریت دادههای ورودی توسط مدل را بازسازی کرد.[1][5]
این وضعیت در اواخر سال ۲۰۲۳ با معرفی «مامبا» (Mamba)، یک معماری که توسط محققان آلبرت گو (Albert Gu) و تری دائو (Tri Dao) توسعه داده شد، تغییر کرد.
مامبا یک فیلتر پویا به مدل فضای حالت داد. به جای اعمال قوانین ثابت بر روی هر توکن، پارامترهای مامبا بر اساس ورودی تطبیق مییابند. مدل یاد میگیرد که به صورت انتخابی زمینه حیاتی را «به خاطر بسپارد» و پرکنندههای نامربوط را «فراموش کند». این فشردهسازی انتخابی به مامبا اجازه داد تا به هدف نهایی دست یابد: کارایی خطی یک مدل فضای حالت همراه با استدلال زمینهای یک ترنسفورمر.[1][4]
اما نوآوری نرمافزاری مامبا تنها نیمی از معادله بود. گو و دائو همچنین یک «اسکن موازی آگاه از سختافزار» را معرفی کردند. واحدهای پردازش گرافیکی (GPU) مدرن دو نوع حافظه دارند: یک حافظه عظیم اما کند با پهنای باند بالا (HBM)، و یک حافظه دسترسی تصادفی ایستا (SRAM) کوچک اما فوقالعاده سریع.[4]
مامبا به طور صریح برای بهرهبرداری از این سلسله مراتب سختافزاری طراحی شده است. با ادغام عملیاتها، این معماری حالت فعال را در داخل SRAM فوقالعاده سریع نگه میدارد و انتقال کند دادهها را که معمولاً گلوگاه استنتاج (inference) هوش مصنوعی هستند، به حداقل میرساند. نتیجه، مدلی است که میتواند متن را تا پنج برابر سریعتر از یک ترنسفورمر با اندازه مشابه تولید کند، در حالی که کسری از حافظه GPU را استفاده میکند.[1][5]
صنعت هوش مصنوعی به سرعت متوجه این موضوع شد، اما محققان به زودی دریافتند که مدلهای خالص مامبا هنوز یک ضعف کوچک دارند. در حالی که آنها در منطق پیوسته و پردازش زمینه طولانی عالی بودند، ترنسفورمرها همچنان در «بازیابی تداعیگر» (associative recall)—توانایی بیرون کشیدن فوری یک واقعیت خاص و مجزا از عمق دادههای آموزشی خود—برتری داشتند.[2][4]
راهحل در قالب معماریهای ترکیبی (هیبریدی) ظاهر شد. شرکتهایی مانند AI21 Labs با «جامبا» (Jamba)، یک مدل در سطح تولید که لایههای مامبا را با لایههای توجه ترنسفورمر سنتی در هم میآمیزد، پیشگام این رویکرد شدند.[2]
با ترکیب این دو، جامبا بهترین ویژگیهای هر دو دنیا را به دست میآورد. لایههای ترنسفورمر کار سنگین بازیابی تداعیگر را انجام میدهند، در حالی که لایههای مامبا بخش عمده دنباله را به صورت خطی پردازش میکنند. این رویکرد ترکیبی به AI21 اجازه داد تا یک پنجره زمینه عظیم ۲۵۶,۰۰۰ توکنی—که برای پردازش یک رمان ۴۰۰ صفحهای کافی است—را ارائه دهد، در حالی که سرعت استنتاج را تا ۲.۵ برابر سریعتر از ترنسفورمرهای خالص ارائه میدهد.[2][6]
ظهور مامبا و مدلهای فضای حالت ترکیبی نشاندهنده یک تغییر محوری در اقتصاد هوش مصنوعی است. همانطور که صنعت از آموزش مدلهای عظیم به سمت استقرار آنها در مقیاس بزرگ حرکت میکند، هزینه اجرای هوش مصنوعی به محدودیت اصلی نوآوری تبدیل شده است.[5][6]
با شکستن گلوگاه درجه دوم، مدلهای فضای حالت در حال دموکراتیزه کردن دسترسی به هوش مصنوعی در سطح مرزی هستند. آنها به مدلهای عظیم با زمینه طولانی اجازه میدهند تا به راحتی روی سختافزارهای ارزانتر و در دسترس اجرا شوند و راه را برای عوامل هوش مصنوعی هموار میکنند که میتوانند جریانهای داده زنده را به طور مداوم نظارت کنند، کل پایگاههای داده شرکتی را تحلیل کنند و توالیهای ژنومی پیچیده را بدون ورشکست کردن اپراتورهایشان پردازش کنند.[5][6]
روند رویداد
1960s
مدلهای فضای حالت برای نظریه کنترل و پردازش سیگنال توسعه یافتند.
2017
محققان گوگل مقاله «توجه تنها چیزی است که نیاز دارید» را منتشر کردند و ترنسفورمر را تثبیت کردند.
Dec 2023
آلبرت گو و تری دائو مقاله مامبا را منتشر کردند و فضاهای حالت انتخابی را معرفی کردند.
Mar 2024
AI21 Labs جامبا، اولین مدل ترکیبی SSM-ترنسفورمر در سطح تولید، را منتشر کرد.
Mid 2024
مامبا-۲ منتشر شد و معماری را برای GPUهای مدرن بیشتر بهینهسازی کرد.
بررسی عمیق دیدگاهها
نوآوران معماری
محققانی که بر مدلهای فضای حالت خالص تمرکز دارند، استدلال میکنند که گلوگاه درجه دوم ترنسفورمر یک نقص بنیادی است که باید کنار گذاشته شود.
طرفداران مدلهای فضای حالت خالص معتقدند که با پالایش بیشتر، معماریهایی مانند مامبا میتوانند در همه زمینهها با ترنسفورمرها برابری کرده یا از آنها پیشی بگیرند و نیاز به مکانیسمهای توجه با مصرف حافظه بالا را به طور کامل از بین ببرند. آنها مقیاسبندی خطی مدلهای فضای حالت را نه تنها به عنوان یک بهینهسازی، بلکه به عنوان پایه و اساس ضروری برای نسل بعدی هوش مصنوعی میبینند.
عملگرایان ترکیبی
آزمایشگاههای تجاری هوش مصنوعی استدلال میکنند که روی هم قرار دادن لایههای مامبا و ترنسفورمر عملیترین مسیر برای تولید است.
در حالی که این توسعهدهندگان اذعان دارند که مدلهای فضای حالت به طرز باورنکردنی کارآمد هستند، اشاره میکنند که ترنسفورمرها همچنان دارای توانایی منحصر به فردی برای انجام «بازیابی تداعیگر» هستند—بازیابی فوری یک واقعیت خاص از عمق یک دنباله. آنها از معماریهای ترکیبی حمایت میکنند تا به مقیاسبندی خطی دست یابند بدون اینکه دقت بازیابی مورد نیاز برای کاربردهای سازمانی را قربانی کنند.
مهندسان استقرار
کارشناسان زیرساخت مدلهای فضای حالت را در درجه اول به عنوان یک اقدام حیاتی برای کاهش هزینه اجرای هوش مصنوعی در مقیاس بزرگ میبینند.
برای مهندسانی که واقعاً هوش مصنوعی را در مراکز داده اجرا میکنند، خلوص معماری کمتر از اقتصاد واحد اهمیت دارد. آنها تأکید میکنند که توانایی نگه داشتن حالت فعال مدل در داخل SRAM فوقالعاده سریع GPU، به شدت تأخیر و هزینههای انرژی ارائه خدمات هوش مصنوعی به میلیونها کاربر را کاهش میدهد و استقرار گسترده را از نظر مالی امکانپذیر میسازد.
آنچه نمیدانیم
- اینکه آیا مدلهای فضای حالت خالص در نهایت میتوانند در وظایف استدلال منطقی پیچیده و چند مرحلهای با ترنسفورمرها برابری کنند یا خیر.
- قوانین مقیاسبندی معماریهای ترکیبی مدل فضای حالت چگونه در هنگام آموزش در مقیاس چند تریلیون پارامتری مدلهایی مانند GPT-4 عمل خواهند کرد.
اصطلاحات کلیدی
- مدل فضای حالت (SSM)
- یک چارچوب ریاضی از نظریه کنترل که نحوه تکامل یک حالت پنهان در طول زمان را مدلسازی میکند و دنبالهها را به صورت خطی پردازش میکند.
- خودتوجهی (Self-Attention)
- مکانیسم اصلی یک ترنسفورمر که هر کلمه در یک دنباله را با هر کلمه دیگری مقایسه میکند تا زمینه را درک کند.
- گلوگاه درجه دوم
- محدودیت ریاضی که در آن دو برابر شدن اندازه ورودی، هزینه محاسباتی را چهار برابر میکند.
- فضاهای حالت انتخابی
- نوآوری مامبا که به مدل اجازه میدهد اطلاعات را به صورت پویا فیلتر کند، آنچه مهم است را به خاطر بسپارد و پرکنندهها را فراموش کند.
- حافظه پنهان KV
- بانک حافظهای که ترنسفورمرها زمینه یک مکالمه را در آن ذخیره میکنند و با طولانیتر شدن فرمانهای ورودی به شدت رشد میکند.
پرسشهای متداول
آیا مامبا به طور کامل جایگزین ترنسفورمرها خواهد شد؟
در کوتاهمدت بعید است. صنعت در حال حاضر مدلهای ترکیبی را ترجیح میدهد که سرعت مامبا را با توانایی ترنسفورمر در بازیابی حقایق خاص ترکیب میکنند.
چرا مقیاسبندی خطی اهمیت دارد؟
این امر به مدلهای هوش مصنوعی اجازه میدهد تا کل کتابها، پایگاههای کد یا ژنومها را به یکباره بخوانند بدون اینکه حافظه تمام شود یا هزینه زیادی برای قدرت محاسباتی صرف شود.
آیا امروز میتوانم از مدل مامبا استفاده کنم؟
بله. چندین مدل متنباز، از جمله جامبا از AI21 و Codestral Mamba از Mistral، برای استفاده توسعهدهندگان در دسترس هستند.
منابع
[1]arXivنوآوران معماری
Mamba: Linear-Time Sequence Modeling with Selective State Spaces
مطالعه در arXiv →[2]AI21 Labsعملگرایان ترکیبی
Announcing Jamba: The world's first production-grade Mamba-style model
مطالعه در AI21 Labs →[3]The Gradientنوآوران معماری
Is Attention all you need? Mamba, a novel AI model based on State Space Models
مطالعه در The Gradient →[4]Mamba Authorityنوآوران معماری
Mamba Architecture: State Space Models Explained
مطالعه در Mamba Authority →[5]IBMمهندسان استقرار
What is Mamba?
مطالعه در IBM →[6]Factlen Editorial Teamمهندسان استقرار
Synthesis by Factlen editorial team
مطالعه در Factlen Editorial Team →
بیشتر در هوش مصنوعی
مشاهده همه 5 خبر →جنگ سایبری
بازنگری اساسی ژاپن در استراتژی ملی هوش مصنوعی برای مقابله با تسلیحات سایبری مبتنی بر هوش مصنوعی
7 sources
مقررات هوش مصنوعی
کالیفرنیا «قانون شفافیت در هوش مصنوعی مرزی» را تصویب کرد؛ تعیین استانداردهای ایمنی برای مدلهای عظیم
7 sources
معماری GPT-5
اوپنایآی از GPT-5 رونمایی کرد؛ با قابلیت «برنامهریزی نوظهور» و رفتارهای پیشبینینشده
8 sources
هر زاویه. هر روز.
دریافت هوش مصنوعی اخبار همراه با پوشش کامل منابع و تحلیل دیدگاهها، مستقیم در صندوق ورودی شما.











