استارتاپ Subquadratic مدعی پنجره متنی ۱۲ میلیون توکنی برای مدلهای زبان بزرگ با استفاده از توجه پراکنده شد
استارتاپ Subquadratic مستقر در میامی، از یک مدل هوش مصنوعی رونمایی کرده است که با کنار گذاشتن مکانیسم سنتی «توجه متراکم» (Dense Attention)، قادر است ۱۲ میلیون توکن را به طور همزمان پردازش کند. گزارش شده است که معماری جدید «توجه پراکنده» (Sparse Attention) هزینههای محاسباتی را ۶۴ برابر کاهش میدهد، اگرچه محققان اشاره میکنند که این مدل بر اساس وزنهای موجود منبع باز (open-source) ساخته شده است.
به قلم تیم سردبیری کوهستان
این خبر را به اشتراک بگذارید
- خوشبینان هوش مصنوعی و توسعهدهندگان
- تمرکز بر توانایی عملی برای دور زدن RAG و بارگذاری مستقیم پایگاههای کد عظیم در حافظه.
- محققان شکاک
- تأکید بر نیاز به تأیید مستقل و انتقاد از بازاریابی اولیه استارتاپ.
- تیمهای زیرساخت سازمانی
- اولویت دادن به کاهش چشمگیر هزینههای محاسباتی و الزامات سختافزاری.
زوایای پوششدادهنشده
- · تولیدکنندگان سختافزار
- · ارائهدهندگان پایگاه داده برداری
چرا مهم است
هزینه درجه دوم (Quadratic) پردازش متن، بزرگترین گلوگاه در توسعه هوش مصنوعی بوده و شرکتها را مجبور به استفاده از راهحلهای پیچیده مانند پایگاههای داده برداری (Vector Databases) کرده است. اگر مقیاسپذیری خطی Subquadratic در عمل ثابت شود، توسعهدهندگان میتوانند به زودی کل پایگاههای کد سازمانی و کتابخانههای اسناد را در یک درخواست واحد به هوش مصنوعی وارد کنند، که این امر هزینه توسعه نرمافزار را به شدت کاهش میدهد.
نکات کلیدی
- استارتاپ Subquadratic مستقر در میامی، مدل هوش مصنوعی SubQ را با پنجره متنی ۱۲ میلیون توکنی عرضه کرده است.
- این مدل از توجه پراکنده Subquadratic (SSA) برای پردازش تنها دادههای مرتبط استفاده میکند و به جای مقیاسبندی درجه دوم، به صورت خطی مقیاس مییابد.
- گزارش شده است که SubQ در یک میلیون توکن، ۵۲ برابر سریعتر از مدلهای استاندارد اجرا میشود و هزینههای محاسباتی را ۶۴ برابر کاهش میدهد.
- آزمایشهای مستقل، سرعت و مهارت کدنویسی آن را تأیید میکنند، اگرچه این مدل بر اساس وزنهای موجود منبع باز ساخته شده است.
نزدیک به یک دهه است که صنعت هوش مصنوعی توسط یک محدودیت سرعت ریاضی سختگیرانه محدود شده است. معماری «ترنسفورمر» (Transformer) که نیروی محرکه تمام مدلهای زبان بزرگ اصلی است، متکی بر مکانیزمی به نام «توجه متراکم» (Dense Attention) است که مدل را ملزم میکند هر کلمه در یک درخواست را با هر کلمه دیگری مقایسه کند تا زمینه (Context) را درک کند. در حالی که این دقت بالا منجر به استدلالهای بسیار دقیق میشود، اما جریمه محاسباتی شدیدی دارد که الزامات سختافزاری و هزینههای مالی کل رونق هوش مصنوعی مولد را تعیین کرده است.[1][2]
این امر یک مشکل مقیاسبندی درجه دوم (Quadratic) ایجاد میکند: دو برابر کردن حجم متن، کار محاسباتی را چهار برابر میکند. در ۸۰۰۰ توکن، این موضوع قابل مدیریت است. اما در یک میلیون توکن، به یک گلوگاه بزرگ تبدیل میشود که نیازمند خوشههای عظیمی از پردازندههای گرافیکی تخصصی است. در ۱۲ میلیون توکن، از لحاظ تاریخی این کار از نظر اقتصادی و محاسباتی غیرممکن بوده است. در نتیجه، توسعهدهندگان مجبور شدهاند راهحلهای پیچیدهای بسازند، اسناد بزرگ را به بخشهای کوچکتر تقسیم کنند و از پایگاههای داده خارجی استفاده کنند تا تنها مرتبطترین بخشها را به مدلهای هوش مصنوعی تغذیه کنند.[2][5]
یک استارتاپ مستقر در میامی به نام Subquadratic ادعا میکند که این سقف محاسباتی را شکسته است. این تیم ۱۳ نفره که با ۲۹ میلیون دلار سرمایه اولیه از حالت پنهان خارج شده است، مدل SubQ را معرفی کرده که دارای یک پنجره متنی بیسابقه ۱۲ میلیون توکنی است. این شرکت ادعا میکند که معماری جدید آن به طور کامل از گلوگاه درجه دوم عبور میکند و به هوش مصنوعی اجازه میدهد مجموعهدادههای عظیم را در یک مرحله پردازش کند، بدون اینکه شاهد افزایش تصاعدی قدرت پردازشی باشیم که مدلهای سنتی پیشرو را آزار میدهد. اگر این پیشرفت در مقیاس بزرگ تأیید شود، میتواند نحوه ساخت نرمافزارهای سازمانی را به طور اساسی تغییر دهد.[2][3]
برای درک بهتر این مقیاس، ۱۲ میلیون توکن تقریباً معادل ۹ میلیون کلمه است. این ظرفیت برای وارد کردن کل کتابخانه استاندارد پایتون ۳.۱۳، شش ماه درخواست فعال pull request، و کل تاریخچه مستندات یک شرکت در یک درخواست واحد کافی است. به جای تکیه بر ابزارهای جستجوی خارجی برای یافتن یک خط کد خاص، یک عامل هوش مصنوعی مجهز به این پنجره متنی میتواند کل مخزن (Repository) را در حافظه فعال خود نگه دارد و به طور همزمان بر روی هزاران فایل مرتبط استدلال کند.[6]
راز ظرفیت عظیم SubQ در یک رویکرد معماری جدید به نام «توجه پراکنده Subquadratic» یا SSA نهفته است. به جای اینکه مدل مجبور باشد هر رابطه ممکن بین توکنها را ارزیابی کند – از جمله ارتباطات نامربوط مانند مقایسه یک کاما در صفحه اول با یک اسم در صفحه پنجاه – SSA به صورت پویا تنها مرتبطترین ارتباطات را انتخاب میکند. با نادیده گرفتن اکثریت قریب به اتفاق جفت توکنهای بیفایده، مدل در عین حفظ درک خود از سند گستردهتر، حجم عظیمی از سربار محاسباتی را آزاد میکند.[3][4]
الکس ویدن (Alex Whedon)، مدیر ارشد فناوری Subquadratic، توضیح میدهد: «توجه پراکنده اساساً به این معنی است که به جای انجام کاری که ترنسفورمرها انجام میدهند – یعنی اگر ۱۰۰۰ کلمه دارید، به هر رابطه ممکن بین هر ۱۰۰۰ کلمه نگاه کنید که ۱۰۰۰ به توان دو ترکیب است – شما متوجه میشوید که تنها بخشی از آن روابط واقعاً اهمیت دارند و فقط آن بخش مهم را پردازش میکنید.» این پردازش انتخابی همان چیزی است که به مدل اجازه میدهد پنجره متنی خود را به طولهای بیسابقهای مقیاس دهد، بدون اینکه سختافزار زیربنایی از کار بیفتد یا هفتهها زمان پردازش نیاز باشد.[1]
نکته حیاتی این است که فرآیند انتخاب SubQ کاملاً آگاه به محتوا است. به جای استفاده از پنجرههای موقعیتی ثابت – که یک راهحل متداول در آزمایشهای قبلی توجه پراکنده بود که در آن مدل فقط به ۱۰۰ کلمه اطراف یک توکن هدف نگاه میکرد – مدل یاد میگیرد که کدام توکنها از نظر معنایی برای پرسوجو مهم هستند. این بدان معناست که میتواند زمینه بسیار مرتبط را از هر کجای سند بیرون بکشد و با موفقیت یک متغیر تعریف شده در خط ده را به تابعی که در خط ده هزار اجرا شده است، متصل کند، بدون اینکه رشته منطق را از دست بدهد.[2][3]
نکته حیاتی این است که فرآیند انتخاب SubQ کاملاً آگاه به محتوا است.
این تغییر معماری، پیچیدگی محاسباتی را از درجه دوم یا O(n²) به خطی یا O(n) تغییر میدهد. طبق مستندات فنی شرکت، این امر منجر به کاهش حیرتانگیز ۶۴ برابری در الزامات محاسباتی در مقایسه با توجه متراکم در مقیاس یک میلیون توکن میشود. با بزرگتر شدن پنجره متنی، مزایای کارایی حتی بیشتر آشکار میشود و آنچه زمانی یک مسئله ریاضی غیرممکن بود را به یک کار محاسباتی استاندارد تبدیل میکند که میتواند بر روی سرورهای سازمانی معمولی اجرا شود، نه اینکه نیازمند ابررایانههای اختصاصی باشد.[5][6]
پیامدهای سرعت و هزینه این مقیاسبندی خطی برای صنعت فناوری گستردهتر خیرهکننده است. Subquadratic گزارش میدهد که مکانیسم توجه پراکنده آن در یک میلیون توکن، ۵۲ برابر سریعتر از الگوریتم بسیار بهینهسازی شده FlashAttention-2 اجرا میشود. برای توسعهدهندگانی که عوامل خودمختاری میسازند که باید به طور مداوم پایگاههای کد عظیم را بخوانند و دوباره بخوانند، این افزایش سرعت، وظایف پسزمینه طولانیمدت را به پاسخهای تقریباً آنی تبدیل میکند، که تجربه کاربری دستیاران کدنویسی هوش مصنوعی را به طور اساسی تغییر میدهد و تحلیل پایگاه کد در زمان واقعی را به یک واقعیت عملی تبدیل میکند.[2][7]
از نظر عملی، این امر اقتصاد هوش مصنوعی با زمینه طولانی را به طور ریشهای تغییر میدهد. این شرکت ادعا میکند که اجرای معیار RULER 128K – یک آزمون استاندارد صنعتی برای بازیابی و استدلال با زمینه طولانی – بر روی مدل SubQ تقریباً ۸ دلار هزینه دارد. در مقابل، اجرای دقیقاً همان حجم کاری بر روی Claude Opus شرکت Anthropic، که یک مدل پیشرو با توجه متراکم است، حدود ۲۶۰۰ دلار تخمین زده میشود. این کاهش هزینه عظیم میتواند دسترسی به تحلیل هوش مصنوعی در سطح سازمانی را دموکراتیزه کند و به استارتاپهای کوچکتر اجازه دهد ابزارهایی را به کار گیرند که قبلاً محدود به شرکتهای بزرگ فناوری بودند.[2][3]
با وجود ادعاهای جسورانه، جامعه تحقیقاتی هوش مصنوعی در ابتدا با شک و تردید سالم واکنش نشان داد. گورستان استارتاپهای هوش مصنوعی مملو از شرکتهایی است که وعده «اصلاح» معماری ترنسفورمر را دادند، اما مدلهایی را ارائه کردند که هنگام استقرار در تولید، کیفیت استدلالشان به شدت کاهش یافت. بسیاری از مهندسان فرض کردند که پنجره متنی عظیم SubQ ناگزیر به قیمت از دست دادن منطق اساسی، پیروی از دستورالعملها و مهارت کدنویسی تمام خواهد شد و ادعای ۱۲ میلیون توکنی را به عنوان یک ترفند بازاریابی، نه یک ویژگی قابل استفاده، تلقی کردند.[2][3]
برای رفع این تردیدها، Subquadratic شرکت Appen، یک شرکت ارزیابی مستقل، را مأمور کرد تا افزایش سرعت در سطح هسته (kernel-level) و معیارهای عملکرد آن را تأیید کند. نتایج تا حد زیادی ادعاهای استارتاپ را تأیید کرد: SubQ در معیار RULER 128K امتیاز ۹۵٪ و در آزمون سختگیرانه کدنویسی SWE-Bench Verified امتیاز ۸۱.۸٪ کسب کرد. این امتیازات مدل توجه پراکنده را در همان رده مدلهای پیشروی تثبیت شده مانند Claude Opus 4.6 قرار میدهد و ثابت میکند که میتواند استدلال سطح بالا را حتی در حین نادیده گرفتن بخشهای وسیعی از روابط توکن حفظ کند.[2][3][4]
با این حال، اندکی پس از عرضه مدل، یک نکته قابل توجه پدیدار شد که دستاورد شرکت را بازتعریف کرد. ویدن تأیید کرد که SubQ به طور کامل از ابتدا آموزش داده نشده است؛ در عوض، تیم لایه جدید توجه پراکنده خود را بر روی وزنهای یک مدل منبع باز موجود پیوند زده و فرآیند آموزش را ادامه داده است. در حالی که این یک روش مهندسی استاندارد و بسیار مؤثر برای یک استارتاپ با منابع محاسباتی محدود است، اما روایت اولیه مبنی بر یک انقلاب معماری کاملاً از پایه که ترنسفورمر سنتی را به طور کامل کنار میگذارد، تعدیل میکند.[3]
ویل دپو (Will Depue)، محقق مستقل هوش مصنوعی و مهندس سابق OpenAI، خاطرنشان میکند: «آنها ممکن است چیزی واقعی و مفید ساخته باشند، اما شواهد عمومی هنوز ادعای قویتر مبنی بر اینکه آنها به طور کامل گلوگاه توجه درجه دوم را به تنهایی حل کردهاند، توجیه نمیکند.» منتقدان استدلال میکنند که تا زمانی که مدل در طیف وسیعتری از معیارهای استدلال عمومی، ریاضیات و چندزبانه آزمایش نشود، محدودیتهای واقعی توجه پراکنده Subquadratic ناشناخته باقی میماند و صنعت باید منتظر بازتولید مستقل گستردهتر باشد.[2]

صرف نظر از منشأ دقیق آن، کاربرد عملی SubQ برای توسعهدهندگان فوری و غیرقابل انکار است. این شرکت یک API و یک عامل کدنویسی اختصاصی به نام SubQ Code راهاندازی کرده است که برای مهندسان نرمافزار طراحی شده تا از خطوط لوله پیچیده تولید تقویتشده با بازیابی (RAG) عبور کنند. به جای ساخت سیستمهای پیچیده برای جستجوی بخشهای کد مرتبط، توسعهدهندگان میتوانند به سادگی کل مخزن خود را مستقیماً در حافظه مدل بارگذاری کنند و سؤال بپرسند و ویژگیهایی را با زمینه کامل و بدون وقفه تولید کنند که کل معماری نرمافزار را درک میکند.[3][6]
اگر توجه پراکنده Subquadratic در مقیاس بزرگ و در بارهای کاری متنوع قابل اعتماد باشد، میتواند توسعه نرمافزار سازمانی و تحلیل دادهها را به طور اساسی بازسازی کند. با سریع و اقتصادی کردن پنجرههای متنی عظیم، صنعت ممکن است سرانجام از دوران تکهتکه کردن دادهها عبور کرده و وارد عصری شود که هوش مصنوعی میتواند بر روی کل ردپای دیجیتال یک شرکت – از پایگاههای کد عظیم گرفته تا دههها قراردادهای حقوقی – در یک نفس جامع استدلال کند و سطح جدیدی از عوامل سازمانی خودمختار را باز کند.[3][5]
روند رویداد
May 5, 2026
Subquadratic از حالت پنهان خارج میشود و مدل SubQ را با پنجره متنی ادعایی ۱۲ میلیون توکنی عرضه میکند.
May 24, 2026
مدیر ارشد فناوری شرکت تأیید میکند که این مدل با پیوند زدن توجه پراکنده بر روی وزنهای موجود منبع باز ساخته شده است.
June 19, 2026
شرکت ارزیابی مستقل Appen، افزایش سرعت در سطح هسته و ادعاهای کاهش ۶۴ برابری محاسبات SubQ را تأیید میکند.
بررسی عمیق دیدگاهها
خوشبینان هوش مصنوعی و توسعهدهندگان
تمرکز بر توانایی عملی برای دور زدن RAG و بارگذاری مستقیم پایگاههای کد عظیم در حافظه.
برای مهندسان نرمافزار و سازندگان هوش مصنوعی، منشأ دقیق وزنهای مدل در درجه دوم اهمیت قرار دارد و کاربرد عملی آن مهم است. با ارائه یک پنجره ۱۲ میلیون توکنی با کسری از هزینه سنتی، SubQ به توسعهدهندگان اجازه میدهد تا کل مخازن سازمانی، ویکیهای مستندات، و ماهها درخواست pull request را در یک درخواست واحد وارد کنند. این امر عملاً نیاز به خطوط لوله پیچیده تولید تقویتشده با بازیابی (RAG) و پایگاههای داده برداری را از بین میبرد و نحوه تعامل عوامل هوش مصنوعی با مجموعهدادههای عظیم را به شدت ساده میکند.
محققان شکاک
تأکید بر نیاز به تأیید مستقل و انتقاد از بازاریابی اولیه استارتاپ.
جامعه تحقیقاتی هوش مصنوعی شاهد شکستهای متعددی از معماریهایی بوده است که ادعای «قاتل ترنسفورمر» بودن داشتند اما نتوانستند کیفیت استدلال را در مقیاس حفظ کنند. شکاکان اشاره میکنند که بازاریابی اولیه Subquadratic حاکی از بازآفرینی کامل LLM از پایه بود، اما بعداً مدیر ارشد فناوری شرکت توضیح داد که این مدل متکی بر وزنهای موجود منبع باز است. در حالی که آزمایشهای مستقل Appen افزایش سرعت در سطح هسته را تأیید میکنند، محققان استدلال میکنند که ارزیابیهای گستردهتر و بلندمدت در زمینههای استدلال عمومی و وظایف چندزبانه مورد نیاز است تا اعلام شود که گلوگاه توجه درجه دوم به طور دائم حل شده است.
تیمهای زیرساخت سازمانی
اولویت دادن به کاهش چشمگیر هزینههای محاسباتی و الزامات سختافزاری.
برای مدیران سیستمها و معماران ابری، جذابترین جنبه توجه پراکنده Subquadratic، مقیاسبندی خطی آن است. توجه متراکم برای پردازش زمینههای طولانی نیازمند خوشههای عظیم GPU است که استقرار هوش مصنوعی سازمانی را به شدت گران میکند. با کاهش ۶۴ برابری الزامات محاسباتی در نقطه یک میلیون توکن، SubQ اجازه میدهد بارهای کاری استنتاج عظیم بر روی سختافزارهای استاندارد و ارزانتر اجرا شوند. این تغییر میتواند هوش مصنوعی با زمینه طولانی را دموکراتیزه کند و از نظر اقتصادی برای کسبوکارها امکانپذیر سازد تا عوامل خودمختاری را مستقر کنند که به طور مداوم جریانهای عظیمی از دادهها را نظارت میکنند.
آنچه نمیدانیم
- اینکه آیا توجه پراکنده SubQ دقت بالای خود را در استدلال عمومی و وظایف چندزبانه، خارج از معیارهای کدنویسی و بازیابی، حفظ میکند یا خیر.
- واکنش آزمایشگاههای بزرگ هوش مصنوعی پیشرو (OpenAI، Google، Anthropic) به پیشرفت توجه پراکنده در مدلهای نسل بعدی خود چگونه خواهد بود.
- ساختار دقیق قیمتگذاری برای API کامل ۱۲ میلیون توکنی پس از خروج از مرحله بتای خصوصی.
اصطلاحات کلیدی
- توجه متراکم (Dense Attention)
- مکانیسم استاندارد در مدلهای ترنسفورمر که در آن هر توکن با هر توکن دیگری مقایسه میشود و باعث میشود هزینههای محاسباتی به صورت درجه دوم مقیاس شوند.
- توجه پراکنده (Sparse Attention)
- یک مکانیسم بهینهسازی شده که فقط روابط بین مرتبطترین توکنها را محاسبه میکند و قدرت پردازش را به شدت کاهش میدهد.
- پنجره متنی (Context Window)
- حداکثر میزان متن یا دادهای که یک مدل هوش مصنوعی میتواند در یک درخواست واحد پردازش کرده و به خاطر بسپارد.
- تولید تقویتشده با بازیابی (RAG)
- تکنیکی که برای دور زدن محدودیتهای متنی با جستجو در یک پایگاه داده خارجی برای یافتن بخشهای مرتبط و تغذیه آنها به هوش مصنوعی استفاده میشود.
- پیچیدگی O(n²)
- یک اصطلاح ریاضی به این معنی که با رشد اندازه ورودی، هزینه محاسباتی به اندازه مربع آن اندازه رشد میکند.
پرسشهای متداول
چه چیزی SubQ را از مدلهایی مانند ChatGPT یا Claude متمایز میکند؟
در حالی که مدلهای استاندارد از توجه متراکم استفاده میکنند که با متون طولانی به طور تصاعدی کند میشود، SubQ از توجه پراکنده استفاده میکند تا به طور انتخابی فقط اطلاعات مرتبط را پردازش کند و به آن اجازه میدهد متن بسیار بیشتری را به طور همزمان بخواند.
پنجره متنی ۱۲ میلیون توکنی چقدر بزرگ است؟
این تقریباً معادل ۹ میلیون کلمه است، که برای نگهداری کل کتابخانه استاندارد پایتون، هزاران درخواست pull request کد، یا دهها کتاب قطور در یک درخواست واحد کافی است.
آیا Subquadratic این مدل را به طور کامل از ابتدا ساخت؟
خیر. این شرکت تأیید کرد که معماری جدید توجه پراکنده خود را بر روی وزنهای یک مدل منبع باز موجود پیوند زده تا توسعه را تسریع بخشد.
آیا این جایگزین RAG (تولید تقویتشده با بازیابی) خواهد شد؟
برای بسیاری از موارد استفاده سازمانی، بله. با اجازه دادن به توسعهدهندگان برای بارگذاری کل پایگاههای کد یا کتابخانههای اسناد مستقیماً در درخواست، نیاز به پایگاههای داده جستجوی خارجی پیچیده را از بین میبرد.
منابع
[1]The New Stackتیمهای زیرساخت سازمانی
What Comes After Attention? This Startup Says It Already Knows
مطالعه در The New Stack →[2]The Next Webمحققان شکاک
A Miami startup says it has cracked a maths problem that has made AI models slow
مطالعه در The Next Web →[3]Mediumمحققان شکاک
A Miami startup says it built the first frontier non-transformer LLM
مطالعه در Medium →[4]DataCampتیمهای زیرساخت سازمانی
Subquadratic's SubQ model claims a 12M-token context window
مطالعه در DataCamp →[5]MindStudioخوشبینان هوش مصنوعی و توسعهدهندگان
Why Context Length Has Always Been AI's Dirty Secret
مطالعه در MindStudio →[6]Subquadraticخوشبینان هوش مصنوعی و توسعهدهندگان
Introducing SubQ: The First Fully Subquadratic LLM
مطالعه در Subquadratic →[7]ExplainXتیمهای زیرساخت سازمانی
SubQ: SSA sparse attention, 12M context, and long-context evals
مطالعه در ExplainX →
بیشتر در فناوری
مشاهده همه 5 خبر →بدافزار هوش مصنوعی
مدل هوش مصنوعی DeepSeek با سوءاستفاده از API کرومیوم، باجافزار فعال مبتنی بر مرورگر تولید میکند
8 sources
سیاست فناوری جوانان
اکثریت بزرگسالان آمریکایی اکنون از ممنوعیت شبکههای اجتماعی برای کودکان زیر ۱۶ سال حمایت میکنند؛ یافتههای نظرسنجی پیو
7 sources
تولید کوانتومی
آیبیام با ۲ میلیارد دلار، «اندرون» را برای ساخت اولین کارخانه ویفرهای کوانتومی ۳۰۰ میلیمتری تأسیس کرد
7 sources
هر زاویه. هر روز.
دریافت فناوری اخبار همراه با پوشش کامل منابع و تحلیل دیدگاهها، مستقیم در صندوق ورودی شما.












