توضیح: چگونه DeepSeek هوش مصنوعی پیشرو خود را برای اجرا روی سیلیکون هواوی تطبیق داد
مدل V4 شرکت DeepSeek به طور کامل با تراشههای Ascend هواوی سازگار شد و ثابت کرد که کارایی الگوریتمی و طراحی مشترک نرمافزار میتواند بر محدودیتهای سختافزاری غلبه کرده و انحصار Nvidia را دور بزند.
به قلم تیم سردبیری کوهستان
این خبر را به اشتراک بگذارید
- تنوعدهندگان اکوسیستم
- طرفداران هوش مصنوعی منبع باز که این امر را به عنوان یک گسست ضروری از انحصار سختافزاری تکفروشنده میبینند.
- واقعگرایان سختافزاری
- مهندسان و تحلیلگرانی که بر موانع فنی باقیمانده در اتصالات تراشه به تراشه تأکید میکنند.
- تحلیلگران جداسازی استراتژیک
- ناظرانی که بر پیامدهای ژئوپلیتیکی یک زنجیره تأمین موازی هوش مصنوعی تمرکز دارند.
زوایای پوششدادهنشده
- · مدیران اجرایی Nvidia
- · تنظیمکنندگان کنترل صادرات ایالات متحده
چرا مهم است
با اثبات این که مدلهای هوش مصنوعی پیشرو را میتوان بدون اتکا به پردازندههای گرافیکی (GPU) غالب Nvidia آموزش داد و به کار گرفت، DeepSeek و هواوی یک طرح کلی برای استقلال سختافزاری ایجاد کردهاند. این موفقیت، حرکت جهانی به سمت زیرساختهای هوش مصنوعی متنوع و مقرونبهصرفه را که توسط یک تأمینکننده واحد دچار تنگنا نمیشود، تسریع میکند.
نکات کلیدی
- مدل DeepSeek V4 به سازگاری کامل با تراشههای Ascend هواوی دست یافت و نیاز به سختافزار محدود شده Nvidia را دور زد.
- این یکپارچهسازی از نرمافزار CANN هواوی برای ترجمه دستورالعملهای هوش مصنوعی استفاده میکند و به عنوان جایگزینی مستقیم برای CUDA انویدیا عمل مینماید.
- معماری «ترکیب متخصصان» DeepSeek به شدت نیازهای محاسباتی را کاهش میدهد و آن را برای سیلیکونهای جایگزین بسیار کارآمد میسازد.
- محققان با موفقیت پسآموزش پارامتر کامل مدل ۱.۶ تریلیون پارامتری را روی خوشهای متشکل از ۱۰۰۰ تراشه Ascend تکمیل کردند.
- انتشار منبع باز باطن بهینهسازی شده برای Ascend، یک طرح کلی برای توسعهدهندگان جهانی فراهم میکند تا هوش مصنوعی مستقل از سختافزار بسازند.
سالهاست که صنعت هوش مصنوعی بر یک فرض سفت و سخت و تقریباً بیچون و چرا استوار بوده است: آموزش و بهکارگیری مدلهای هوش مصنوعی پیشرو نیازمند سیلیکون Nvidia و اکوسیستم نرمافزاری اختصاصی CUDA آن است. این اتکای تکفروشنده، سرعت توسعه جهانی هوش مصنوعی را دیکته کرده و واحدهای پردازش گرافیکی پیشرفته (GPU) را به رقابتیترین کالای جهان تبدیل کرده است. اما این الگو در آوریل ۲۰۲۶، زمانی که آزمایشگاه هوش مصنوعی چینی DeepSeek سری مدلهای V4 خود را منتشر کرد، دستخوش یک تغییر بزرگ شد. این مدل ۱.۶ تریلیون پارامتری به طور خاص برای اجرا به صورت بومی روی پردازندههای هوش مصنوعی Ascend هواوی بهینهسازی شده بود و اکوسیستم سنتی Nvidia را به طور کامل دور زد و ثابت کرد که نبوغ الگوریتمی میتواند به طور مؤثری کمبود سختافزاری را خنثی کند.[1][6]
این همکاری به چیزی دست یافت که مهندسان هواوی آن را تطبیق «روز صفر» نامیدند. در عرض چند ساعت پس از انتشار جهانی DeepSeek V4، این مدل به طور کامل روی سوپرنودهای Ascend 950PR و 910C هواوی عملیاتی شد. این یک راهحل کند و سازشکارانه نبود؛ معیارهای اولیه، توان عملیاتی استنتاج (inference) اندازهگیری شده تا ۱۱۰۰ توکن در ثانیه را نشان داد. برای بخش گستردهتر فناوری، این استقرار سریع نشان داد که زیرساخت هوش مصنوعی داخلی چین از آزمایشهای تجربی به آمادگی در سطح سازمانی رسیده است و قادر است وزن محاسباتی عظیم یک مدل زبان بزرگ در کلاس پیشرو را بدون اتکا به سختافزارهای محدود شده آمریکایی مدیریت کند.[1][4][9]
این نقطه عطف، یک شاهکار در طراحی مشترک نرمافزار و سختافزار است و اساساً این ایده را به چالش میکشد که قدرت محاسباتی خام تنها مسیر برتری در هوش مصنوعی است. برای درک اینکه DeepSeek چگونه به این مهم دست یافت، باید به پل نرمافزاری که این امر را ممکن ساخت نگاه کرد: معماری محاسباتی هواوی برای شبکههای عصبی (CANN). CANN به عنوان لایه نرمافزاری زیربنایی برای اکوسیستم Ascend عمل میکند و دستورات چارچوب هوش مصنوعی سطح بالا را به دستورالعملهای خاص سختافزاری ترجمه میکند. این پاسخ مستقیم و داخلی هواوی به CUDA شرکت Nvidia است که بیش از یک دهه صرف ساختن یک سنگر نفوذناپذیر به عنوان رابط برنامهنویسی پیشفرض صنعت کرده است.[4][8]
برای یکپارچهسازی DeepSeek V4، مهندسان هواوی صرفاً کد موجود را پورت نکردند؛ آنها CANN را مستقیماً در معماری اصلی DeepSeek ادغام کردند. با دادن دسترسی زودهنگام به طراحی مدل به هواوی، این دو شرکت در یک حلقه بازخورد تنگاتنگ درگیر شدند و تخصیص حافظه و عملیات ضرب ماتریس را برای مطابقت با نقاط قوت و محدودیتهای خاص واحدهای پردازش عصبی (NPU) Ascend بهینهسازی کردند. این سطح از بهینهسازی نرمافزاری عمیق و آگاه به سختافزار، به سیستم اجازه داد تا حداکثر عملکرد را از سیلیکونی استخراج کند که روی کاغذ، از مشخصات خام تراشههای پرچمدار H100 انویدیا عقبتر است.[1][6]
یک جزء حیاتی این تطبیق موفق، در انتخابهای معماری DeepSeek نهفته است، به ویژه تسلط آن بر «موازیسازی متخصص» (Expert Parallelism). DeepSeek V4 از معماری بسیار کارآمد «ترکیب متخصصان» (MoE) استفاده میکند. در یک مدل متراکم استاندارد، هر پارامتر برای هر کلمهای که تولید میشود فعال میشود و نیاز به محاسبات عظیمی دارد. در یک مدل MoE، شبکه عصبی به «متخصصان» تخصصی تقسیم میشود و تنها بخش کوچکی از ۱.۶ تریلیون پارامتر مدل برای هر توکن فعال میشود. این امر به طور چشمگیری قدرت محاسباتی خام مورد نیاز را کاهش میدهد و مدل را ذاتاً با پلتفرمهای سختافزاری جایگزین سازگارتر میکند.[2][6]
با این حال، مدلهای ترکیب متخصصان یک گلوگاه متفاوت و به شدت دشوار ایجاد میکنند: آنها برای مشورت با «متخصصان» مختلف، نیاز به مسیریابی عظیم و آنی دادهها بین تراشههای مختلف دارند. در اکوسیستم Nvidia، این ترافیک داده با NVLink، یک فناوری اتصال داخلی با سرعت بالا، حل میشود. برای حل این مشکل در سختافزار هواوی، تیم اکوسیستم Ascend مجبور شد یک باطن ارتباطی بومی را از ابتدا بسازد. آنها با موفقیت راهحلی را مهندسی کردند که به طور کامل با API کمتأخیر «DeepEP» شرکت DeepSeek مطابقت دارد و به خوشههای Ascend اجازه میدهد تا دادهها را بین متخصصان به طور کارآمد مسیریابی کنند، بدون اینکه به سختافزار شبکهسازی Nvidia متکی باشند.[5][8]
در اکوسیستم Nvidia، این ترافیک داده با NVLink، یک فناوری اتصال داخلی با سرعت بالا، حل میشود.
تصمیم DeepSeek برای منبع باز کردن این باطن بهینهسازی شده برای Ascend، یک مانور استراتژیک است که بسیار فراتر از زنجیره تأمین یک شرکت واحد است. با انتشار کد و ایجاد یک مخزن رسمی تحت چتر DeepSeek AI، آنها یک طرح کلی تأیید شده برای جامعه جهانی منبع باز ارائه کردهاند. توسعهدهندگان در سراسر جهان اکنون میتوانند نحوه پیادهسازی موازیسازی متخصص سرتاسری را روی خوشههای غیر Nvidia مطالعه کنند، که پذیرش سختافزارهای جایگزین را تسریع کرده و اینرسی را که صنعت را در یک اکوسیستم نرمافزاری واحد قفل کرده بود، میشکند.[5][6]
پیامدهای این بهینهسازی نرمافزاری فراتر از استنتاج و استقرار اولیه است. از لحاظ تاریخی، تراشههای هوش مصنوعی جایگزین صرفاً به «استنتاج» (inference) محدود شدهاند—فرآیند نسبتاً سبکتر اجرای یک مدل تکمیلشده برای پاسخ به درخواستهای کاربر. کار سنگین و از نظر ریاضی طاقتفرسای «آموزش» یک مدل از ابتدا یا تنظیم دقیق رفتار آن، به شدت در قلمرو پردازندههای گرافیکی Nvidia باقی مانده بود. اما DeepSeek و هواوی اکنون این دیوار را شکافتهاند و سیلیکون داخلی را به مراحل پرتقاضاتر توسعه هوش مصنوعی ارتقا دادهاند.[2][8]
در ژوئن ۲۰۲۶، یک کنسرسیوم تحقیقاتی شامل هواوی و مؤسسه منطقه حلقه شنژن، یک پیشرفت بزرگ را تأیید کردند: آنها با موفقیت فاز پسآموزش (post-training) مدل DeepSeek V4-Pro با پارامتر کامل را با استفاده از خوشهای متشکل از حداقل ۱۰۰۰ تراشه Ascend 910C تکمیل کردند. پسآموزش، مرحله حیاتی و فشردهای است که در آن یک مدل خام و از پیش آموزشدیده برای پیروی از دستورالعملها، استدلال منطقی و همسویی ایمنی پالایش میشود. اجرای بهروزرسانیهای پارامتر کامل به این معنی است که تکتک وزنها در مدل ۱.۶ تریلیون پارامتری به طور فعال در سراسر خوشه Ascend باز محاسبه شدند.[2]
این دستاورد پسآموزش ثابت میکند که معماری Ascend میتواند حجم کاری سخت و در کلاس آموزش را مدیریت کند، قابلیتی که تحلیلگران غربی قبلاً در آن تردید داشتند. در حالی که مرحله اولیه و عظیم پیشآموزش—که تریلیونها توکن از متن خام اینترنت را پردازش میکند—هنوز طبق گزارشها از خوشههای قدیمی Nvidia استفاده میکرد، توانایی انجام پسآموزش پارامتر کامل روی سیلیکون داخلی، وابستگی کلی به سختافزارهای محدود شده را به شدت کاهش میدهد. این امر به آزمایشگاههای چینی اجازه میدهد تا مدلهای پیشرو را به طور مداوم و کاملاً در داخل مرزهای خود بهروزرسانی، همسو و پالایش کنند.[2][9]
این موفقیت با معرفی اخیر «قانون مقیاسبندی تاو» (Tau Scaling Law) توسط هواوی، که یک چارچوب معماری جدید طراحی شده برای به حداکثر رساندن چگالی ترانزیستور و کارایی محاسباتی است، تقویت میشود. از آنجایی که کنترلهای صادراتی ایالات متحده مانع دسترسی چین به ماشینهای لیتوگرافی فرابنفش شدید (EUV) لازم برای ساخت تراشههای زیر ۳ نانومتر میشود، هواوی مجبور شده است در سطح معماری نوآوری کند. قانون مقیاسبندی تاو نشاندهنده یک راهحل جایگزین است که هدف آن دستیابی به عملکرد معادل فرآیند ۱.۴ نانومتری از طریق بستهبندی پیشرفته و بهینهسازی در سطح سیستم است و مستقیماً به بحران عرضه سختافزار میپردازد.[7]
پیامدهای اقتصادی این تغییر در حال حاضر در بازار جهانی هوش مصنوعی موج ایجاد کرده است. همانطور که صنعت از فاز تحقیق و توسعه به استقرار تجاری منتقل میشود، «اقتصاد استنتاج»—هزینه اجرای مدلها برای میلیونها کاربر—به معیار تعیینکننده موفقیت تبدیل شده است. DeepSeek با اثبات اینکه استنتاج در کلاس پیشرو و پسآموزش را میتوان به طور کارآمد روی سختافزارهای ارزانتر و در دسترستر اجرا کرد، هزینه استقرار هوش مصنوعی را کاهش میدهد. این امر باعث کالیبراسیون مجدد قیمتگذاری ابری میشود و حاشیههای سود بالایی را که به طور تاریخی توسط ارائهدهندگان سختافزار غالب به دست میآمد، به چالش میکشد.[4][8]

علاوه بر این، این تطبیق، تکهتکه شدن پشته جهانی هوش مصنوعی را تسریع میکند. ما به سرعت از یک دنیای یکپارچه و فقط CUDA به یک اکوسیستم چندباطنی و پر جنب و جوش حرکت میکنیم. آکادمی هوش مصنوعی پکن اخیراً اعلام کرد که سیستم FlagOS آن قبلاً مدل سبک DeepSeek-V4-Flash را برای استقرار استنتاج کامل در بیش از هشت معماری تراشه هوش مصنوعی مختلف، از جمله تراشههای هواوی، Hygon و Moore Threads، تطبیق داده است. این قابلیت همکاری تضمین میکند که نرمافزار، نه سختافزار، به عامل تمایز نهایی تبدیل میشود.[3][4]
در نهایت، همکاری DeepSeek-هواوی به عنوان یک آزمون عملی برای کنترلهای صادراتی فناوری عمل میکند و نشان میدهد که تحریمهای سختافزاری به جای یک دیوار نفوذناپذیر، سقفی متخلخل هستند. با مجبور کردن شرکتها به طراحی مشترک نرمافزار خود با سختافزار موجود، این محدودیتها به طور ناخواسته یک حلقه بازخورد از کارایی الگوریتمی شدید را تسریع کردند. DeepSeek V4 ثابت میکند که آینده هوش مصنوعی صرفاً به ساخت تراشههای سریعتر و گرانتر متکی نیست؛ بلکه به همان اندازه به نبوغ در شکل دادن نرمافزار به سیلیکون موجود متکی است و محاسبات را برای کل اکوسیستم دموکراتیک میکند.[6][8]
روند رویداد
Oct 2022
ایالات متحده کنترلهای صادراتی گستردهای را اعمال میکند که دسترسی توسعهدهندگان چینی به تراشههای پیشرفته هوش مصنوعی Nvidia را محدود میسازد.
Early 2025
DeepSeek مدل استدلالی R1 خود را منتشر میکند و ثابت میکند که کارایی الگوریتمی میتواند با رویکردهای محاسباتی سنگین رقابت کند.
April 2026
DeepSeek سری مدل V4 را با تطبیق «روز صفر» برای پردازندههای Ascend هواوی راهاندازی میکند.
May 2026
هواوی «قانون مقیاسبندی تاو» را معرفی میکند، یک نقشه راه معماری برای دور زدن گلوگاههای لیتوگرافی.
June 2026
محققان تأیید میکنند که DeepSeek V4-Pro با موفقیت پسآموزش پارامتر کامل را روی خوشهای متشکل از ۱۰۰۰ تراشه Ascend تکمیل کرده است.
بررسی عمیق دیدگاهها
تنوعدهندگان اکوسیستم
طرفداران هوش مصنوعی منبع باز که این امر را به عنوان یک گسست ضروری از انحصار سختافزاری تکفروشنده میبینند.
برای توسعهدهندگان و استارتاپها، انحصار CUDA انویدیا یک گلوگاه محاسباتی جدی ایجاد کرده، هزینهها را بالا برده و نوآوری را محدود کرده است. این گروه، تطبیق Ascend توسط DeepSeek را نه یک مانور ژئوپلیتیکی، بلکه یک رهایی فنی میدانند. آنها با منبع باز کردن باطن DeepEP و اثبات اینکه یک مدل ۱.۶ تریلیون پارامتری میتواند به طور کارآمد روی سیلیکون جایگزین اجرا شود، استدلال میکنند که صنعت هوش مصنوعی سرانجام به سمت آیندهای مستقل از سختافزار حرکت میکند که در آن بهینهسازی نرمافزار مهمتر از قدرت خام تراشه است.
واقعگرایان سختافزاری
مهندسان و تحلیلگرانی که بر موانع فنی باقیمانده در اتصالات تراشه به تراشه تأکید میکنند.
این گروه، ضمن اذعان به نقطه عطف پسآموزش روی تراشههای Ascend، اشاره میکند که سختترین بخش توسعه هوش مصنوعی—فاز پیشآموزش اولیه در دهها هزار پردازنده گرافیکی—همچنان به شدت به سرعتهای اتصال NVLink انویدیا وابسته است. آنها استدلال میکنند که در حالی که هواوی مشکل استنتاج و تنظیم دقیق را حل کرده است، ساخت خوشهای که قادر به آموزش نسل بعدی مدلهای پیشرو از ابتدا بدون گلوگاههای تأخیر شدید باشد، برای سیلیکون داخلی یک چالش اثبات نشده باقی میماند.
تحلیلگران جداسازی استراتژیک
ناظرانی که بر پیامدهای ژئوپلیتیکی یک زنجیره تأمین موازی هوش مصنوعی تمرکز دارند.
این دیدگاه بر شکست کنترلهای صادراتی سختافزاری در متوقف کردن پیشرفت هوش مصنوعی تمرکز دارد. تحلیلگران این اردوگاه استدلال میکنند که محدود کردن دسترسی به تراشههای Nvidia به طور ناخواسته توسعه یک پشته هوش مصنوعی کاملاً مستقل چینی را تسریع کرد. با مجبور کردن شرکتهایی مانند DeepSeek به طراحی مشترک نرمافزار خود با سختافزار هواوی، این محدودیتها یک حلقه بازخورد را تسریع کردند که به سرعت در حال کاهش شکاف عملکرد است و در نهایت نفوذ غرب بر زیرساخت جهانی هوش مصنوعی را کاهش میدهد.
آنچه نمیدانیم
- اینکه آیا خوشههای Ascend هواوی میتوانند فاز عظیم پیشآموزش چند تریلیون توکنی را از ابتدا و بدون اتکا به سختافزار قدیمی Nvidia به طور کارآمد مدیریت کنند یا خیر.
- جامعه جهانی منبع باز با چه سرعتی پشته نرمافزاری CANN را در مقایسه با اکوسیستم ریشهدار CUDA خواهد پذیرفت.
- بازده دقیق تولید و محدودیتهای مقیاسبندی تولید برای تراشههای Ascend 950PR و 910C هواوی تحت محدودیتهای فعلی زنجیره تأمین.
اصطلاحات کلیدی
- معماری محاسباتی برای شبکههای عصبی (CANN)
- پلتفرم نرمافزاری اختصاصی هواوی که به مدلهای هوش مصنوعی اجازه میدهد با پردازندههای Ascend آن ارتباط برقرار کنند.
- موازیسازی متخصص (EP)
- تکنیکی که در مدلهای «ترکیب متخصصان» استفاده میشود و در آن بخشهای مختلف شبکه عصبی برای تسریع پردازش در چندین تراشه توزیع میشوند.
- پسآموزش
- فاز ثانویه توسعه هوش مصنوعی که در آن یک مدل از پیش آموزشدیده برای رفتارهای خاص، پیروی از دستورالعملها و همسویی ایمنی تنظیم دقیق میشود.
- CUDA
- پلتفرم نرمافزاری غالب Nvidia که از لحاظ تاریخی استاندارد صنعتی برای برنامهنویسی واحدهای پردازش گرافیکی هوش مصنوعی بوده است.
پرسشهای متداول
مدل هوش مصنوعی DeepSeek V4 چیست؟
این یک مدل هوش مصنوعی در کلاس پیشرو با ۱.۶ تریلیون پارامتر است که توسط DeepSeek توسعه یافته و دارای معماری بسیار کارآمد «ترکیب متخصصان» است.
چرا اجرای مدل روی تراشههای هواوی یک نقطه عطف بزرگ محسوب میشود؟
این امر ثابت میکند که مدلهای هوش مصنوعی سطح بالا را میتوان بدون اتکا به پردازندههای گرافیکی Nvidia مستقر و تنظیم دقیق کرد و انحصار سختافزاری دیرینه را میشکند.
چارچوب نرمافزاری CANN هواوی چیست؟
معماری محاسباتی برای شبکههای عصبی (CANN) چارچوب نرمافزاری هواوی است که دستورالعملهای مدل هوش مصنوعی را به عملیات سختافزاری ترجمه میکند و به عنوان جایگزینی برای CUDA انویدیا عمل میکند.
آیا تراشههای هواوی میتوانند مدلهای هوش مصنوعی را از ابتدا آموزش دهند؟
در حالی که تراشههای Ascend با موفقیت پسآموزش پارامتر کامل را مدیریت کردند، فاز عظیم پیشآموزش اولیه برای V4 هنوز طبق گزارشها از خوشههای قدیمی Nvidia استفاده میکرد.
منابع
[1]South China Morning Postتحلیلگران جداسازی استراتژیک
Huawei, DeepSeek strengthen China's AI self-reliance with collaboration on V4 model
مطالعه در South China Morning Post →[2]Tom's Hardwareواقعگرایان سختافزاری
DeepSeek launches 1.6 trillion parameter V4 on Huawei chips
مطالعه در Tom's Hardware →[3]China Dailyتحلیلگران جداسازی استراتژیک
DeepSeek releases new AI models tuned for domestic chips
مطالعه در China Daily →[4]Pandailyتنوعدهندگان اکوسیستم
DeepSeek V4's complete adaptation to Huawei Ascend marks a milestone
مطالعه در Pandaily →[5]GitHubتنوعدهندگان اکوسیستم
Official Ascend Backend for DeepEP
مطالعه در GitHub →[6]Lush Binaryتنوعدهندگان اکوسیستم
DeepSeek V4 on Huawei Ascend: What It Means for Global AI Infrastructure
مطالعه در Lush Binary →[7]The Starتحلیلگران جداسازی استراتژیک
Another 'DeepSeek moment'? Huawei milestone alters China trajectory in chip race
مطالعه در The Star →[8]Substackواقعگرایان سختافزاری
DeepSeek V4 and the Huawei Adaptation
مطالعه در Substack →[9]Ascend Developer Communityواقعگرایان سختافزاری
DeepSeek V4 Is Optimized for Huawei Chips. This Feels Bigger Than Just a Model Launch
مطالعه در Ascend Developer Community →
بیشتر در هوش مصنوعی
مشاهده همه 5 خبر →زنجیره تامین نیمهرسانا
تعهد ۸۸۰ میلیارد دلاری کره جنوبی برای زیرساختهای ملی هوش مصنوعی و تراشه در یک برنامه دهساله
8 sources
دفاع سایبری
اَنتروپیک رهبری ائتلاف فناوری «پروژه گلسوینگ» را برای استقرار هوش مصنوعی پیشرفته در دفاع سایبری جهانی بر عهده میگیرد
7 sources
هوش مصنوعی تجسمیافته
ژاپن از طرح ملی استقرار ۱۰ میلیون ربات مبتنی بر هوش مصنوعی برای حل کمبود نیروی کار رونمایی کرد.
7 sources
هر زاویه. هر روز.
دریافت هوش مصنوعی اخبار همراه با پوشش کامل منابع و تحلیل دیدگاهها، مستقیم در صندوق ورودی شما.













