دیپسیک در مقاله جدیدش از معماری تازهای رونمایی کرده که هدف آن "قابلپیشبینیتر کردن رفتار مدلهای عظیم" است؛ یعنی جلوگیری از همان «لغزشهای ناگهانی» که میتوانند هفتهها آموزش و مصرف برق را یکباره نابود کنند.
این معماری شاید مصرف برق هر GPU را مستقیم کاهش ندهد، اما با حذف ریاستارتهای پرهزینه، "اتلاف کل انرژی و منابع محاسباتی" را بهشدت پایین میآورد. در نتیجه توسعهدهندگان بهجای جنگیدن با ناپایداری، میتوانند روی "بهینهسازی واقعی مدلها" تمرکز کنند.
در دورهای که مدلهای زبانی هر روز بزرگتر میشوند، DeepSeek نشان داده کاهش ناکارآمدی میتواند به اندازه افزایش قدرت اهمیت داشته باشد؛ مسیری که شاید آینده آموزش هوش مصنوعی را کمهزینهتر و هوشمندانهتر کند.
#هوش_مصنوعی#مرکز_نوآوری_و_توسعه_هوش_مصنوعی#پژوهشگاه_ارتباطات_و_فناوری_اطلاعات#دیپ_سیک
۹:۳۷