۵۱۹
۶:۵۷
شرکت سینا ویبو از مدل جدید خود با نام VibeThinker-3B رونمایی کرده است. این مدل با تنها ۳ میلیارد پارامتر، در برخی از سختترین آزمونهای منطقی به پای مدلهای غولپیکری مثل Gemini 3 Pro و DeepSeek V3.2 رسیده است.
-
-
-
تیم سازنده از رویکرد جدیدی به نام «از طیف تا سیگنال» و یک روش آموزش چندمرحلهای مبتنی بر یادگیری تقویتی استفاده کرده است. فرضیه آنها این است که هستهی منطقی مدل را میتوان به شدت فشرده کرد، در حالی که پارامترهای حجیم بیشتر برای ذخیرهسازی اطلاعات عمومی و دانش دایرةالمعارفی مورد نیاز هستند.
VibeThinker-3B نشان میدهد که برای رسیدن به هوش مصنوعی قدرتمند، همیشه نیازی به مدلهای با میلیاردها پارامتر نیست. با روشهای آموزشی هوشمندانه، میتوان مدلهای کوچک و کارآمدی ساخت که در حوزههای خاص (مانند ریاضیات و برنامهنویسی) با غولهای صنعت رقابت کنند. این یعنی هوش مصنوعی قدرتمند، قابلدسترستر از چیزی است که فکر میکنیم.
#AI #VibeThinker #هوش_مصنوعی
۵۲۰
۶:۵۷
گیف
۰۰:۱۴
شرکت بایدو به تازگی مدل OCR جدید خود با نام Unlimited-OCR را به صورت متنباز منتشر کرده است. این مدل که با هدف «پردازش یکباره اسناد طولانی» (One-shot Long-horizon Parsing) طراحی شده، با تکیه بر معماری نوین و بهرهگیری از ایدههای الهامگرفته از حافظه کاری انسان، توانسته عملکردی فراتر از مدلهای قبلی از جمله DeepSeek-OCR ارائه دهد.
---
چالش اصلی مدلهای OCR مبتنی بر رمزگشای LLM، رشد خطی حافظه نهان KV با افزایش طول خروجی است که مصرف حافظه را افزایش داده و سرعت را کاهش میدهد. مدلهای قبلی برای رفع این مشکل، اسناد را صفحهبهصفحه و با حلقههای متوالی پردازش میکردند که فرایندی ناپیوسته و ناکارآمد است.
Unlimited-OCR با معرفی مکانیزم توجه R-SWA این مشکل را حل کرده است. این روش، حافظه نهان KV را از رشد خطی به یک مقدار ثابت تبدیل میکند. R-SWA از دو بخش تشکیل شده است:- *بخش مرجع (Reference): شامل توکنهای بصری و پرامپت که در کل فرایند رمزگشایی ثابت و قابل مشاهده هستند.
- پنجره لغزنده (Sliding Window): شامل ۱۲۸ توکن اخیر که با تولید هر توکن جدید، قدیمیترین توکن از پنجره خارج میشود و اندازه آن ثابت میماند.
این طراحی، مشابه حافظه کاری انسان عمل میکند که اطلاعات دور را به تدریج «فراموش میکند» و تمرکز را روی بافت نزدیک حفظ میکند.
---
Unlimited-OCR با معماری ۳ میلیارد پارامتری (۵۰۰ میلیون فعال) بر روی بنچمارک OmniDocBench به نتایج قابل توجهی دست یافته است:
- کسب امتیاز کلی *۹۳.۹۲٪ در OmniDocBench v1.6 و ثبت رکورد جدید (SOTA).
- بهبود بیش از ۶ درصد نسبت به DeepSeek-OCR در نسخه قبلی بنچمارک.
- کاهش فاصله ویرایش (Edit Distance) متن از ۰.۰۷۳ به ۰.۰۳۸ و بهبود قابل توجه در تشخیص فرمولها و جداول.
- عملکرد چشمگیر در اسناد بلند: پردازش اسناد ۲۰ صفحهای در یک بار با فاصله ویرایش ۰.۰۵۷۲ و اسناد ۴۰ صفحهای با فاصله ویرایش ۰.۱۰۶۹.
- توان عملیاتی ۵,۵۸۰ توکن در ثانیه که نسبت به DeepSeek-OCR بهبود ۱۲.۷٪ را نشان میدهد.
---
Unlimited-OCR تحت مجوز MIT منتشر شده است و از موتورهای اصلی استنتاج مانند *Hugging Face Transformers، vLLM و SGLang پشتیبانی میکند. کد و وزنهای مدل در مخازن زیر در دسترس است:
- GitHub: github.com/baidu/Unlimited-OCR
- Hugging Face: huggingface.co/baidu/Unlimited-OCR
- ModelScope: modelscope.cn/models/PaddlePaddle/Unlimited-OCR
---
Unlimited-OCR با معرفی مکانیزم R-SWA، گامی اساسی در جهت حل مشکل پردازش اسناد طولانی برداشته است. این مدل با حفظ حافظه نهان KV ثابت، امکان پردازش یکباره دهها صفحه سند را با سرعت و دقت بالا فراهم میکند. R-SWA به عنوان یک مکانیزم توجه عمومی، پتانسیل کاربرد در وظایف توالی طولانی دیگر مانند بازشناسی گفتار (ASR) و ترجمه ماشینی را نیز دارد. انتشار این مدل تحت مجوز MIT، دسترسی و استفاده از آن را برای جامعه پژوهش و توسعه تسهیل کرده است.
#OCR #Baidu #DeepSeek #OpenSource
۴۱۰
۷:۱۲
شرکت میسترال (Mistral AI) از جدیدترین نسخه مدل OCR خود با نام OCR 4 رونمایی کرده است. این مدل فراتر از تشخیص متن ساده عمل کرده و اسناد را به یک ساختار منسجم و قابل استفاده تبدیل میکند.
- تشخیص بلوکها با جعبههای محدود (Bounding Boxes): هر عنصر سند (متن، جدول، عنوان، تصویر) با مختصات دقیق مشخص میشود.
- طبقهبندی انواع عناصر: تشخیص خودکار انواع محتوای سند شامل عنوان، زیرعنوان، جدول، فرمول، امضا و تصویر.
- نمره اطمینان در سطح صفحه و کلمه: نشاندهنده میزان اطمینان مدل در تشخیص هر بخش از سند.
- پشتیبانی از ۱۷۰ زبان: در ۱۰ گروه زبانی مختلف.
هدف اصلی این مدل صرفاً «تشخیص متن» نیست، بلکه تبدیل اسناد به ساختاری است که بتوان از آن در سیستمهای RAG، جستجوی سازمانی، ویرایش و بازبینی انسانی و خطوط لوله عاملهای هوش مصنوعی استفاده کرد.
در یک مقایسه کور بر روی بیش از ۶۰۰ سند واقعی، کاربران مستقل در ۷۲٪ موارد OCR 4 را به سایر سیستمهای پیشرو ترجیح دادهاند. این مدل بالاترین امتیاز (۸۵.۲۰) را در بنچمارک OlmOCRBench کسب کرده و در ارزیابی چندزبانه داخلی (Crawl Multilingual) با امتیاز ۰.۹۸ از رقبا پیشی گرفته است.
در بنچمارک OmniDocBench نیز امتیاز ۹۳.۰۷ را به دست آورده است.
مدل به اندازهای جمعوجور است که در یک کانتینر واحد قابل استقرار است و امکان اجرای خودمیزبان (Self-hosted) را فراهم میکند. این ویژگی به سازمانها اجازه میدهد اسناد خود را بدون خروج از زیرساخت اختصاصی پردازش کنند و نیازهای حاکمیتی و حریم خصوصی را برآورده سازند.
#MistralAI #OCR #DocumentUnderstanding #AI
۳۸۹
۷:۲۶
۳۸۹
۷:۲۶
عصر گویش | هوش مصنوعی
Unlimited-OCR از Baidu؛ یک گام فراتر از DeepSeek-OCR در پردازش اسناد طولانی شرکت بایدو به تازگی مدل OCR جدید خود با نام Unlimited-OCR را به صورت متنباز منتشر کرده است. این مدل که با هدف «پردازش یکباره اسناد طولانی» (One-shot Long-horizon Parsing) طراحی شده، با تکیه بر معماری نوین و بهرهگیری از ایدههای الهامگرفته از حافظه کاری انسان، توانسته عملکردی فراتر از مدلهای قبلی از جمله DeepSeek-OCR ارائه دهد. ---
نوآوری کلیدی: Reference Sliding Window Attention (R-SWA) چالش اصلی مدلهای OCR مبتنی بر رمزگشای LLM، رشد خطی حافظه نهان KV با افزایش طول خروجی است که مصرف حافظه را افزایش داده و سرعت را کاهش میدهد. مدلهای قبلی برای رفع این مشکل، اسناد را صفحهبهصفحه و با حلقههای متوالی پردازش میکردند که فرایندی ناپیوسته و ناکارآمد است. Unlimited-OCR با معرفی مکانیزم توجه R-SWA این مشکل را حل کرده است. این روش، حافظه نهان KV را از رشد خطی به یک مقدار ثابت تبدیل میکند. R-SWA از دو بخش تشکیل شده است: - *بخش مرجع (Reference): شامل توکنهای بصری و پرامپت که در کل فرایند رمزگشایی ثابت و قابل مشاهده هستند. - پنجره لغزنده (Sliding Window): شامل ۱۲۸ توکن اخیر که با تولید هر توکن جدید، قدیمیترین توکن از پنجره خارج میشود و اندازه آن ثابت میماند. این طراحی، مشابه حافظه کاری انسان عمل میکند که اطلاعات دور را به تدریج «فراموش میکند» و تمرکز را روی بافت نزدیک حفظ میکند. ---
عملکرد و نتایج* Unlimited-OCR با معماری ۳ میلیارد پارامتری (۵۰۰ میلیون فعال) بر روی بنچمارک OmniDocBench به نتایج قابل توجهی دست یافته است: - کسب امتیاز کلی *۹۳.۹۲٪ در OmniDocBench v1.6 و ثبت رکورد جدید (SOTA). - بهبود بیش از ۶ درصد نسبت به DeepSeek-OCR در نسخه قبلی بنچمارک. - کاهش فاصله ویرایش (Edit Distance) متن از ۰.۰۷۳ به ۰.۰۳۸ و بهبود قابل توجه در تشخیص فرمولها و جداول. - عملکرد چشمگیر در اسناد بلند: پردازش اسناد ۲۰ صفحهای در یک بار با فاصله ویرایش ۰.۰۵۷۲ و اسناد ۴۰ صفحهای با فاصله ویرایش ۰.۱۰۶۹. - توان عملیاتی ۵,۵۸۰ توکن در ثانیه که نسبت به DeepSeek-OCR بهبود ۱۲.۷٪ را نشان میدهد.
نکته کلیدی:* در حالی که تأخیر DeepSeek-OCR با افزایش طول خروجی به طور خطی رشد میکند، تأخیر Unlimited-OCR در تمام طولهای توالی *ثابت باقی میماند. ---
استقرار و دسترسی* Unlimited-OCR تحت مجوز MIT منتشر شده است و از موتورهای اصلی استنتاج مانند *Hugging Face Transformers، vLLM و SGLang پشتیبانی میکند. کد و وزنهای مدل در مخازن زیر در دسترس است: - GitHub: github.com/baidu/Unlimited-OCR - Hugging Face: huggingface.co/baidu/Unlimited-OCR - ModelScope: modelscope.cn/models/PaddlePaddle/Unlimited-OCR ---
جمعبندی* Unlimited-OCR با معرفی مکانیزم R-SWA، گامی اساسی در جهت حل مشکل پردازش اسناد طولانی برداشته است. این مدل با حفظ حافظه نهان KV ثابت، امکان پردازش یکباره دهها صفحه سند را با سرعت و دقت بالا فراهم میکند. R-SWA به عنوان یک مکانیزم توجه عمومی، پتانسیل کاربرد در وظایف توالی طولانی دیگر مانند بازشناسی گفتار (ASR) و ترجمه ماشینی را نیز دارد. انتشار این مدل تحت مجوز MIT، دسترسی و استفاده از آن را برای جامعه پژوهش و توسعه تسهیل کرده است.
*منبع:* arXiv:2606.23050 #OCR #Baidu #DeepSeek #OpenSource
@asrgooyeshpardaz
این مدل دارای 3 میلیارد پارامتر است، اما تنها 500 میلیون فعال میشوند. با این حال، نتایج جدید SOTA را در OmniDocBench نسخههای 1.5 و 1.6 نشان میدهد.
ویژگی اصلی - توجه پنجره لغزنده مرجع (Reference Sliding Window Attention) است.
مدل بر روی موارد زیر تمرکز دارد:
• سند اصلی
• زمینه اخیر
• کلمات بعدی
و همه چیز اضافی به تدریج «فراموش» میشود تا محاسبات افزایش نیابد.
به دلیل اندازه ثابت کش KV و توجه ارزانتر، Unlimited OCR میتواند بیش از 40 صفحه را در یک بار پردازش شناسایی کند، بدون از دست دادن زمینه و بدون کاهش سرعت.
گیتهاب:https://github.com/baidu/Unlimited-OCR
هاگینگ فیس:https://huggingface.co/baidu/Unlimited-OCR
#ocr #baidu
۴۱۲
۷:۴۴
نسخه ۱.۱ این مدل با قابلیتهای جدید عرضه شده است:- پردازش پرامپتهای بیش از ۲۵۰۰ کاراکتر- ساخت ۶ تا ۸ صحنه متوالی از یک درخواست واحد- تولید ویدیو با کیفیت FullHD- هماهنگی لب و صدا به چندین زبان
۴ حالت مختلف برای تولید: از روی متن، از روی تصویر، انتقال شخصیت بر اساس نمونه و ویرایش ویدیو.
قیمتگذاری از طریق API: ۱۴ سنت به ازای هر ثانیه ویدیوی HD و ۱۸ سنت برای کیفیت ۱۰۸۰p. تا دو هفته اول ۴۰٪ تخفیف اعمال میشود.
منبع: Alibaba در X
---
دو شرکت برای بررسی رفتار سیستمهای حافظه در آموزش و استنتاج مدلهای زبانی بزرگ، همکاری میکنند. مایکرون حافظههای HBM، DRAM و SSD را در اختیار آنتروپیک قرار میدهد و آنتروپیک نیز مدلهای Claude را برای تولید کد و خودکارسازی فرایندهای تولید در اختیار مایکرون میگذارد.
نکتهی قابل توجه: مایکرون همزمان هم سرمایهگذار آنتروپیک است و هم تأمینکنندهی تجهیزات آن. برخی تحلیلگران این نوع قرارداد را «معاملهی دوری» مینامند که میتواند تصویر واقعی از تقاضا در بازار سختافزار هوش مصنوعی را مخدوش کند.
منبع: micron.com
---
گوگل رابط کاربری جدیدی به نام Interactions API را جایگزین متد قبلی (generateContent) در پلتفرم Google AI Studio کرده است. در این روش جدید، نقشهای قبلی (user و model) حذف شده و هر ورودی یا فراخوانی بهعنوان یک گام مجزا ثبت میشود.
قابلیتهای جدید:- مدیریت عاملهای هوش مصنوعی- اجرای پسزمینهی وظایف سنگین- یکپارچهسازی با جستجو و نقشههای گوگل- تولید محتوای چندرسانهای- دو حالت جدید: Flex با ۵۰٪ کاهش هزینه و Priority با حداکثر سرعت
منبع: blog.google
---
شرکت کانونیکال قصد دارد قابلیت تبدیل گفتار به متن را با نام Myna به نسخهی دسکتاپ اوبونتو اضافه کند. این ابزار در نسخهی Ubuntu 26.10 و برای محیط GNOME در دسترس خواهد بود.
معماری Myna از سه بخش تشکیل شده: دریافت و پالایش صدا، مدیریت جلسه و پردازش در محیط ایزوله. مدل بهصورت آفلاین و پس از دانلود وزنها کار میکند، اما در نسخههای اولیه از گوشدادن پسزمینه یا ورود صوتی رمزها پشتیبانی نمیشود.
منبع: ubuntu.com
---
طبق یک قرارداد چندساله، عکسهای کتابخانهی عظیم Getty Images در نتایج جستجوی ChatGPT نمایش داده میشوند. پیشتر گتی از استیبلدیفیوژن به دلیل استفادهی غیرمجاز از تصاویرش شکایت کرده بود، اما حالا با OpenAI همکاری میکند.
همزمان، گتی در انتظار تأیید نهادهای نظارتی برای خرید رقیب خود، Shutterstock، است. جزئیات مالی قرارداد با OpenAI و اینکه آیا این شرکت اجازهی استفاده از تصاویر گتی را برای آموزش مدلهای خود دارد، هنوز مشخص نیست.
منبع: gettyimages.com
--- #هوش_مصنوعی #اخبار_فناوری #AI
۴۲۳
۷:۵۱
این شرکت مدل تخصصی GPT-5.5-Cyber را برای کارشناسان امنیت اطلاعات و همچنین بهروزرسانی افزونه Codex Security منتشر کرده است.
دسترسی به مدل GPT-5.5-Cyber فقط برای کاربران تأییدشده فراهم است. این مدل برای کاهش موارد拒回答 در پردازش درخواستهای تخصصی امنیتی تنظیم شده است.
نسخه بهروز شده Codex Security کد را اسکن میکند، بردارهای حمله را تحلیل میکند، قابلیت دسترسی به کدهای آسیبپذیر را بررسی و برای آنها وصله (پچ) تولید میکند. این ابزار از پردازش گزارشهای باگ از اسکنرهای خارجی و خروجی داده از طریق فایلهای SARIF یا درخواستهای CodeQL پشتیبانی میکند.
همچنین همراه با HackerOne و Trail of Bits، برنامه Patch the Planet را برای محافظت خودکار از پروژههای متنباز راهاندازی کرده است. پروژههای cURL، Python و Go به این برنامه پیوستهاند.
منبع: openai.com
---
این شرکت برنامهای برای جامعه کارمندان سابق خود که پروژههای هوش مصنوعی ایجاد میکنند، معرفی کرده است. هدف این ابتکار جلوگیری از مهاجرت استعدادها به رقبا است.
گوگل قصد دارد پروژههای جدید را در مراحل اولیه جذب کند تا رهبران آینده بازار را به زیرساخت Google Cloud متصل نگه دارد.
در مرحله اول ۱۲ هفتهای، ۱۰ تا ۲۰ تیم انتخاب خواهند شد. هر تیم تا ۱۰۰ هزار دلار بودجه مستقیم و ۳۵۰ هزار دلار اعتبار برای خدمات ابری دریافت میکند. شرکتکنندگان همچنین به مدلهای گوگل قبل از انتشار عمومی دسترسی خواهند داشت.
شرکای این پروژه شامل استودیوی سرمایهگذاری Key Studio و پلتفرم Xoogler.co (با بیش از ۳۵ هزار عضو از کارمندان سابق گوگل در سراسر جهان) هستند. مربیگری توسط مدیران ارشد با تجربه، از جمله ماریسا مایر (مدیرعامل سابق یاهو) انجام میشود.
منبع: bloomberg.com
---
Halos for Robotics یک پلتفرم سختافزاری-نرمافزاری برای تعامل ایمن رباتهای خودمختار با انسانها در محیطهای صنعتی است.
بخش سختافزاری شامل ماژول IGX Thor و دروازه سنسور Holoscan Sensor Bridge برای پردازش دادههای حسگرها است. بخش نرمافزاری بر پایه Halos OS با هسته Halos Core ساخته شده و از سیستمهای عامل بلادرنگ تأییدشده مانند BlackBerry QNX پشتیبانی میکند.
انویدیا یک طرح مرجع متنباز برای ایمنی منتشر کرده که از دوربینهای خارجی برای نظارت بر نقاط کور ربات استفاده میکند. همچنین یک آزمایشگاه تأیید با مجوز ANSI برای تست انطباق محصولات راهاندازی کرده است.
شرکت Agility Robotics اولین یکپارچهکننده این فناوری است و قطعات Halos را در رباتهای Digit خود پیادهسازی میکند.
منبع: nvidia.com
---
Ads Engine موتوری برای ترجمه خودکار تبلیغات به ۵۰ زبان است. این سیستم با پنلهای تبلیغاتی یکپارچه میشود، مواد اولیه را دریافت، محلیسازی و دوباره بارگذاری میکند.
این ابزار از فناوری Dubbing V2 استفاده میکند که صدا را ترجمه و صدای گوینده را با حفظ لحن اصلی کپی میکند. همچنین ویدیو را تطبیق میدهد: زیرنویسها را ترجمه و ترکیب فریمها را تغییر میدهد.
سیستم نظارت بر عملکرد نیز تعبیه شده است که کاهش نرخ تبدیل را ردیابی کرده و در صورت نیاز به تغییر محتوا هشدار میدهد. قابلیت نظارت و بازبینی دستی در طرح Scale موجود است.
امکانات پایه Ads Engine در اشتراک Pro گنجانده شده (با محدودیت در تعداد حسابهای تبلیغاتی، زبانها و تولیدات). این ابزار فقط از طریق وب در دسترس است و API ندارد.
منبع: elevenlabs.io
---
این شرکت نیروی خود را ۱۳ درصد کاهش داده (از ۱۶۲ هزار به ۱۴۱ هزار نفر). بر اساس گزارش سالانه، تعدیل ۲۱ هزار نفر به دلیل پیادهسازی هوش مصنوعی در فرایندهای داخلی و تخصیص مجدد منابع است.
هزینههای پایان کار و هزینههای مرتبط به ۱.۸ میلیارد دلار رسیده که ۵ برابر بیشتر از هزینه بازسازی سال قبل است. بودجه صرفهجوییشده صرف ساخت مراکز داده جدید خواهد شد.
اوراکل به تغییر ساختار واحدهای مهندسی خود با تمرکز بر خدمات ابری و محصولات هوش مصنوعی ادامه خواهد داد.
منبع: bbc.com
--- #news #ai
۵۳۲
۹:۳۹
روزنامه وال استریت ژورنال با استناد به اسناد دادگاه پرونده «ایلان ماسک علیه OpenAI»، از ارتباط نزدیک قراردادهای این شرکت با افزایش ثروت شخصی مدیرعامل آن خبر داده است.
جالب اینجاست که خود آلتمن سهمی در مالکیت OpenAI ندارد و درآمدش به شدت به سرمایهگذاریهای خارجی وابسته است.
🟡 مکانیزم اثرگذاریOpenAI با یک استارتاپ قرارداد همکاری میبندد و باعث افزایش ارزش آن میشود. در ادامه، سهامداران بزرگی مثل Thrive Capital یا شرکای تجاری مثل SoftBank سهام آن استارتاپ را میخرند. از آنجایی که آلتمن شخصاً در آن استارتاپها سرمایهگذاری کرده، ثروتش به طور غیرمستقیم افزایش پیدا میکند.
🟡 بررسی سه مورد عینی
البته خود آلتمن و مقامات شرکتهای مربوطه معتقدند که این نوع همکاریها، رویهای کاملاً عادی و رایج در دنیای تجارت است.
#اخبار_هوش_مصنوعی #AI #ML
۳۱۰
۱۸:۳۶