لوگوی پیام رسان بلهدانلود «بله»
عکس پروفایل عصر گویش | هوش مصنوعیع
۴۴.۴ هزار عضو

عصر گویش | هوش مصنوعی

مجله هوش مصنوعی عصر گویش
@AgpArianabot ربات تبدیل متن به گفتار@AgpNevisabot ربات تبدیل گفتار به متن
021 61931000
مشاهده در اپلیکیشن بلهمشاهده در وب بله
۳ تیر
thumbnail

۵۱۹

۶:۵۷

thumbnail
undefined VibeThinker-3B: اندازه مهم نیست، کارایی مهم است!
شرکت سینا ویبو از مدل جدید خود با نام VibeThinker-3B رونمایی کرده است. این مدل با تنها ۳ میلیارد پارامتر، در برخی از سخت‌ترین آزمون‌های منطقی به پای مدل‌های غول‌پیکری مثل Gemini 3 Pro و DeepSeek V3.2 رسیده است.
undefined عملکرد خیره‌کننده در اعداد:
- undefined ریاضیات: امتیاز ۹۴.۳ در آزمون AIME26 (که با فناوری CLR به ۹۷.۱ می‌رسد). این یعنی این مدل کوچک در ریاضیات در سطح بهترین مدل‌های دنیا قرار دارد.
- undefined برنامه‌نویسی: موفقیت ۸۰.۲٪ در بنچمارک LiveCodeBench و ۹۶.۱٪ قبولی در مسائل جدید LeetCode. این یعنی مدل حتی در مواجهه با مسائل ناآشنا و جدید، عملکرد فوق‌العاده‌ای دارد.
- undefined دقت در پیروی از دستورات: امتیاز ۹۳.۴ در آزمون IFEval نشان می‌دهد که توانایی بالای استدلال این مدل، به قیمت از دست دادن توانایی پیروی از دستورات دقیق کاربر تمام نشده است.
undefined راز موفقیت چیست؟
تیم سازنده از رویکرد جدیدی به نام «از طیف تا سیگنال» و یک روش آموزش چندمرحله‌ای مبتنی بر یادگیری تقویتی استفاده کرده است. فرضیه آن‌ها این است که هسته‌ی منطقی مدل را می‌توان به شدت فشرده کرد، در حالی که پارامترهای حجیم بیشتر برای ذخیره‌سازی اطلاعات عمومی و دانش دایرةالمعارفی مورد نیاز هستند.
undefined نتیجه‌گیری:
VibeThinker-3B نشان می‌دهد که برای رسیدن به هوش مصنوعی قدرتمند، همیشه نیازی به مدل‌های با میلیاردها پارامتر نیست. با روش‌های آموزشی هوشمندانه، می‌توان مدل‌های کوچک و کارآمدی ساخت که در حوزه‌های خاص (مانند ریاضیات و برنامه‌نویسی) با غول‌های صنعت رقابت کنند. این یعنی هوش مصنوعی قدرتمند، قابل‌دسترس‌تر از چیزی است که فکر می‌کنیم.
undefined منبع: مقاله روی arXiv
#AI #VibeThinker #هوش_مصنوعی
undefined @asrgooyeshpardaz

۵۲۰

۶:۵۷

thumbnail
گیف
۰۰:۱۴
undefined Unlimited-OCR از Baidu؛ یک گام فراتر از DeepSeek-OCR در پردازش اسناد طولانی
شرکت بایدو به تازگی مدل OCR جدید خود با نام Unlimited-OCR را به صورت متن‌باز منتشر کرده است. این مدل که با هدف «پردازش یک‌باره اسناد طولانی» (One-shot Long-horizon Parsing) طراحی شده، با تکیه بر معماری نوین و بهره‌گیری از ایده‌های الهام‌گرفته از حافظه کاری انسان، توانسته عملکردی فراتر از مدل‌های قبلی از جمله DeepSeek-OCR ارائه دهد.
---
undefined نوآوری کلیدی: Reference Sliding Window Attention (R-SWA)
چالش اصلی مدل‌های OCR مبتنی بر رمزگشای LLM، رشد خطی حافظه نهان KV با افزایش طول خروجی است که مصرف حافظه را افزایش داده و سرعت را کاهش می‌دهد. مدل‌های قبلی برای رفع این مشکل، اسناد را صفحه‌به‌صفحه و با حلقه‌های متوالی پردازش می‌کردند که فرایندی ناپیوسته و ناکارآمد است.
Unlimited-OCR با معرفی مکانیزم توجه R-SWA این مشکل را حل کرده است. این روش، حافظه نهان KV را از رشد خطی به یک مقدار ثابت تبدیل می‌کند. R-SWA از دو بخش تشکیل شده است:- *بخش مرجع (Reference): شامل توکن‌های بصری و پرامپت که در کل فرایند رمزگشایی ثابت و قابل مشاهده هستند.
-
پنجره لغزنده (Sliding Window): شامل ۱۲۸ توکن اخیر که با تولید هر توکن جدید، قدیمی‌ترین توکن از پنجره خارج می‌شود و اندازه آن ثابت می‌ماند.

این طراحی، مشابه حافظه کاری انسان عمل می‌کند که اطلاعات دور را به تدریج «فراموش می‌کند» و تمرکز را روی بافت نزدیک حفظ می‌کند.

---

undefined
عملکرد و نتایج*

Unlimited-OCR با معماری ۳ میلیارد پارامتری (۵۰۰ میلیون فعال) بر روی بنچمارک OmniDocBench به نتایج قابل توجهی دست یافته است:
- کسب امتیاز کلی *۹۳.۹۲٪ در OmniDocBench v1.6 و ثبت رکورد جدید (SOTA).
- بهبود بیش از
۶ درصد نسبت به DeepSeek-OCR در نسخه قبلی بنچمارک.
- کاهش فاصله ویرایش (Edit Distance) متن از ۰.۰۷۳ به
۰.۰۳۸ و بهبود قابل توجه در تشخیص فرمول‌ها و جداول.
- عملکرد چشمگیر در اسناد بلند: پردازش اسناد ۲۰ صفحه‌ای در یک بار با فاصله ویرایش
۰.۰۵۷۲ و اسناد ۴۰ صفحه‌ای با فاصله ویرایش ۰.۱۰۶۹.
- توان عملیاتی
۵,۵۸۰ توکن در ثانیه که نسبت به DeepSeek-OCR بهبود ۱۲.۷٪ را نشان می‌دهد.

undefined
نکته کلیدی:* در حالی که تأخیر DeepSeek-OCR با افزایش طول خروجی به طور خطی رشد می‌کند، تأخیر Unlimited-OCR در تمام طول‌های توالی *ثابت باقی می‌ماند.

---

undefined
استقرار و دسترسی*

Unlimited-OCR تحت مجوز MIT منتشر شده است و از موتورهای اصلی استنتاج مانند *Hugging Face Transformers، vLLM و SGLang پشتیبانی می‌کند. کد و وزن‌های مدل در مخازن زیر در دسترس است:

-
GitHub: github.com/baidu/Unlimited-OCR
-
Hugging Face: huggingface.co/baidu/Unlimited-OCR
-
ModelScope: modelscope.cn/models/PaddlePaddle/Unlimited-OCR

---

undefined
جمع‌بندی*

Unlimited-OCR با معرفی مکانیزم R-SWA، گامی اساسی در جهت حل مشکل پردازش اسناد طولانی برداشته است. این مدل با حفظ حافظه نهان KV ثابت، امکان پردازش یک‌باره ده‌ها صفحه سند را با سرعت و دقت بالا فراهم می‌کند. R-SWA به عنوان یک مکانیزم توجه عمومی، پتانسیل کاربرد در وظایف توالی طولانی دیگر مانند بازشناسی گفتار (ASR) و ترجمه ماشینی را نیز دارد. انتشار این مدل تحت مجوز MIT، دسترسی و استفاده از آن را برای جامعه پژوهش و توسعه تسهیل کرده است.
undefined *منبع:* arXiv:2606.23050
#OCR #Baidu #DeepSeek #OpenSource
undefined @asrgooyeshpardaz

۴۱۰

۷:۱۲

thumbnail
undefined میسترال از OCR 4 رونمایی کرد؛ مدلی که اسناد را به ساختار تبدیل می‌کند
شرکت میسترال (Mistral AI) از جدیدترین نسخه مدل OCR خود با نام OCR 4 رونمایی کرده است. این مدل فراتر از تشخیص متن ساده عمل کرده و اسناد را به یک ساختار منسجم و قابل استفاده تبدیل می‌کند.
undefined قابلیت‌های کلیدی:
- تشخیص بلوک‌ها با جعبه‌های محدود (Bounding Boxes): هر عنصر سند (متن، جدول، عنوان، تصویر) با مختصات دقیق مشخص می‌شود.
- طبقه‌بندی انواع عناصر: تشخیص خودکار انواع محتوای سند شامل عنوان، زیرعنوان، جدول، فرمول، امضا و تصویر.
- نمره اطمینان در سطح صفحه و کلمه: نشان‌دهنده میزان اطمینان مدل در تشخیص هر بخش از سند.
- پشتیبانی از ۱۷۰ زبان: در ۱۰ گروه زبانی مختلف.
undefined کاربرد اصلی:
هدف اصلی این مدل صرفاً «تشخیص متن» نیست، بلکه تبدیل اسناد به ساختاری است که بتوان از آن در سیستم‌های RAG، جستجوی سازمانی، ویرایش و بازبینی انسانی و خطوط لوله عامل‌های هوش مصنوعی استفاده کرد.
undefined عملکرد و نتایج:
در یک مقایسه کور بر روی بیش از ۶۰۰ سند واقعی، کاربران مستقل در ۷۲٪ موارد OCR 4 را به سایر سیستم‌های پیشرو ترجیح داده‌اند. این مدل بالاترین امتیاز (۸۵.۲۰) را در بنچمارک OlmOCRBench کسب کرده و در ارزیابی چندزبانه داخلی (Crawl Multilingual) با امتیاز ۰.۹۸ از رقبا پیشی گرفته است.
در بنچمارک OmniDocBench نیز امتیاز ۹۳.۰۷ را به دست آورده است.
undefined امنیت و استقرار:
مدل به اندازه‌ای جمع‌وجور است که در یک کانتینر واحد قابل استقرار است و امکان اجرای خودمیزبان (Self-hosted) را فراهم می‌کند. این ویژگی به سازمان‌ها اجازه می‌دهد اسناد خود را بدون خروج از زیرساخت اختصاصی پردازش کنند و نیازهای حاکمیتی و حریم خصوصی را برآورده سازند.
undefined اطلاعات بیشتر:بیانیه رسمی میسترال
#MistralAI #OCR #DocumentUnderstanding #AI
undefined @asrgooyeshpardaz

۳۸۹

۷:۲۶

thumbnail

۳۸۹

۷:۲۶

عصر گویش | هوش مصنوعی
undefined Unlimited-OCR از Baidu؛ یک گام فراتر از DeepSeek-OCR در پردازش اسناد طولانی شرکت بایدو به تازگی مدل OCR جدید خود با نام Unlimited-OCR را به صورت متن‌باز منتشر کرده است. این مدل که با هدف «پردازش یک‌باره اسناد طولانی» (One-shot Long-horizon Parsing) طراحی شده، با تکیه بر معماری نوین و بهره‌گیری از ایده‌های الهام‌گرفته از حافظه کاری انسان، توانسته عملکردی فراتر از مدل‌های قبلی از جمله DeepSeek-OCR ارائه دهد. --- undefined نوآوری کلیدی: Reference Sliding Window Attention (R-SWA) چالش اصلی مدل‌های OCR مبتنی بر رمزگشای LLM، رشد خطی حافظه نهان KV با افزایش طول خروجی است که مصرف حافظه را افزایش داده و سرعت را کاهش می‌دهد. مدل‌های قبلی برای رفع این مشکل، اسناد را صفحه‌به‌صفحه و با حلقه‌های متوالی پردازش می‌کردند که فرایندی ناپیوسته و ناکارآمد است. Unlimited-OCR با معرفی مکانیزم توجه R-SWA این مشکل را حل کرده است. این روش، حافظه نهان KV را از رشد خطی به یک مقدار ثابت تبدیل می‌کند. R-SWA از دو بخش تشکیل شده است: - *بخش مرجع (Reference): شامل توکن‌های بصری و پرامپت که در کل فرایند رمزگشایی ثابت و قابل مشاهده هستند. - پنجره لغزنده (Sliding Window): شامل ۱۲۸ توکن اخیر که با تولید هر توکن جدید، قدیمی‌ترین توکن از پنجره خارج می‌شود و اندازه آن ثابت می‌ماند. این طراحی، مشابه حافظه کاری انسان عمل می‌کند که اطلاعات دور را به تدریج «فراموش می‌کند» و تمرکز را روی بافت نزدیک حفظ می‌کند. --- undefined عملکرد و نتایج* Unlimited-OCR با معماری ۳ میلیارد پارامتری (۵۰۰ میلیون فعال) بر روی بنچمارک OmniDocBench به نتایج قابل توجهی دست یافته است: - کسب امتیاز کلی *۹۳.۹۲٪ در OmniDocBench v1.6 و ثبت رکورد جدید (SOTA). - بهبود بیش از ۶ درصد نسبت به DeepSeek-OCR در نسخه قبلی بنچمارک. - کاهش فاصله ویرایش (Edit Distance) متن از ۰.۰۷۳ به ۰.۰۳۸ و بهبود قابل توجه در تشخیص فرمول‌ها و جداول. - عملکرد چشمگیر در اسناد بلند: پردازش اسناد ۲۰ صفحه‌ای در یک بار با فاصله ویرایش ۰.۰۵۷۲ و اسناد ۴۰ صفحه‌ای با فاصله ویرایش ۰.۱۰۶۹. - توان عملیاتی ۵,۵۸۰ توکن در ثانیه که نسبت به DeepSeek-OCR بهبود ۱۲.۷٪ را نشان می‌دهد. undefined نکته کلیدی:* در حالی که تأخیر DeepSeek-OCR با افزایش طول خروجی به طور خطی رشد می‌کند، تأخیر Unlimited-OCR در تمام طول‌های توالی *ثابت باقی می‌ماند. --- undefined استقرار و دسترسی* Unlimited-OCR تحت مجوز MIT منتشر شده است و از موتورهای اصلی استنتاج مانند *Hugging Face Transformers، vLLM و SGLang پشتیبانی می‌کند. کد و وزن‌های مدل در مخازن زیر در دسترس است: - GitHub: github.com/baidu/Unlimited-OCR - Hugging Face: huggingface.co/baidu/Unlimited-OCR - ModelScope: modelscope.cn/models/PaddlePaddle/Unlimited-OCR --- undefined جمع‌بندی* Unlimited-OCR با معرفی مکانیزم R-SWA، گامی اساسی در جهت حل مشکل پردازش اسناد طولانی برداشته است. این مدل با حفظ حافظه نهان KV ثابت، امکان پردازش یک‌باره ده‌ها صفحه سند را با سرعت و دقت بالا فراهم می‌کند. R-SWA به عنوان یک مکانیزم توجه عمومی، پتانسیل کاربرد در وظایف توالی طولانی دیگر مانند بازشناسی گفتار (ASR) و ترجمه ماشینی را نیز دارد. انتشار این مدل تحت مجوز MIT، دسترسی و استفاده از آن را برای جامعه پژوهش و توسعه تسهیل کرده است. undefined *منبع:* arXiv:2606.23050 #OCR #Baidu #DeepSeek #OpenSource undefined @asrgooyeshpardaz
thumbnail
undefined بایدو مدل Unlimited OCR را منتشر کرد - مدلی برای شناسایی اسناد طولانی در یک بار پردازش.
این مدل دارای 3 میلیارد پارامتر است، اما تنها 500 میلیون فعال می‌شوند. با این حال، نتایج جدید SOTA را در OmniDocBench نسخه‌های 1.5 و 1.6 نشان می‌دهد.
ویژگی اصلی - توجه پنجره لغزنده مرجع (Reference Sliding Window Attention) است.
مدل بر روی موارد زیر تمرکز دارد:
• سند اصلی
• زمینه اخیر
• کلمات بعدی
و همه چیز اضافی به تدریج «فراموش» می‌شود تا محاسبات افزایش نیابد.
به دلیل اندازه ثابت کش KV و توجه ارزان‌تر، Unlimited OCR می‌تواند بیش از 40 صفحه را در یک بار پردازش شناسایی کند، بدون از دست دادن زمینه و بدون کاهش سرعت.
گیت‌هاب:https://github.com/baidu/Unlimited-OCR
هاگینگ فیس:https://huggingface.co/baidu/Unlimited-OCR
#ocr #baidu
undefined @asrgooyeshpardaz
undefined۱

۴۱۲

۷:۴۴

undefinedاخبار هوش مصنوعی
undefined به‌روزرسانی مدل ویدیویی HappyHorse از علی‌بابا
نسخه ۱.۱ این مدل با قابلیت‌های جدید عرضه شده است:- پردازش پرامپت‌های بیش از ۲۵۰۰ کاراکتر- ساخت ۶ تا ۸ صحنه متوالی از یک درخواست واحد- تولید ویدیو با کیفیت FullHD- هماهنگی لب و صدا به چندین زبان
۴ حالت مختلف برای تولید: از روی متن، از روی تصویر، انتقال شخصیت بر اساس نمونه و ویرایش ویدیو.
قیمت‌گذاری از طریق API: ۱۴ سنت به ازای هر ثانیه ویدیوی HD و ۱۸ سنت برای کیفیت ۱۰۸۰p. تا دو هفته اول ۴۰٪ تخفیف اعمال می‌شود.
منبع: Alibaba در X
---
undefined همکاری آنتروپیک و مایکرون در طراحی معماری حافظه
دو شرکت برای بررسی رفتار سیستم‌های حافظه در آموزش و استنتاج مدل‌های زبانی بزرگ، همکاری می‌کنند. مایکرون حافظه‌های HBM، DRAM و SSD را در اختیار آنتروپیک قرار می‌دهد و آنتروپیک نیز مدل‌های Claude را برای تولید کد و خودکارسازی فرایندهای تولید در اختیار مایکرون می‌گذارد.
نکته‌ی قابل توجه: مایکرون هم‌زمان هم سرمایه‌گذار آنتروپیک است و هم تأمین‌کننده‌ی تجهیزات آن. برخی تحلیلگران این نوع قرارداد را «معامله‌ی دوری» می‌نامند که می‌تواند تصویر واقعی از تقاضا در بازار سخت‌افزار هوش مصنوعی را مخدوش کند.
منبع: micron.com
---
undefined Interactions API گوگل به‌صورت عمومی منتشر شد
گوگل رابط کاربری جدیدی به نام Interactions API را جایگزین متد قبلی (generateContent) در پلتفرم Google AI Studio کرده است. در این روش جدید، نقش‌های قبلی (user و model) حذف شده و هر ورودی یا فراخوانی به‌عنوان یک گام مجزا ثبت می‌شود.
قابلیت‌های جدید:- مدیریت عامل‌های هوش مصنوعی- اجرای پس‌زمینه‌ی وظایف سنگین- یکپارچه‌سازی با جستجو و نقشه‌های گوگل- تولید محتوای چندرسانه‌ای- دو حالت جدید: Flex با ۵۰٪ کاهش هزینه و Priority با حداکثر سرعت
منبع: blog.google
---
undefined تشخیص گفتار به اوبونتو می‌آید
شرکت کانونیکال قصد دارد قابلیت تبدیل گفتار به متن را با نام Myna به نسخه‌ی دسکتاپ اوبونتو اضافه کند. این ابزار در نسخه‌ی Ubuntu 26.10 و برای محیط GNOME در دسترس خواهد بود.
معماری Myna از سه بخش تشکیل شده: دریافت و پالایش صدا، مدیریت جلسه و پردازش در محیط ایزوله. مدل به‌صورت آفلاین و پس از دانلود وزن‌ها کار می‌کند، اما در نسخه‌های اولیه از گوش‌دادن پس‌زمینه یا ورود صوتی رمزها پشتیبانی نمی‌شود.
منبع: ubuntu.com
---
undefined تصاویر Getty Images به ChatGPT اضافه می‌شوند
طبق یک قرارداد چندساله، عکس‌های کتابخانه‌ی عظیم Getty Images در نتایج جستجوی ChatGPT نمایش داده می‌شوند. پیش‌تر گتی از استیبل‌دیفیوژن به دلیل استفاده‌ی غیرمجاز از تصاویرش شکایت کرده بود، اما حالا با OpenAI همکاری می‌کند.
هم‌زمان، گتی در انتظار تأیید نهادهای نظارتی برای خرید رقیب خود، Shutterstock، است. جزئیات مالی قرارداد با OpenAI و اینکه آیا این شرکت اجازه‌ی استفاده از تصاویر گتی را برای آموزش مدل‌های خود دارد، هنوز مشخص نیست.
منبع: gettyimages.com
--- #هوش_مصنوعی #اخبار_فناوری #AI
undefined @asrgooyeshpardaz

۴۲۳

۷:۵۱

undefinedاخبار هوش مصنوعی
undefined OpenAI حضور خود را در حوزه امنیت سایبری گسترش می‌دهد
این شرکت مدل تخصصی GPT-5.5-Cyber را برای کارشناسان امنیت اطلاعات و همچنین به‌روزرسانی افزونه Codex Security منتشر کرده است.
دسترسی به مدل GPT-5.5-Cyber فقط برای کاربران تأییدشده فراهم است. این مدل برای کاهش موارد拒回答 در پردازش درخواست‌های تخصصی امنیتی تنظیم شده است.
نسخه به‌روز شده Codex Security کد را اسکن می‌کند، بردارهای حمله را تحلیل می‌کند، قابلیت دسترسی به کدهای آسیب‌پذیر را بررسی و برای آنها وصله (پچ) تولید می‌کند. این ابزار از پردازش گزارش‌های باگ از اسکنرهای خارجی و خروجی داده از طریق فایل‌های SARIF یا درخواست‌های CodeQL پشتیبانی می‌کند.
همچنین همراه با HackerOne و Trail of Bits، برنامه Patch the Planet را برای محافظت خودکار از پروژه‌های متن‌باز راه‌اندازی کرده است. پروژه‌های cURL، Python و Go به این برنامه پیوسته‌اند.
منبع: openai.com
---
undefined گوگل برنامه شتاب‌دهی هوش مصنوعی برای کارمندان سابق خود راه‌اندازی کرد
این شرکت برنامه‌ای برای جامعه کارمندان سابق خود که پروژه‌های هوش مصنوعی ایجاد می‌کنند، معرفی کرده است. هدف این ابتکار جلوگیری از مهاجرت استعدادها به رقبا است.
گوگل قصد دارد پروژه‌های جدید را در مراحل اولیه جذب کند تا رهبران آینده بازار را به زیرساخت Google Cloud متصل نگه دارد.
در مرحله اول ۱۲ هفته‌ای، ۱۰ تا ۲۰ تیم انتخاب خواهند شد. هر تیم تا ۱۰۰ هزار دلار بودجه مستقیم و ۳۵۰ هزار دلار اعتبار برای خدمات ابری دریافت می‌کند. شرکت‌کنندگان همچنین به مدل‌های گوگل قبل از انتشار عمومی دسترسی خواهند داشت.
شرکای این پروژه شامل استودیوی سرمایه‌گذاری Key Studio و پلتفرم Xoogler.co (با بیش از ۳۵ هزار عضو از کارمندان سابق گوگل در سراسر جهان) هستند. مربیگری توسط مدیران ارشد با تجربه، از جمله ماریسا مایر (مدیرعامل سابق یاهو) انجام می‌شود.
منبع: bloomberg.com
---
undefined انویدیا از پلتفرم ایمنی برای ربات‌های فیزیکی رونمایی کرد
Halos for Robotics یک پلتفرم سخت‌افزاری-نرم‌افزاری برای تعامل ایمن ربات‌های خودمختار با انسان‌ها در محیط‌های صنعتی است.
بخش سخت‌افزاری شامل ماژول IGX Thor و دروازه سنسور Holoscan Sensor Bridge برای پردازش داده‌های حسگرها است. بخش نرم‌افزاری بر پایه Halos OS با هسته Halos Core ساخته شده و از سیستم‌های عامل بلادرنگ تأییدشده مانند BlackBerry QNX پشتیبانی می‌کند.
انویدیا یک طرح مرجع متن‌باز برای ایمنی منتشر کرده که از دوربین‌های خارجی برای نظارت بر نقاط کور ربات استفاده می‌کند. همچنین یک آزمایشگاه تأیید با مجوز ANSI برای تست انطباق محصولات راه‌اندازی کرده است.
شرکت Agility Robotics اولین یکپارچه‌کننده این فناوری است و قطعات Halos را در ربات‌های Digit خود پیاده‌سازی می‌کند.
منبع: nvidia.com
---
undefined ElevenLabs ابزار محلی‌سازی تبلیغات را منتشر کرد
Ads Engine موتوری برای ترجمه خودکار تبلیغات به ۵۰ زبان است. این سیستم با پنل‌های تبلیغاتی یکپارچه می‌شود، مواد اولیه را دریافت، محلی‌سازی و دوباره بارگذاری می‌کند.
این ابزار از فناوری Dubbing V2 استفاده می‌کند که صدا را ترجمه و صدای گوینده را با حفظ لحن اصلی کپی می‌کند. همچنین ویدیو را تطبیق می‌دهد: زیرنویس‌ها را ترجمه و ترکیب فریم‌ها را تغییر می‌دهد.
سیستم نظارت بر عملکرد نیز تعبیه شده است که کاهش نرخ تبدیل را ردیابی کرده و در صورت نیاز به تغییر محتوا هشدار می‌دهد. قابلیت نظارت و بازبینی دستی در طرح Scale موجود است.
امکانات پایه Ads Engine در اشتراک Pro گنجانده شده (با محدودیت در تعداد حساب‌های تبلیغاتی، زبان‌ها و تولیدات). این ابزار فقط از طریق وب در دسترس است و API ندارد.
منبع: elevenlabs.io
---
undefined اوراکل ۲۱ هزار کارمند خود را در بحبوحه بازسازی کسب‌وکار حول هوش مصنوعی تعدیل کرد
این شرکت نیروی خود را ۱۳ درصد کاهش داده (از ۱۶۲ هزار به ۱۴۱ هزار نفر). بر اساس گزارش سالانه، تعدیل ۲۱ هزار نفر به دلیل پیاده‌سازی هوش مصنوعی در فرایندهای داخلی و تخصیص مجدد منابع است.
هزینه‌های پایان کار و هزینه‌های مرتبط به ۱.۸ میلیارد دلار رسیده که ۵ برابر بیشتر از هزینه بازسازی سال قبل است. بودجه صرفه‌جویی‌شده صرف ساخت مراکز داده جدید خواهد شد.
اوراکل به تغییر ساختار واحدهای مهندسی خود با تمرکز بر خدمات ابری و محصولات هوش مصنوعی ادامه خواهد داد.
منبع: bbc.com
--- #news #ai
undefined @asrgooyeshpardaz
undefined۱

۵۳۲

۹:۳۹

thumbnail
undefined وال استریت ژورنال: قراردادهای تجاری OpenAI با رشد سرمایه‌گذاری شخصی سم آلتمن گره خورده است
روزنامه وال استریت ژورنال با استناد به اسناد دادگاه پرونده «ایلان ماسک علیه OpenAI»، از ارتباط نزدیک قراردادهای این شرکت با افزایش ثروت شخصی مدیرعامل آن خبر داده است.
جالب اینجاست که خود آلتمن سهمی در مالکیت OpenAI ندارد و درآمدش به شدت به سرمایه‌گذاری‌های خارجی وابسته است.
🟡 مکانیزم اثرگذاریOpenAI با یک استارتاپ قرارداد همکاری می‌بندد و باعث افزایش ارزش آن می‌شود. در ادامه، سهام‌داران بزرگی مثل Thrive Capital یا شرکای تجاری مثل SoftBank سهام آن استارتاپ را می‌خرند. از آنجایی که آلتمن شخصاً در آن استارتاپ‌ها سرمایه‌گذاری کرده، ثروتش به طور غیرمستقیم افزایش پیدا می‌کند.
🟡 بررسی سه مورد عینی
undefined هلیون (Helion):در سال ۲۰۲۵، آلتمن پیشنهاد سرمایه‌گذاری ۵۰۰ میلیون دلاری OpenAI در این استارتاپ همجوشی هسته‌ای را داد (که با نگرانی کارکنان مواجه شد). در مارس ۲۰۲۶ قرارداد همکاری جدیدی بستند و او برای رفع تعارض منافع از هیئت مدیره کنار رفت. نهایتاً در ژوئن ۲۰۲۶، ارزش هلیون به ۱۵.۵ میلیارد دلار رسید و سهام آلتمن حداقل ۴.۱ میلیارد دلار ارزش پیدا کرد.
undefined سربراس (Cerebras):پس از دریافت تعهد خرید از سوی OpenAI و انجام عرضه اولیه (IPO)، ارزش سهام آلتمن در این شرکت تراشه‌سازی نسبت به دسامبر ۲۰۲۵، بیش از ۶ برابر افزایش یافت.
undefined رترو بایوساینسز (Retro Biosciences):پس از امضای قرارداد همکاری علمی با OpenAI، سهام آلتمن در این شرکت فعال در حوزه افزایش عمر، تا دسامبر ۲۰۲۵ به ۲۵۸ میلیون دلار رسید.
undefined طبق گزارش WSJ، حداقل ۱۰ شرکت در پرتفوی سرمایه‌گذاری آلتمن با OpenAI قرارداد تجاری دارند.
undefined واکنش نهادهای نظارتیکمیته نظارت مجلس نمایندگان آمریکا تحقیق رسمی را آغاز کرده و دادستان‌های چند ایالت از کمیسیون بورس و اوراق بهادار (SEC) خواسته‌اند تا پیش از عرضه اولیه سهام OpenAI، این موضوع را بررسی کنند.
البته خود آلتمن و مقامات شرکت‌های مربوطه معتقدند که این نوع همکاری‌ها، رویه‌ای کاملاً عادی و رایج در دنیای تجارت است.
#اخبار_هوش_مصنوعی #AI #ML
undefined @asrgooyeshpardaz

۳۱۰

۱۸:۳۶

thumbnail
🦾 یونیتری R1 | قیمت از ۴۹۰۰ دلار.
undefined @asrgooyeshpardaz
undefined۳

۳۴۵

۱۸:۳۸