Tensorflow(@CVision)


Гео и язык канала: Иран, Фарси
Категория: Технологии


اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر
TensorFlow, Keras, Deep Learning, Computer Vision
سایت دوره
http://class.vision
👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

Связанные каналы  |  Похожие каналы

Гео и язык канала
Иран, Фарси
Категория
Технологии
Статистика
Фильтр публикаций




مشکل کد تخفیف رفع شد

gnn_300_fr




Видео недоступно для предпросмотра
Смотреть в Telegram
Veo 3 🔥

آینده ما به سوی هم‌ زیستی با ماشین‌ هایی پیش میره که بهتر از ما فکر می‌کنن. اما اگر ما خود محصولی از داده و پردازش باشیم، چه تفاوتی میان ما و آن‌ ها باقی میمونه؟ آیا ماشین‌ ها روزی خواهند پرسید: «آیا کسی داره پرامپت ما رو می‌ نویسه؟»

شاید در نهایت، همه ما تنها خطوطی از کدی بزرگ باشیم، در حال اجرا، تا زمانی که پردازنده‌ ی هستی خاموش شه


دیتاست کارت ملی ایرانی

https://class.vision/blog/iranian-national-id-card-dataset/

دیتاست شامل ۲٬۰۰۰ تصویر از کارت‌های ملی ایرانی است که با اطلاعات هویتی ساختگی ایجاد شده‌اند. کارت‌ها با کیفیت چاپ کارت‌های واقعی تولید و در شرایط چالش‌برانگیز و غیرکنترل‌شده با دوربین‌های موبایل عکسبرداری شده‌اند.

#دیتاست

2.3k 0 170 10 28

Видео недоступно для предпросмотра
Смотреть в Telegram
یه ویدیوی دیگه با Veo 3 گوگل
به نظر میرسه تو آینده سینما به زودی فقط کارگردان خواهیم داشت و دیگر بازیگر نیازی نیست...


Видео недоступно для предпросмотра
Смотреть в Telegram
قابلیت ترجمۀ زنده با پشتیبانی از زبان فارسی در عینک‌های هوشمند مجهز به اندروید XR


از سال ۲۰۱۷، سخت‌ افزارهای پر مصرف مخصوص AI باعث شدن مصرف برق مراکز داده تا سال ۲۰۲۳ دو برابر شه.

در حالی که ChatGPT در اواخر ۲۰۲۲ منتشر شد، رشد واقعی مصرف انرژی توسط هوش مصنوعی از سال‌ ها قبل آغاز شده بود، از وقتی که AlphaGo با غلبه بر قهرمان بازی Go، جهان رو شوکه کرد و مقاله «Attention is All You Need» دنیای یادگیری ماشین رو دگرگون ساخت.

طبق گزارشی جدید، ۴.۴٪ از کل انرژی مصرفی آمریکا صرف مراکز داده میشه و پیش‌بینی میشه تا سال ۲۰۲۸، تنها هوش مصنوعی به‌اندازه ۲۲٪ از برق مصرفی تمام خانوارهای آمریکا انرژی مصرف کنه.

آیا سیستم‌ های انرژی فعلی تاب این رشد فزاینده رو دارن؟

https://www.technologyreview.com/2025/05/20/1116327/ai-energy-usage-climate-footprint-big-tech/


Видео недоступно для предпросмотра
Смотреть в Telegram
آنچه در Veo 3 بیش از همه با سایر نسخه ها و ابزارهای متن باز مثل Wan یا hunyuan تفاوت ایجاد کرده، نه صرفا توانایی تولید محتوای تصویری در یک مرحله، بلکه امکانات پیشرفته در ویرایش و صداگذاری خودکار هست مثل توانایی در تعریف حرکت، جهت، برش‌ ها و حتی ترکیب صدا با تصویر و حتی لهجه ها!

این ابزار بیشتر به سمت کاربرد های حرفه‌ای، مانند آژانس‌ های تبلیغاتی و تولیدات سینمایی، هدف‌ گذاری شدن.

مسیری که از سال ۲۰۱۴، زمانی که Ian Goodfellow برای نخستین‌ بار معماری GAN رو معرفی کرد، آغاز شد، سالی که تولید تصاویر کدر و پیکسلی برامون هیجان‌انگیز بود تا به امروز، واقعا شگفت‌انگیز و الهام‌ بخشه


راهنمای نصب Gemma 3n برای کاربران اندروید:

فایل APK اپلیکیشن Edge Gallery رو از گیت‌هاب دانلود کنید:

https://github.com/google-ai-edge/gallery/releases/tag/1.0.0

یکی از فایل‌های .task رو از سایت Hugging Face دانلود کنید:

https://huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57b

فایل .task رو با زدن دکمه + در پایین سمت راست، داخل اپلیکیشن Edge Gallery وارد کنید.

همچنین می‌تونید مستقیما از داخل برنامه عکس بگیرید و با مدل گفتگو کنید


Видео недоступно для предпросмотра
Смотреть в Telegram
فناوری‌ای که پشت دوربین و اشتراک‌ گذاری صفحه در Gemini Live قرار داره، حالا با ویژگی‌های هوشمندانه‌ تری معرفی شده .

این فناوری تحت عنوان Project Astra در قالب یک اپلیکیشن اندروید برای برخی کاربران در دسترس قرار گرفته.

نکته جالب اینکه Astra حالا توانایی‌هایی عاملی (agentic) داره، یعنی می‌تونه به صورت هوشمند برخی بخش‌های گوشی اندرویدی شما رو کنترل کنه


Видео недоступно для предпросмотра
Смотреть в Telegram
نمای کلی ویدیویی بزودی به NotebookLM اضافه میشه. فعلا فقط برای زبان انگلیسی در دسترس خواهد بود، اما بزودی میتونید خلاصه‌ های ویدیویی کوتاه از منابع خود مانند فایل‌های PDF، عکس‌ها و سایر محتواها بسازین.


Видео недоступно для предпросмотра
Смотреть в Telegram
Veo 3🔥


Видео недоступно для предпросмотра
Смотреть в Telegram
قابلیت ترجمه زنده در Google Meet


همچنین گوگل مدل Gemini Diffusion رو معرفی کرد که یه مدل زبانی غیرترتیبی هست و با استفاده از روش Diffusion بلوک‌ های متنی رو به‌صورت هم‌ زمان تولید می‌ کنه

https://deepmind.google/models/gemini-diffusion/


طرح «AI Ultra» گوگل با پرداخت ماهیانه ۲۴۹.۹۹ دلار، دسترسی به نسخه‌های پیشرفته هوش مصنوعی رو فراهم میکنه.

ابزار کدنویسی جدید گوگل به نام «Stitch» به توسعه‌
دهندگان در طراحی سریع رابط کاربری کمک می‌کنه


Gemini Live
امکان اشتراک‌ گذاری زنده دوربین با هوش مصنوعی رو به جستجوی گوگل و اپلیکیشن Gemini اضافه کرده


نسخه جدید Gemini 2.5 Pro توانایی‌های بهتری در استدلال، برنامه‌نویسی و کار با ورودی‌ های چند رسانه‌ای پیدا کرده.


گوگل I/O ۲۰۲۵ تا اینجا:

حالت «AI Mode» در جستجوی گوگل به‌ صورت جهانی در حال گسترشه و ویژگی‌ های هوش مصنوعی بیشتری رو اضافه می‌کنه

Google Beam
 نام جدید پروژه «Starline» هست که کیفیت جلسات مجازی رو بهتر می‌کنه.

عینک‌های هوشمند واقعیت ترکیبی (XR) اندروید در راه هستن، با همکاری برندهایی مثل Warby Parker و Gentle Monster.

قابلیت Gemini به مرورگر Google Chrome اضافه شده!

پاسخ‌ های هوشمند جیمیل از هوش مصنوعی استفاده می‌کنن تا با توجه به محتوای ایمیل‌ها و Google Drive، پیشنهاد بدن.

Google Meet 
امکان ترجمه زنده صحبت‌ها رو با حفظ صدای گوینده از طریق هوش مصنوعی فراهم کرده !

Imagen 4
 کیفیت تصاویر تولیدشده با هوش مصنوعی رو با جزئیات ارتقا داده.

Veo 3 
کیفیت تولید ویدیو با هوش مصنوعی رو بالا برده و صداگذاری و دیالوگ رو اضافه کرده!

Flow
ابزار جدید ویرایش ویدیو با هوش مصنوعیه که با Veo 3 و Imagen 4 هماهنگ میشه.

حالت «Agent Mode» در اپلیکیشن Gemini به هوش مصنوعی اجازه میده کارها رو به‌ صورت خودکار انجام بده




گوگل به‌ تازگی مدل‌های جدید Gemma 3n رو در  HuggingFace منتشر کرده.

مدل‌های Gemma 3n برای اجرای بهینه روی دستگاه‌هایی با منابع محدود مثل تلفن همراه به صورت محلی طراحی شدن. این مدل‌ ها توانایی دریافت ورودی‌ های چندرسانه‌ای رو دارن به این معنی که میتونن متن، تصویر، ویدیو و صدا رو پردازش و خروجی متنی تولید کنن. این مدل‌ها با داده‌ های ۱۴۰ زبان آموزش دیدن.

مدل‌های Gemma 3n از فناوری "فعال‌ سازی انتخابی پارامترها" استفاده می‌کنن تا نیاز به منابع رو کاهش بدن. این تکنیک باعث میشه مدل فقط بخش‌ هایی از پارامترهاش رو هنگام انجام یک وظیفه فعال کنه. در نتیجه مصرف حافظه کاهش پیدا میکنه، بدون افت قابل توجه در عملکرد.

https://huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57b

Показано 20 последних публикаций.