تصور کنید هوش مصنوعیای وجود دارد که میتواند متن، تصویر و حتی ویدیو را بخواند (Multimodal)، ببیند و درک کند و با ترکیب اطلاعات از این منابع مختلف، پاسخهای غنیتر و دقیقتری ارائه دهد.
این امکان از طریق سیستم های 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹-𝗔𝘂𝗴𝗺𝗲𝗻𝘁𝗲𝗱 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 (𝗥𝗔𝗚) به دست میاد. این یکی از داغترین زمینه های ریسرچ و از مهمترین اپلیکیشن های مدلهای LLM یا Vision Language Models (VLM) توی صنعت هست.
توی ویدیوی جدیدمون که تو YouTube آپلود شد توضیح دادم که Multimodal RAG چیه، روشهای اصلی پیاده سازی چیا هستن، و اینکه چطور یک مدل مناسب VLM برای تسک مورد نظرمون پیدا کنیم.
اینم لینک اسلایدها:
https://docs.google.com/presentation/d/1T3kenFEk2iZhVcHa3iQOqgWAE89vAoEDbpdb8IqQZWo/edit?usp=sharing
Youtube: https://www.youtube.com/watch?v=qlTSqUEcIlk
منبع : توییتر
این امکان از طریق سیستم های 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹-𝗔𝘂𝗴𝗺𝗲𝗻𝘁𝗲𝗱 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 (𝗥𝗔𝗚) به دست میاد. این یکی از داغترین زمینه های ریسرچ و از مهمترین اپلیکیشن های مدلهای LLM یا Vision Language Models (VLM) توی صنعت هست.
توی ویدیوی جدیدمون که تو YouTube آپلود شد توضیح دادم که Multimodal RAG چیه، روشهای اصلی پیاده سازی چیا هستن، و اینکه چطور یک مدل مناسب VLM برای تسک مورد نظرمون پیدا کنیم.
اینم لینک اسلایدها:
https://docs.google.com/presentation/d/1T3kenFEk2iZhVcHa3iQOqgWAE89vAoEDbpdb8IqQZWo/edit?usp=sharing
Youtube: https://www.youtube.com/watch?v=qlTSqUEcIlk
منبع : توییتر