Recommender system dan repost
Video oldindan ko‘rish uchun mavjud emas
Telegram'da ko‘rish
🔥 مدل Omni-RGPT: انقلاب در درک منطقهای تصاویر و ویدئوها! 🔥
ایده اصلی: درک یکپارچه و دقیق مناطق در تصاویر و ویدئوها همیشه چالشبرانگیز بوده، اما تیمی از محققان NVIDIA و دانشگاه Yonsei مدل چندوجهی Omni-RGPT رو طراحی کردن که با معرفی Token Mark، مفهوم درک منطقهای رو متحول کرده.
چی جوری کار میکنه؟
با استفاده از Token Mark، این مدل توکنها رو مستقیماً به مناطق خاص (مثل باکسها یا ماسکها) اختصاص میده و اونها رو به متنها متصل میکنه. این یعنی ارتباطی قویتر و دقیقتر بین تصویر و متن!
ویژگیهای مهم:
✅ Token Mark:
مناطق هدفمند رو به صورت مستقیم تو فضای بصری مشخص میکنه و اونها رو تو پردازش متن لحاظ میکنه.
✅ Auxiliary Task:
تداوم توکنها رو تضمین میکنه و باعث میشه مناطق در ویدئوها پایدار و قابل فهم باشن.
✅ RegVID-300k Dataset:
دیتاست عظیم ویدئویی که مدل رو برای درک دقیقتر آموزش میده.
📄 جزئیات بیشتر: مطالعه مقاله
#OmniRGPT #AI
💎@Recomendersystem2023
ایده اصلی: درک یکپارچه و دقیق مناطق در تصاویر و ویدئوها همیشه چالشبرانگیز بوده، اما تیمی از محققان NVIDIA و دانشگاه Yonsei مدل چندوجهی Omni-RGPT رو طراحی کردن که با معرفی Token Mark، مفهوم درک منطقهای رو متحول کرده.
چی جوری کار میکنه؟
با استفاده از Token Mark، این مدل توکنها رو مستقیماً به مناطق خاص (مثل باکسها یا ماسکها) اختصاص میده و اونها رو به متنها متصل میکنه. این یعنی ارتباطی قویتر و دقیقتر بین تصویر و متن!
ویژگیهای مهم:
✅ Token Mark:
مناطق هدفمند رو به صورت مستقیم تو فضای بصری مشخص میکنه و اونها رو تو پردازش متن لحاظ میکنه.
✅ Auxiliary Task:
تداوم توکنها رو تضمین میکنه و باعث میشه مناطق در ویدئوها پایدار و قابل فهم باشن.
✅ RegVID-300k Dataset:
دیتاست عظیم ویدئویی که مدل رو برای درک دقیقتر آموزش میده.
📄 جزئیات بیشتر: مطالعه مقاله
#OmniRGPT #AI
💎@Recomendersystem2023