هوش مصنوعی هندی، رقیب ارزان‌تر مدل‌های مولد ویدیو

یک استارت‌آپ هندی نوعی مدل هوش مصنوعی مولد ویدیو ساخته که نسبت‌ به مدل‌های دیگر ارزان‌تر و سریع‌تر است و درباره هند آگاهی فرهنگی دارد.

خروجی مدل هوش مصنوعی هند در مقایسه با آمریکا، اروپا و چین کند بوده است. تنها تعداد کمی از استارت‌آپ‌های این کشور، مدل‌های هوش مصنوعی را منتشر می‌کنند و بیشتر آنها مدل‌های زبانی بزرگ یا مدل‌های صوتی هستند.

به نقل از تک‌کرانچ، دولت هند برای تشویق توسعه بیشتر، طرح «India AI Mission» را راه‌اندازی کرد که یک طرح تقریباً ۱.۲ میلیارد دلاری است و در کنار موارد دیگر، به استارت‌آپ‌های منتخب در ازای انتشار عمومی مدل‌هایشان، دسترسی به محاسبات GPU یارانه‌ای را می‌دهد. یکی از ۱۲ استارت‌آپ انتخاب‌شده برای این برنامه، «آواتار ای‌آی»(Avataar AI) است و یک مدل جدید مولد ویدیو به نام «واریا»(Varya) را ارائه داده که به درک محتوای محلی مانند شناسایی جشنواره‌ها، غذا و لباس‌های گوناگون کمک می‌کند.

این استارت‌آپ تحت حمایت شرکت «پیک ایکس‌وی»(Peak XV) که بر ایجاد مدل‌های مولد ویدیو برای تجارت الکترونیک تمرکز دارد، واریا را از ابتدا نساخته است. این استارت‌آپ با یک مدل مولد ویدیوی در دسترس عموم موسوم به «Wan 2.2» شرکت «علی‌بابا»(Alibaba) شروع به کار کرد و از روشی به نام «تقطیر» که فشرده‌سازی قابلیت‌های مدل در یک نسخه سبک‌تر و سریع‌تر است و برای موارد استفاده خاص آن تنظیم شده، بهره برد. نتیجه این کار، مدلی است که به جای ۵۰ مرحله Wan 2.2، در چهار مرحله اجرا می‌شود و ویدیو را ۱۰ برابر سریع‌تر و با کسری از هزینه تولید می‌کند.

به طور خلاصه، واریا با استفاده از پردازنده گرافیکی H200 شرکت «انویدیا»(Nvidia) می‌تواند یک کلیپ پنج‌ثانیه‌ای با کیفیت 720p را در ۴۵ ثانیه تولید کند؛ در حالی که این زمان برای Wan 2.2، حدود ۱۲۳۰ ثانیه است.

شاید قابل‌توجه‌ترین جنبه‌ واریا، قیمت آن باشد. آواتار ای‌آی قصد دارد برای هر ثانیه ویدیو در سرویس میزبانی‌شده‌اش، ۰.۴۸ روپیه معادل ۰.۰۰۵ دلار دریافت کند. این مدل بسیار ارزان‌تر از مدل‌هایی مانند «وئو»(Veo)، «کلینگ»(Kling)، «لوما»(Luma) و «رانوی»(Runway) است که معمولاً ۰.۱۰ دلار یا بیشتر در هر ثانیه دریافت می‌کنند.

«راجان آناندان»(Rajan Anandan)، مدیرعامل پیک ایکس‌وی گفت: هند بازاری با اولویت ویدیو است. ما این موضوع را در همه محصولات اینترنتی بزرگ مصرفی هند می‌بینیم. ویدیو بر متن پیروز می‌شود. مدل‌های کنونی هوش مصنوعی مولد ویدیو برای استفاده در مقیاس جمعیتی هند بسیار گران هستند.

اگر قرار است هوش مصنوعی مولد ویدیو به دانش‌آموزان، آموزگاران، شرکت‌های کوچک و متوسط، تولیدکنندگان محتوا، شرکت‌ها و خدمات عمومی برسد، هزینه‌ها باید به طرز چشمگیری کاهش یابد. هزینه، بزرگترین عامل بازدارنده برای پذیرش هوش مصنوعی در هند است.

مدل‌های مولد تصویر و ویدیو اغلب ظرافت‌های فرهنگی را نادیده می‌گیرند و خروجی‌های کلیشه‌ای یا عمومی تولید می‌کنند. آواتار ای‌آی می‌گوید از داده‌های گردآوری‌شده برای آموزش واریا به منظور تشخیص ظرافت‌های فرهنگی از جمله غذا، لباس، معماری و جشنواره‌ها استفاده کرده است.

اخبار مرتبط

منبع: ايسنا
آیا این خبر مفید بود؟

نتیجه بر اساس رای موافق و رای مخالف

ارسال به دیگران :

نظر شما

وب گردی