هوش مصنوعی هندی، رقیب ارزانتر مدلهای مولد ویدیو
یک استارتآپ هندی نوعی مدل هوش مصنوعی مولد ویدیو ساخته که نسبت به مدلهای دیگر ارزانتر و سریعتر است و درباره هند آگاهی فرهنگی دارد.
خروجی مدل هوش مصنوعی هند در مقایسه با آمریکا، اروپا و چین کند بوده است. تنها تعداد کمی از استارتآپهای این کشور، مدلهای هوش مصنوعی را منتشر میکنند و بیشتر آنها مدلهای زبانی بزرگ یا مدلهای صوتی هستند.
به نقل از تککرانچ، دولت هند برای تشویق توسعه بیشتر، طرح «India AI Mission» را راهاندازی کرد که یک طرح تقریباً ۱.۲ میلیارد دلاری است و در کنار موارد دیگر، به استارتآپهای منتخب در ازای انتشار عمومی مدلهایشان، دسترسی به محاسبات GPU یارانهای را میدهد. یکی از ۱۲ استارتآپ انتخابشده برای این برنامه، «آواتار ایآی»(Avataar AI) است و یک مدل جدید مولد ویدیو به نام «واریا»(Varya) را ارائه داده که به درک محتوای محلی مانند شناسایی جشنوارهها، غذا و لباسهای گوناگون کمک میکند.
این استارتآپ تحت حمایت شرکت «پیک ایکسوی»(Peak XV) که بر ایجاد مدلهای مولد ویدیو برای تجارت الکترونیک تمرکز دارد، واریا را از ابتدا نساخته است. این استارتآپ با یک مدل مولد ویدیوی در دسترس عموم موسوم به «Wan 2.2» شرکت «علیبابا»(Alibaba) شروع به کار کرد و از روشی به نام «تقطیر» که فشردهسازی قابلیتهای مدل در یک نسخه سبکتر و سریعتر است و برای موارد استفاده خاص آن تنظیم شده، بهره برد. نتیجه این کار، مدلی است که به جای ۵۰ مرحله Wan 2.2، در چهار مرحله اجرا میشود و ویدیو را ۱۰ برابر سریعتر و با کسری از هزینه تولید میکند.
به طور خلاصه، واریا با استفاده از پردازنده گرافیکی H200 شرکت «انویدیا»(Nvidia) میتواند یک کلیپ پنجثانیهای با کیفیت 720p را در ۴۵ ثانیه تولید کند؛ در حالی که این زمان برای Wan 2.2، حدود ۱۲۳۰ ثانیه است.
شاید قابلتوجهترین جنبه واریا، قیمت آن باشد. آواتار ایآی قصد دارد برای هر ثانیه ویدیو در سرویس میزبانیشدهاش، ۰.۴۸ روپیه معادل ۰.۰۰۵ دلار دریافت کند. این مدل بسیار ارزانتر از مدلهایی مانند «وئو»(Veo)، «کلینگ»(Kling)، «لوما»(Luma) و «رانوی»(Runway) است که معمولاً ۰.۱۰ دلار یا بیشتر در هر ثانیه دریافت میکنند.
«راجان آناندان»(Rajan Anandan)، مدیرعامل پیک ایکسوی گفت: هند بازاری با اولویت ویدیو است. ما این موضوع را در همه محصولات اینترنتی بزرگ مصرفی هند میبینیم. ویدیو بر متن پیروز میشود. مدلهای کنونی هوش مصنوعی مولد ویدیو برای استفاده در مقیاس جمعیتی هند بسیار گران هستند.
اگر قرار است هوش مصنوعی مولد ویدیو به دانشآموزان، آموزگاران، شرکتهای کوچک و متوسط، تولیدکنندگان محتوا، شرکتها و خدمات عمومی برسد، هزینهها باید به طرز چشمگیری کاهش یابد. هزینه، بزرگترین عامل بازدارنده برای پذیرش هوش مصنوعی در هند است.
مدلهای مولد تصویر و ویدیو اغلب ظرافتهای فرهنگی را نادیده میگیرند و خروجیهای کلیشهای یا عمومی تولید میکنند. آواتار ایآی میگوید از دادههای گردآوریشده برای آموزش واریا به منظور تشخیص ظرافتهای فرهنگی از جمله غذا، لباس، معماری و جشنوارهها استفاده کرده است.
نظر شما