Wan2.1 الذكاء الاصطناعي
Wan2.1 هو نموذج توليد الفيديو مفتوح المصدر من Alibaba، ويتصدر معايير VBench بنسبة 86.22%. يتخصص في مهام النص إلى الفيديو والصورة إلى الفيديو، ويُنتج تسلسلات سينمائية بدقة 1080P مع تأثيرات نصية باللغتين الصينية/الإنجليزية، ومحاكاة فيزيائية، وتوليد بطول غير محدود. يعتمد على بنية 3D Causal VAE وDiT للتحكم في الحركة بمستوى هوليوود.
سير العمل الإبداعي
التطبيقات الصناعية
توليد الحملات الإعلانية
إنتاج فيديوهات متوافقة مع العلامة التجارية مع ترجمات ديناميكية وتأثيرات جسيمية.
إنشاء مقاطع الفيديو القصيرة
مناسبة للمبدعين المستقلين لإنشاء أعمال.
ما قبل تصوير الأفلام
إنشاء لوحات قصصية مع حركات كاميرا احترافية.
القدرات الأساسية
المزايا التقنية
كأول نموذج فيديو ذكاء اصطناعي مفتوح المصدر في الصين، يعيد Wan2.1 تعريف رواية القصص المرئية من خلال:
- الاتساق الزمني
- 3D Causal VAE يرمّز أكثر من 3000 إطار مع اتساق حركة بنسبة 98%
- دعم متعدد اللغات
- تأثيرات نصية صينية أصلية + توطين لـ 12 لغة
- كفاءة الأجهزة
- يتطلب 8.2 جيجابايت من VRAM على RTX 4090 لتوليد 480P
- نظام مفتوح
- رخصة Apache 2.0 مع إصدارات نموذج 14B/1.3B
الأسئلة الشائعة
- ما هو Wan2.1؟
Wan2.1 (Tongyi Wanxiang 2.1) هو نموذج توليد الفيديو مفتوح المصدر من Alibaba Cloud، تم إصداره تحت رخصة Apache 2.0. يتخصص في توليد النص إلى الفيديو (T2V) والصورة إلى الفيديو (I2V)، ويستخدم بنى متقدمة مثل 3D Causal VAE وDiffusion Transformer (DiT) لإنتاج فيديوهات عالية الجودة ومتسقة زمنيًا مع تأثيرات سينمائية ومحاكاة فيزيائية واقعية.
- هل يُسمح بالاستخدام التجاري؟
نعم. تحت رخصة Apache 2.0، يمكن تحقيق الربح من الفيديوهات المُولدة بواسطة Wan2.1 في الإعلانات/الأفلام دون الحاجة إلى نسبتها.
- ما هي متطلبات الأجهزة الدنيا؟
نموذج 1.3B يعمل على وحدات معالجة رسومية بسعة 8 جيجابايت (مثل RTX 3060) لتوليد 480P؛ بينما يتطلب نموذج 14B سعة 80 جيجابايت من VRAM لتوليد 720P.
- ما هي المدة القصوى للفيديو؟
توليد فيديوهات بدقة 1080P بطول غير محدود عبر التقسيم الزمني والانتباه السببي.
- ما هي القدرات الفريدة للغة الصينية؟
أول نموذج يدعم رسوم الخط الصيني المتحركة وتصوير الشعر.