في مؤتمرها السنوي re:Invent يوم الثلاثاء، أعلنت خدمات أمازون ويب (AWS)، وحدة الحوسبة السحابية التابعة لشركة أمازون، عن إطلاق مجموعة جديدة من نماذج الذكاء الاصطناعي التوليدية متعددة الأوضاع تحت اسم “Nova“.
وتشمل هذه المجموعة أربعة نماذج لتوليد النصوص هي: “مايكرو”، “لايت”، “برو”، و”بريميير”. تم توافر نماذج “مايكرو”، “لايت”، و”برو” فورًا لعملاء AWS، في حين سيصل نموذج “بريميير” في أوائل 2025، حسبما أعلن الرئيس التنفيذي لشركة أمازون، آندي جاسي، خلال المؤتمر.
إلى جانب تلك النماذج النصية، تم إطلاق نموذجين جديدين لتوليد الوسائط هما “نوفا كانفاس” (لتوليد الصور) و”نوفا ريل” (لتوليد الفيديو)، وكلاهما متاح على AWS بداية من صباح اليوم.
نموذج “Nova” النصي: التفاوت في الحجم والقدرة
تم تصميم نماذج “نوفا” لتوليد النصوص بحيث تدعم 15 لغة، مع التركيز الأساسي على اللغة الإنجليزية، وتتميز بتفاوتات في الحجم والقدرة على معالجة البيانات.
- مايكرو: نموذج صغير جدًا يمكنه معالجة النصوص فقط، لكنه يعد الأسرع من حيث الاستجابة وأقلها تأخيرًا.
- لايت: يمكنه معالجة المدخلات النصية والصورية والفيديو بسرعة معقولة، مما يجعله نموذجًا متعدد الاستخدامات.
- برو: يوفر توازنًا ممتازًا بين الدقة والسرعة والتكلفة، مما يجعله مناسبًا للمهام المتنوعة والمتطلبة.
- بريميير: هو النموذج الأقوى والأكثر تطورًا في المجموعة، وهو مصمم خصيصًا للعمل مع أحمال العمل المعقدة التي تتطلب أداءً أعلى.
تتمتع نماذج “برو” و”بريميير” بقدرة على معالجة النصوص والصور والفيديوهات، مما يجعلها مثالية للمهام التي تشمل تلخيص الوثائق، تحليل الرسوم البيانية، وتقديم ملخصات للاجتماعات.
مثال1:
مثال2:
تفاصيل النوافذ السياقية
- مايكرو يمتلك نافذة سياقية تحتوي على 128,000 رمزًا، مما يعني أنه يمكنه معالجة حوالي 100,000 كلمة.
- لايت وبرو يحتويان على نوافذ سياقية بحجم 300,000 رمزًا، مما يتيح لهما معالجة حوالي 225,000 كلمة، أو 15,000 سطر من التعليمات البرمجية، أو 30 دقيقة من مقاطع الفيديو.
- في أوائل 2025، سيقوم AWS بتوسيع نوافذ سياقية بعض نماذج “نوفا” لدعم أكثر من 2 مليون رمز.
نوفا كانفاس ونوفا ريل: الابتكار في توليد الوسائط
نوفا كانفاس هو أداة قوية لتوليد وتحرير الصور باستخدام النصوص. يتيح للمستخدمين إزالة الخلفيات وتعديل الألوان والتخطيطات الخاصة بالصور المولدة بناءً على الأوامر النصية. كما يتيح لهم تغيير التصاميم بمرونة كبيرة.
أما نوفا ريل، فهو أداة مبتكرة لتوليد مقاطع فيديو تصل مدتها إلى ست ثوانٍ استنادًا إلى أوامر نصية أو صور مرجعية. يمكن للمستخدمين أيضًا ضبط حركة الكاميرا لإنشاء مقاطع فيديو تحتوي على زوايا 360 درجة أو تكبيرات.
رغم أن نوفا ريل يقتصر حاليًا على إنشاء مقاطع فيديو قصيرة (بحد أقصى 6 ثوانٍ)، إلا أن نسخة موسعة قادمة ستسمح بإنشاء مقاطع تصل مدتها إلى دقيقتين، ومن المتوقع أن يتم إطلاقها قريبًا.
ضوابط الاستخدام المسؤول
أكد جاسي أن كلًا من “نوفا كانفاس” و”نوفا ريل” يحتويان على آليات تحكم مدمجة لضمان الاستخدام المسؤول، مثل إضافة العلامات المائية لمحتوى الوسائط وتطبيق إجراءات مراقبة المحتوى. كما أضاف أن هدف AWS هو تقليل إنشاء المحتوى الضار. وقال: “نحن نعمل بجد لتحديد وتقييد إنشاء المحتوى الضار”.
أمان النموذج ووقاية المستخدمين
في مدونة نشرها AWS، أوضحوا أن “نوفا” تمتد لتشمل تدابير أمان متقدمة لمكافحة انتشار المعلومات المضللة، والمواد الضارة مثل المواد الإباحية للأطفال، بالإضافة إلى المخاطر الكيميائية والبيولوجية والإشعاعية. ومع ذلك، لم توضح أمازون كيفية تنفيذ هذه الإجراءات على أرض الواقع أو نوع الإجراءات المتخذة.
الشفافية في البيانات التدريبة
ما زالت أمازون غامضة بشأن البيانات التي تستخدمها لتدريب نماذج الذكاء الاصطناعي، حيث اكتفت بالقول إن البيانات تتضمن مزيجًا من البيانات الملكية والمرخصة. وتجدر الإشارة إلى أن تفاصيل بيانات التدريب تعتبر نقطة حساسة، إذ تُعتبر ميزة تنافسية وتظل سرية للحفاظ على حقوق الملكية الفكرية وحمايتها من الدعاوى القضائية.
النماذج المستقبلية لـ “نوفا”
كشف جاسي أن AWS تعمل على تطوير نموذج لتحويل الكلام إلى كلام، والذي سيكون جاهزًا في الربع الأول من 2025. بالإضافة إلى ذلك، ستطلق الشركة نموذج “أي إلى أي” في منتصف 2025، والذي سيمكن المستخدمين من إدخال نصوص، أصوات، صور، أو مقاطع فيديو وتحويلها إلى أي نوع آخر من المحتوى.
خاتمة
من خلال هذه النماذج المتقدمة، تواصل أمازون دفع حدود تكنولوجيا الذكاء الاصطناعي، حيث تمثل “نوفا” خطوة جديدة في بناء نماذج ذكية يمكنها تحويل مجموعة متنوعة من المدخلات إلى نتائج مبتكرة في مجالات متعددة.