شهدت نماذج الذكاء الاصطناعي التوليدي الصوتي قفزة هائلة في الفترة الأخيرة، حيث انحصرت المنافسة بين مدرستين رئيسيتين. الأولى هي "سونو إيه آي" (Suno AI) التي تركز على المحاكاة الهيكلية الكاملة، والثانية هي "غوغل ديب مايند" (Google DeepMind – Lyria) التي تركز على النمذجة الموجية الدقيقة.
أجرت الجزيرة نت تجارب ومقارنات بين هذين النموذجين لتسليط الضوء على الفروق بينهما. حيث أثبتت النتائج أن سونو يعتمد على هندسة مشابهة للنماذج اللغوية الكبيرة (LLMs)، حيث لا يكتب الموسيقى كنوتات، بل يتنبأ بالتوكنات الصوتية استنادًا إلى سياق كبير من البيانات التدريبية.
كما يبرز سونو في فهم "تراتبية الأغنية"، حيث يدرك الفرق بين المقطع واللازمة والجسر، مما يمكنه من توليد مقاطع طويلة تصل إلى 4 دقائق بانسجام لحني مذهل. ومع ذلك، يواجه سونو تحديًا تقنيًا يتمثل في "الضجيج الرقمي"، حيث تندمج الترددات الصوتية للآلات مع الترددات البشرية، مما يصعب عملية الفصل لاحقًا.
البنية التحتية ونمذجة الصوت
من جهة أخرى، "ليريا 3"، المطور من قبل غوغل ديب مايند، يستخدم تقنيات متطورة في معالجة الإشارات الرقمية (DSP) والشبكات العصبية العميقة. يركز على معالجة الموجات الصوتية بشكل مباشر وبجودة احترافية.
ويتميز ليريا بقدرته على ضبط الإيقاع بشكل دقيق، ويحقق معدل عينة وعمق بت عاليين، مما ينتج صوتًا كريستاليًا يضاهي جودة الاستوديو. بالإضافة إلى ذلك، يتميز بتقنية "سينث آي دي"، وهي علامة مائية غير مسموعة تدمج في الموجة الصوتية لحماية الحقوق وتحديد المصدر.
عند معالجة الموسيقى العربية، تظهر الفجوة التقنية في كيفية التعامل مع "الربع تون" والإيقاعات المركبة. إذ يمتلك سونو قاعدة بيانات ضخمة من الأغاني العربية، مما يجعله ينجح في محاكاة الأداء والتعبير الصوتي ببراعة، خاصة في الأنماط الشعبية والبوب.
معالجة الموسيقى العربية
أما ليريا، فيركز على "فيزيائية الآلة"، حيث يقوم بمحاكاة رنين الأوتار بدقة مذهلة، مما يجعله يتفوق في المقطوعات الآلية والموسيقى التصويرية التي تتطلب نقاءً فائقًا. وبهذا، تسعى هذه التطبيقات إلى محاكاة المقامات الشرقية عبر موازنة الترددات الرقمية لتناسب ذائقة المستمع العربي.
ومع ذلك، رغم نجاحها في تقديم ألحان متماسكة، تبقى هذه التطبيقات تعتمد على الأنماط الإحصائية، مما يجعلها بارعة في المحاكاة ولكن تفتقر إلى الروح الأصيلة للارتجال الشرقي. على الرغم من ذلك، تعمل هذه النماذج على تطوير قدراتها لتلبية احتياجات السوق.
لتحقيق أقصى استفادة من هذه التقنيات في مشروع عربي، يمكن اتباع نماذج معينة. للحصول على أفضل نتيجة من سونو، يجب التركيز على "الوصف الذكي" أو التعليمات، حيث يُفضل استخدام الوضع المخصص الذي يمنح تحكمًا كاملاً.
نموذج تطبيقي
عند استخدام سونو، يُنصح باستخدام الكلمات الخاصة وتوجيه الذكاء الاصطناعي عبر وسوم المقاطع مثل [Intro] و[Verse 1] و[Chorus] و[Bridge] و[Outro]. كما يجب تحديد نمط الموسيقى بالتفصيل، مثل "بوب عربي أكوستيك" أو "عود".
أما عند استخدام ليريا، ينبغي التركيز على "النسيج الصوتي"، حيث يُفضل تقديم وصف تقني دقيق مثل "تخت عربي أصيل" مع ذكر الآلات بشكل مفصل. بعد التجربة، يمكن ملاحظة الاختلاف بين دقة النغمة في ليريا وطول الأغنية في سونو.
في النهاية، يعتمد الخيار بين سونو وليريا على الهدف المرجو، حيث يُفضل سونو للإنتاج العاطفي والانتشار، بينما يُعتبر ليريا الخيار الأمثل للاحترافية والإبداع الصوتي.







