أبحث عن مبرمج خبير في الـ Backend والذكاء الاصطناعي (Python أو Node.js) لإنشاء حلقة اتصال برمجية (API) ستُستخدم داخل تطبيق واقع افتراضي. المهام المطلوبة: 1. استقبال ملف صوتي (كلام المستخدم). 2. تحويل الصوت إلى نص (Speech-to-Text) بدقة عالية. 3. إرسال النص إلى نموذج ذكاء اصطناعي (مثل Gemini أو ChatGPT) مع كتابة (Prompt) مخصص ليرد كنظام "بائع في سوبرماركت" بلهجة عامية بسيطة جداً. 4. تحويل الرد النصي إلى صوت بشري طبيعي بالعامية (Text-to-Speech) . 5. إعادة الملف الصوتي الجاهز إلى اللعبة بسرعة عالية (Low Latency). ملاحظة: عملك سيكون مفصولاً عن اللعبة، المطلوب هو تجهيز هذه الدورة البرمجية ليتصل بها مطور الـ Unity الخاص بنا. يرجى ذكر التقنيات التي ستستخدمها لتقليل وقت الاستجابة (Latency) في عرضك, واللعبة هي فيها عدة سيناريوهات لطلاب التوحد بحيث يجربوها ويتعاملوا معها.. تواصل معي لتحديد الاوقات والميزانية..
السلام عليكم اطلعت على تفاصيل المشروع بالكامل، والفكرة ممتازة جداً خصوصاً أنها موجهة لسيناريوهات تعليمية وتفاعلية لطلاب التوحد داخل بيئة VR، لذلك موضوع سرعة الاستجابة والطبيعية في الحوار مهم جداً في التجربة.
أستطيع تنفيذ الـ Backend API المطلوب بشكل احترافي بحيث يعمل كحلقة اتصال كاملة بين اللعبة وأنظمة الذكاء الاصطناعي والصوت. سير العمل سيكون كالتالي: استقبال الصوت من اللعبة
تحويل الصوت إلى نص (Speech-to-Text) بدقة عالية
إرسال النص إلى نموذج AI مع Prompt مخصص حسب السيناريو
تحويل الرد إلى صوت بشري طبيعي باللهجة المطلوبة
إعادة الملف الصوتي الجاهز إلى Unity بسرعة واستقرار
وبالنسبة للتقنيات المقترحة لتقليل الـ Latency: FastAPI أو Node.js (Express/Fastify) WebSockets أو Streaming APIs لتقليل التأخير Whisper API أو Deepgram للـ Speech-to-Text Gemini أو OpenAI API للذكاء الاصطناعي ElevenLabs أو Azure TTS أو Google TTS للأصوات الطبيعية Async Processing + Queue Optimization Audio Compression وتحسين سرعة النقل
كما يمكن تصميم النظام بحيث: يدعم عدة سيناريوهات مختلفة داخل اللعبة يدعم Prompts ديناميكية حسب المشهد يدعم شخصيات مختلفة (بائع – موظف – عميل...) يكون سهل الربط مع Unity عبر API واضحة ومنظمة قابل للتوسع لاحقاً بدون إعادة بناء النظام
وأهتم جداً في مثل هذه المشاريع بـ: * Low Latency الحقيقي * استقرار الـ API * جودة الصوت * طبيعية الردود * وتنظيم الـ Architecture بشكل احترافي
جاهز لمناقشة السيناريوهات المطلوبة وتحديد أفضل Stack مناسب للسرعة والجودة والميزانية بإذن الله.
اطلعت على تفاصيل المشروع وفهمت المطلوب بشكل واضح، وهو إنشاء API Backend متكامل يربط بين اللعبة ونظام الذكاء الاصطناعي بحيث يتم استقبال الصوت، تحويله إلى نص، إرساله لنموذج AI برد مخصص، ثم تحويل الرد إلى صوت طبيعي وإعادته للعبة بأقل زمن استجابة ممكن.
أفضل تنفيذ لهذا النوع يكون باستخدام Python + FastAPI مع Whisper / Google STT و Gemini أو ChatGPT و TTS احترافي مثل ElevenLabs، مع استخدام Async Processing و Streaming و Redis Cache لتقليل الـ Latency وتحسين سرعة الاستجابة داخل بيئة الـ VR.
أحب معرفة عدد السيناريوهات المطلوبة وهل سيتم الاعتماد على API مدفوعة مثل OpenAI و ElevenLabs أم يوجد مزود محدد من طرفكم، حتى أحدد أفضل خطة تنفيذ والمدة والتكلفة المناسبة.
السلام عليكم اخ ادم.. باش نستعمل Whisper / OpenAI / Gemini / ElevenLabs و Azure TTS لتقليل الـ Latency وتحسين جودة الصوت. و اذا تتواصل معاي و تعطيني معلومات اكثر نعطيك المدة و الثمن ان شاء الله والله ولي التوفيق