أبحث عن مبرمج خبير في الـ Backend والذكاء الاصطناعي (Python أو Node.js) لإنشاء حلقة اتصال برمجية (API) ستُستخدم داخل تطبيق واقع افتراضي.
المهام المطلوبة:
1. استقبال ملف صوتي (كلام المستخدم).
2. تحويل الصوت إلى نص (Speech-to-Text) بدقة عالية.
3. إرسال النص إلى نموذج ذكاء اصطناعي (مثل Gemini أو ChatGPT) مع كتابة (Prompt) مخصص ليرد كنظام "بائع في سوبرماركت" بلهجة عامية بسيطة جداً.
4. تحويل الرد النصي إلى صوت بشري طبيعي بالعامية (Text-to-Speech) .
5. إعادة الملف الصوتي الجاهز إلى اللعبة بسرعة عالية (Low Latency).
ملاحظة: عملك سيكون مفصولاً عن اللعبة، المطلوب هو تجهيز هذه الدورة البرمجية ليتصل بها مطور الـ Unity الخاص بنا. يرجى ذكر التقنيات التي ستستخدمها لتقليل وقت الاستجابة (Latency) في عرضك, واللعبة هي فيها عدة سيناريوهات لطلاب التوحد بحيث يجربوها ويتعاملوا معها.. تواصل معي لتحديد الاوقات والميزانية..

عن الموضوع

التعليقات (9)

منذ ساعة و25 دقيقة
تواصل معي انا خالد مهندس ذكاء اصطناعي
منذ ساعة و24 دقيقة
السلام عليكم ورحمة الله وبركاته،
تواصل معي قادر علي تنفيذ طلب حضرتك بأذن الله
منذ ساعة و24 دقيقة
تواصل معي لدي خبرة في مثل هذا النوع
منذ ساعة و23 دقيقة
و عليكم السلام
لدى خبرة سابقة فى التعامل مع LLM
تواصل معى
منذ ساعة و22 دقيقة
السلام عليكم ورحمه الله وبركاته، تواصل معي قادر علي تنفيذ طلبك بأذن الله
منذ ساعة و19 دقيقة
السلام عليكم
اطلعت على تفاصيل المشروع بالكامل، والفكرة ممتازة جداً خصوصاً أنها موجهة لسيناريوهات تعليمية وتفاعلية لطلاب التوحد داخل بيئة VR، لذلك موضوع سرعة الاستجابة والطبيعية في الحوار مهم جداً في التجربة.

أستطيع تنفيذ الـ Backend API المطلوب بشكل احترافي بحيث يعمل كحلقة اتصال كاملة بين اللعبة وأنظمة الذكاء الاصطناعي والصوت.
سير العمل سيكون كالتالي:
استقبال الصوت من اللعبة

تحويل الصوت إلى نص (Speech-to-Text) بدقة عالية

إرسال النص إلى نموذج AI مع Prompt مخصص حسب السيناريو

تحويل الرد إلى صوت بشري طبيعي باللهجة المطلوبة

إعادة الملف الصوتي الجاهز إلى Unity بسرعة واستقرار

وبالنسبة للتقنيات المقترحة لتقليل الـ Latency:
FastAPI أو Node.js (Express/Fastify)
WebSockets أو Streaming APIs لتقليل التأخير
Whisper API أو Deepgram للـ Speech-to-Text
Gemini أو OpenAI API للذكاء الاصطناعي
ElevenLabs أو Azure TTS أو Google TTS للأصوات الطبيعية
Async Processing + Queue Optimization
Audio Compression وتحسين سرعة النقل

كما يمكن تصميم النظام بحيث:
يدعم عدة سيناريوهات مختلفة داخل اللعبة
يدعم Prompts ديناميكية حسب المشهد
يدعم شخصيات مختلفة (بائع – موظف – عميل...)
يكون سهل الربط مع Unity عبر API واضحة ومنظمة
قابل للتوسع لاحقاً بدون إعادة بناء النظام

وأهتم جداً في مثل هذه المشاريع بـ:
* Low Latency الحقيقي
* استقرار الـ API
* جودة الصوت
* طبيعية الردود
* وتنظيم الـ Architecture بشكل احترافي

جاهز لمناقشة السيناريوهات المطلوبة وتحديد أفضل Stack مناسب للسرعة والجودة والميزانية بإذن الله.
منذ ساعة و18 دقيقة
السلام عليكم،

اطلعت على تفاصيل المشروع وفهمت المطلوب بشكل واضح، وهو إنشاء API Backend متكامل يربط بين اللعبة ونظام الذكاء الاصطناعي بحيث يتم استقبال الصوت، تحويله إلى نص، إرساله لنموذج AI برد مخصص، ثم تحويل الرد إلى صوت طبيعي وإعادته للعبة بأقل زمن استجابة ممكن.

أفضل تنفيذ لهذا النوع يكون باستخدام Python + FastAPI مع Whisper / Google STT و Gemini أو ChatGPT و TTS احترافي مثل ElevenLabs، مع استخدام Async Processing و Streaming و Redis Cache لتقليل الـ Latency وتحسين سرعة الاستجابة داخل بيئة الـ VR.

أحب معرفة عدد السيناريوهات المطلوبة وهل سيتم الاعتماد على API مدفوعة مثل OpenAI و ElevenLabs أم يوجد مزود محدد من طرفكم، حتى أحدد أفضل خطة تنفيذ والمدة والتكلفة المناسبة.
منذ ساعة و12 دقيقة
السلام عليكم اخ ادم..
باش نستعمل Whisper / OpenAI / Gemini / ElevenLabs و Azure TTS لتقليل الـ Latency وتحسين جودة الصوت.
و اذا تتواصل معاي و تعطيني معلومات اكثر نعطيك المدة و الثمن ان شاء الله
والله ولي التوفيق
منذ 3 دقائق
تفضل تواصل معي يمكنني عمله لك.

هذا الطلب من ضمن خدماتي.

هذه هي خدماتي:
https://khamsat.com/user/diaa_essam/services

أضف تعليق

سجّل دخول لتتمكن من إضافة تعليق على هذا الموضوع.

عن الموضوع