WhatsAPP mail
2025-08-06

اختبار تحكم حركة الطائرات بدون طيار

approx_kl: تشتت KL تقريبي، وقياس الفرق بين الاستراتيجيات القديمة والجديدة. في PPO ، هذه هي معلمة فائقة مهمة للتحكم في مدى تحديث السياسة. القيمة الصغيرة هنا (0.0018954609) تشير إلى أن الفرق بين الاستراتيجيات القديمة والجديدة صغير للغاية ، وهو أمر مرغوب فيه عادة لأنه يساعد على الحفاظ على استقرار التدريب.

clip_fraction: النسبة التي تشير إلى عدد التدرجات النسبية التي تم تقليمها أثناء عملية التحديث لأنها تجاوزت عتبة القطع. هنا ، يشير 0.0511 إلى أن جزءًا صغيرًا فقط من التدرج يتم تقليصه ، مما يعني عادةً أن تحديثات السياسة سلسة نسبيًا.

clip_range: نطاق القص، الذي يحد من الاختلافات بين السياسات القديمة والجديدة. في PPO ، يساعد هذا على منع تحديث السياسة بشكل كبير. هنا 0.2 هو الحد الأعلى لنطاق القص.

entropy_loss: فقدان الإطارات، وتستخدم لتشجيع إخراج الإستراتيجية على اتخاذ إجراءات أكثر تنوعا لتجنب التقارب المبكر للسياسة إلى الأمثل المحلي. القيمة السلبية هنا (-0.389) تشير إلى أن فقدان الإطار يتم تحسينه للحد منه (على الرغم من أننا عادة ما نركز على القيمة الإيجابية لدالة الخسارة في مشكلة التحسين ، إلا أن القيمة السلبية هنا قد تشير فقط إلى اتجاه التحسين).

expliced_variance: تفسير التباين، ويستخدم عادة لتقييم دقة التنبؤات الدالة القيمة. قد تشير القيم السلبية إلى وجود مشكلة في طريقة التقييم أو التنفيذ، أو قد يكون هناك خطأ كبير في التنبؤ بالدالة القيمة. هنا -0.754 قد تحتاج إلى مزيد من التحقيق.

learning_rate: معدل التعلم الذي يتحكم في عدد الخطوات التي يتم فيها تحديث معلمات النموذج. هنا 0.0003 هي قيمة صغيرة نسبيا، مما يعني أن يتم تحديث المعلمات بحذر.

خسارة: قيمة دالة الخسارة، وهو هدف تحسين الخوارزمية. ويمكن أن يشير الرقم -0.0159 إلى متوسط الخسائر الإجمالية (بما في ذلك الخسائر الإستراتيجية وخسارة القيمة).

n_updates: عدد المرات التي تم فيها تحديث معلمات النموذج أثناء التدريب. هنا 480 مرة تشير إلى أن المعلمة تم تحديثها مرات عديدة.

policy_gradient_loss: خسارة التدرج الاستراتيجي، وهي جزء من خسارة شبكة الاستراتيجية، وتستخدم لتوجيه تحسين شبكة الاستراتيجية. القيمة السلبية هنا (-0.00143) تشير إلى أن الخسائر التدرجية الاستراتيجية يتم تحسينها لتقليلها.

value_loss: القيمة المفقودة، وهي قيمة شبكة من الدالات القيمة (مثل شبكة تتنبأ بقيمة الحالة). هنا 3.47e-06 يشير إلى أن فقدان القيمة صغير للغاية ، مما قد يعني أن وظيفة القيمة قد تم تدريبها بشكل جيد نسبيا.




Add Comment

Your email address will not be published. Required fields are marked *

深圳外贸网站制作 深圳外贸网站建设 深圳外贸网站制作 深圳外贸网站建设 wordpress外贸网站建设 深圳wordpress网站建设

هل تريد أن تعرف عن العرض الأول ؟

Subscribe our newsletter

深圳外贸网站制作 深圳外贸网站建设 深圳外贸网站制作 深圳外贸网站建设 wordpress外贸网站建设 深圳wordpress网站建设