EfficientDet: نحو اكتشاف كائن فعال وقابل للتطوير

2025 مؤلف: Ian Gardner | [email protected]. آخر تعديل: 2025-01-24 10:58

كواحد من التطبيقات الرئيسية في رؤية الكمبيوتر ، أصبح اكتشاف الأشياء مهمًا بشكل متزايد في السيناريوهات التي تتطلب دقة عالية ولكن لديها موارد حوسبة محدودة ، مثل الروبوتات والسيارات بدون سائق. لسوء الحظ ، فإن العديد من أجهزة الكشف الحديثة عالية الدقة لا تلبي هذه القيود. والأهم من ذلك ، أن تطبيقات اكتشاف الكائنات في العالم الحقيقي تعمل على منصات مختلفة ، والتي غالبًا ما تتطلب موارد مختلفة.

لذا فإن السؤال الطبيعي هو كيف نصمم كاشفات دقيقة وفعالة للأشياء يمكنها أيضًا التكيف مع مجموعة واسعة من قيود الموارد؟

EfficientDet: اكتشاف الكائنات القابل للتطوير والفعالية ، الذي تم اعتماده في CVPR 2020 ، يقدم عائلة جديدة من أجهزة الكشف عن الكائنات الفعالة والقابلة للتطوير. بناءً على العمل السابق على توسيع نطاق الشبكات العصبية (EfficientNet) ودمج شبكة وظيفية جديدة ثنائية الاتجاه (BiFPN) وقواعد جديدة للقياس ، تحقق EfficientDet الدقة الحديثة بينما أصغر بـ 9 مرات وتستخدم حسابًا أقل بكثير من الكاشفات الحديثة المعروفة. يوضح الشكل التالي بنية الشبكة العامة للنماذج.

تحسين العمارة النموذجية

تنبع الفكرة وراء EfficientDet من محاولة إيجاد حلول لتحسين الكفاءة الحسابية من خلال فحص منهجي لأحدث نماذج الكشف السابقة. بشكل عام ، تحتوي أجهزة الكشف عن الكائنات على ثلاثة مكونات رئيسية: العمود الفقري الذي يستخرج ميزات من صورة معينة ؛ شبكة من الكائنات تأخذ مستويات متعددة من الوظائف من العمود الفقري كمدخلات ومخرجات قائمة بالوظائف المدمجة التي تمثل الخصائص المميزة للصورة ؛ وشبكة فئة / صندوق نهائية تستخدم وظائف مدمجة للتنبؤ بفئة وموقع كل كائن.

بعد مراجعة خيارات التصميم لهذه المكونات ، حددنا عدة تحسينات رئيسية لتحسين الأداء والكفاءة. تستخدم أجهزة الكشف السابقة في الغالب ResNets أو ResNeXt أو AmoebaNet كأعمدة أساسية ، والتي تكون إما أقل قوة أو ذات كفاءة أقل من EfficientNets. مع التنفيذ الأولي لشبكة EfficientNet الأساسية ، يمكن تحقيق المزيد من الكفاءة. على سبيل المثال ، بدءًا من خط الأساس RetinaNet الذي يستخدم العمود الفقري ResNet-50 ، توضح دراسة الاستئصال أن استبدال ResNet-50 بـ EfficientNet-B3 يمكن أن يحسن الدقة بنسبة 3٪ مع تقليل الحساب بنسبة 20٪. التحسين الآخر هو تحسين كفاءة الشبكات الوظيفية. في حين أن معظم الكاشفات السابقة تستخدم ببساطة الشبكة الهرمية للوصلة الهابطة (FPN) ، نجد أن FPN المصب يقتصر بطبيعته على تدفق المعلومات في اتجاه واحد. تضيف FPNs البديلة مثل PANet مزيدًا من المنبع على حساب حساب إضافي.

اكتشفت المحاولات الأخيرة لاستخدام Neural Architecture Search (NAS) بنية NAS-FPN أكثر تعقيدًا. ومع ذلك ، في حين أن بنية الشبكة هذه فعالة ، فهي أيضًا غير منتظمة ومُحسّنة للغاية لمهمة معينة ، مما يجعل من الصعب التكيف مع المهام الأخرى. لحل هذه المشكلات ، نقترح شبكة جديدة من الوظائف ثنائية الاتجاه BiFPN ، والتي تنفذ فكرة الجمع بين وظائف متعددة الطبقات من FPN / PANet / NAS-FPN ، مما يسمح بنقل المعلومات من أعلى إلى أسفل و من الاسفل الى الاعلى. باستخدام اتصالات منتظمة وفعالة.

لزيادة تحسين الكفاءة ، نقترح تقنية تخليق جديدة سريعة التطبيع. عادةً ما تتعامل الأساليب التقليدية مع جميع المدخلات إلى FPN بنفس الطريقة ، حتى عند مستويات دقة مختلفة.ومع ذلك ، نلاحظ أن ميزات الإدخال ذات الدقة المختلفة غالبًا ما تساهم بشكل غير متساو في وظائف الإخراج. وبالتالي ، فإننا نضيف وزنًا إضافيًا لكل دالة إدخال ونترك للشبكة معرفة أهمية كل وظيفة. سنقوم أيضًا باستبدال جميع التلافيف العادية بتلافيفات أقل تكلفة وقابلة للفصل بشدة. مع هذا التحسين ، يعمل BiFPN على تحسين الدقة بنسبة 4٪ مع تقليل التكاليف الحسابية بنسبة 50٪.

يتضمن التحسين الثالث تحقيق أفضل حل وسط بين الدقة والكفاءة في ظل قيود الموارد المختلفة. أظهر عملنا السابق أن القياس المشترك لعمق وعرض ودقة الشبكة يمكن أن يحسن أداء التعرف على الصور بشكل كبير. مستوحاة من هذه الفكرة ، نقترح طريقة قياس مركبة جديدة لكاشفات الكائنات التي تزيد بشكل جماعي من الدقة / العمق / العرض. سيكون لكل مكون من مكونات الشبكة ، أي الشبكة التنبؤية الأساسية والعنصر والكتلة / الفئة ، عامل تحجيم معقد واحد يتحكم في جميع أبعاد القياس باستخدام قواعد الكشف عن مجريات الأمور. هذا الأسلوب يجعل من السهل تحديد كيفية قياس النموذج عن طريق حساب عامل مقياس لقيود مورد هدف معين.

من خلال الجمع بين العمود الفقري الجديد و BiFPN ، نقوم أولاً بتصميم خط أساسي صغير EfficientDet-D0 ثم نطبق التحجيم المركب للحصول على EfficientDet-D1 إلى D7. يحتوي كل نموذج تسلسلي على تكلفة حسابية أعلى ، تغطي نطاقًا واسعًا من قيود الموارد من 3 مليارات FLOPs إلى 300 مليار FLOPS ، ويوفر دقة أعلى.

نموذج الأداء

تقييم EfficientDet في مجموعة بيانات COCO ، وهي مجموعة بيانات مرجعية مستخدمة على نطاق واسع لاكتشاف الكائنات. يحقق EfficientDet-D7 متوسط دقة متوسط (mAP) يبلغ 52.2 ، وهو أعلى بمقدار 1.5 نقطة من النموذج الحديث السابق ، باستخدام معلمات أقل 4 مرات و 9.4 مرات حسابات أقل

قمنا أيضًا بمقارنة حجم المعلمة وزمن انتقال CPU / GPU بين EfficientDet والنماذج السابقة. مع قيود دقة مماثلة ، تعمل نماذج EfficientDet أسرع مرتين إلى أربع مرات على وحدة معالجة الرسومات و 5-11 مرة على المعالج أسرع من أجهزة الكشف الأخرى. في حين أن نماذج EfficientDet مخصصة أساسًا لاكتشاف الكائنات ، فإننا أيضًا نختبر فعاليتها في مهام أخرى مثل التجزئة الدلالية. لأداء مهام التجزئة ، قمنا بتعديل EfficientDet-D4 بشكل طفيف عن طريق استبدال رأس الكشف وفقدان الرأس وفقدانه مع الحفاظ على نفس العمود الفقري المقياس و BiFPN. قارنا هذا النموذج بنماذج التجزئة الحديثة السابقة لـ Pascal VOC 2012 ، وهي مجموعة بيانات اختبار تجزئة مستخدمة على نطاق واسع.

نظرًا لأدائها الاستثنائي ، من المتوقع أن تعمل EfficientDet كأساس جديد لأبحاث الكشف عن الأجسام في المستقبل ، ومن المحتمل أن تجعل نماذج اكتشاف الأجسام عالية الدقة مفيدة في العديد من تطبيقات العالم الحقيقي. لذا فتحت جميع نقاط توقف الكود والنموذج الذي تم اختباره مسبقًا على Github.com.

موصى به:

كيفية اكتشاف حركة المرور على مكبر الصوت

العثور على معلومات حول مقدار حركة المرور التي تم نقلها في فترة زمنية محددة ليس بالأمر الصعب على الإطلاق. يمكن التحقق من حركة المرور بسهولة باستخدام برنامج خاص مصمم لهذا الغرض. إذا كانت حزمة التعريفة للوصول إلى الإنترنت على مكبر الصوت تتضمن الدفع مقابل حركة المرور لكل ميغابايت ، فقد يكون هذا مفيدًا

كيفية اكتشاف سماعات Beats المزيفة

تعد سماعات الرأس من ماركة Beats (التي كانت تُسمى سابقًا Monster Beats) من بين الأكثر شهرة في السوق نظرًا لجودتها العالية وتصميمها الأنيق. ليس من المستغرب أن يهتم الكثير من المصنعين الصينيين عديمي الضمير بهم ، والذين بدأوا في إنتاج المنتجات المقلدة

كيفية تدوير الكاميرا حول كائن

عند إنشاء كائن في برامج تحرير ثلاثية الأبعاد ، من المهم مراعاة النموذج من جميع الجوانب ، لتحديد كيف سيبدو من زوايا مختلفة. من خلال تدوير الكاميرا حول الكائن ، يمكنك العثور على عيوب في الوقت المناسب وإصلاحها. تعليمات الخطوة 1 لتدوير الكاميرا حول كائن في MilkShape 3D ، يجب أن توجهه في البداية نحو الكائن

كيفية منع اكتشاف رقم الهاتف

بعض الناس لا يريدون تحديد رقم هاتفهم الخلوي. يجب أن يعرض الشخص الذي يتلقى المكالمة "غير معروف" أو "لا يوجد رقم" على الشاشة. هناك عدة طرق لجعل المشتركين في الهاتف الخلوي غير متاحين لتحديد الهوية. تعليمات الخطوة 1 إذا كنت تستخدم اتصالات Megafon ، فيمكنك تنشيط الخدمة كمعرّف تعريف رقم

كيفية إنشاء إعلان بيع فعال على Avito

في ظل ظروف المنافسة الشديدة على موقع الإنترنت هذا ، عليك التفكير بعناية في كل عنصر من عناصر الإعلان. ما الذي يجب مراعاته حتى يتم ملاحظة إعلانك بين الإعلانات المماثلة؟ حتى مع وجود عنصر فريد ومفيد ، فمن السهل جدًا عدم بيعه إذا قمت بإنشاء إعلان لن يجذب انتباه حتى المشتري المهتم جدًا

EfficientDet: نحو اكتشاف كائن فعال وقابل للتطوير

جدول المحتويات:

تحسين العمارة النموذجية

نموذج الأداء

موصى به:

كيفية اكتشاف حركة المرور على مكبر الصوت

كيفية اكتشاف سماعات Beats المزيفة

كيفية تدوير الكاميرا حول كائن

كيفية منع اكتشاف رقم الهاتف

كيفية إنشاء إعلان بيع فعال على Avito

كيف تجد الألعاب على هاتفك

كيفية وضع ICQ على الهاتف

كيفية إعداد ICQ على هاتفك

كيفية تسجيل ICQ على الهاتف

كيفية تشغيل ICQ على الهاتف

كيف تصنع محطة طقس بيديك

كيفية تحديث البرنامج الثابت لجهاز DSO138 راسم الذبذبات

كيفية توصيل سجل التحويل بأردوينو

كيفية توصيل بوصلة رقمية HMC5883 بأردوينو

كيفية توصيل محرك مصقول بأردوينو

كيفية إصلاح العدسة

كيفية اختيار سماعات مع ميكروفون

كيفية اختيار سماعات الرأس لجهاز الكمبيوتر الخاص بك

كيفية تغيير تردد الشاشة

كيفية استخدام N73 ككاميرا ويب