در سالهای اخیر، حوزه بینایی کامپیوتر شاهد پیشرفتهای چشمگیری بوده است، به طوری که شبکههای عصبی کانولوشنال (CNN) سنگ بنای وظایف مرتبط با تصویر بوده است. با این حال، یک بازیکن جدید در صحنه ظاهر شده است: ترانسفورماتور فشرده. به عنوان یک تامین کننده ترانسفورماتور فشرده، من هیجان زده هستم که به مزایایی که ترانسفورماتورهای فشرده نسبت به CNN ها در وظایف تصویری به میز می آورند، بپردازم.
1. درک زمینه جهانی
یکی از مهم ترین محدودیت های CNN ماهیت میدان پذیرای محلی آنهاست. لایه های کانولوشن در CNN ها تصاویر را در تکه های کوچک و محلی پردازش می کنند. به عنوان مثال، یک هسته کانولوشنال معمولی 3x3 تنها می تواند یک همسایگی بسیار کوچک از پیکسل ها را در یک زمان در نظر بگیرد. در حالی که تکنیکهایی مانند انباشتن چندین لایه کانولوشن و استفاده از هستههای بزرگتر میتواند تا حدودی میدان دریافت را افزایش دهد، اما همچنان برای گرفتن وابستگیهای دوربرد به طور موثر تلاش میکند.
در مقابل، ترانسفورماتورهای فشرده بر اساس مکانیسم توجه به خود ساخته شده اند. توجه به خود به مدل اجازه می دهد تا اهمیت بخش های مختلف توالی ورودی (در مورد تصاویر، توالی تکه های تصویر) را نسبت به یکدیگر بسنجد. این بدان معنی است که یک ترانسفورماتور فشرده می تواند مستقیماً اطلاعات زمینه جهانی را در یک تصویر ثبت کند. برای یک کار تشخیص شی، یک CNN ممکن است در شناسایی رابطه بین یک شی کوچک در یک گوشه تصویر و یک شی زمینه بزرگتر در طرف مقابل مشکل داشته باشد. از طرف دیگر، یک ترانسفورماتور فشرده می تواند به راحتی بین این دو جسم دور ارتباط برقرار کند که منجر به نتایج دقیق تر و جامع تر تشخیص اشیا می شود. می توانید در مورد معماری پیشرفته بیشتر بدانیدترانسفورماتورهای فشرده.
2. انعطاف پذیری و سازگاری
CNN ها با معماری ثابتی از لایه های کانولوشن، ادغام و کاملاً متصل طراحی شده اند. این ساختار ثابت آنها را به خوبی برای کارهایی که روابط فضایی در داده ها از الگوی خاصی پیروی می کند، مانند تصاویر طبیعی، مناسب می کند. با این حال، زمانی که CNN ها با داده های تصویر غیر استاندارد یا وظایفی با تغییرات پیچیده مواجه می شوند، ممکن است با مشکل مواجه شوند.
ترانسفورماتورهای فشرده، در مقابل، انعطاف پذیرتر هستند. مکانیسم توجه به خود در ترانسفورماتورهای فشرده می تواند با توزیع های مختلف داده های ورودی و الزامات وظیفه سازگار شود. به عنوان مثال، در تجزیه و تحلیل تصویر پزشکی، جایی که ساختار و ظاهر بافت ها می تواند از بیمار به بیمار دیگر بسیار متفاوت باشد، یک ترانسفورماتور فشرده می تواند وزن توجه خود را با توجه به ویژگی های خاص هر تصویر تنظیم کند. این سازگاری امکان تعمیم بهتر در مجموعه داده ها و وظایف مختلف را فراهم می کند. راترانسفورماتور پست فشردهفناوری همچنین سازگاری راه حل های فشرده ما را در سناریوهای کاربردی مختلف نشان می دهد.
3. کارایی داده ها
آموزش CNN ها اغلب به مقدار زیادی داده برچسب دار نیاز دارد. این به این دلیل است که CNNها ویژگی ها را از طریق استفاده مکرر از فیلترهای کانولوشنال یاد می گیرند و برای تعمیم خوب به داده های کافی نیاز دارند. جمعآوری دادههای تصویر برچسبدار در مقیاس بزرگ میتواند زمانبر، پرهزینه و در برخی موارد حتی غیرممکن باشد.
ترانسفورماتورهای فشرده با توانایی خود در گرفتن زمینه جهانی و انطباق با الگوهای داده های مختلف، می توانند با داده های کمتر به عملکرد قابل مقایسه یا حتی بهتری دست یابند. مکانیسم توجه به خود در ترانسفورماتورهای فشرده می تواند اطلاعات معنی داری را از تعداد نسبتا کمی از نمونه ها استخراج کند. به عنوان مثال، در یک کار طبقه بندی تصاویر ریز دانه که در آن جمع آوری تعداد زیادی نمونه برای هر کلاس دشوار است، ترانسفورماتور فشرده را می توان به طور موثرتری در مقایسه با CNN آموزش داد و بار جمع آوری داده ها و حاشیه نویسی را کاهش داد.
4. تفسیرپذیری مدل
قابلیت تفسیر مدلهای یادگیری عمیق بهویژه در کاربردهایی مانند تشخیص پزشکی و رانندگی خودکار اهمیت فزایندهای پیدا میکند. سیانانها اغلب مدلهای «جعبه سیاه» در نظر گرفته میشوند، جایی که درک دقیق نحوه تصمیمگیری آنها دشوار است.
ترانسفورماتورهای فشرده قابلیت تفسیر بیشتری را ارائه می دهند. وزن توجه در مکانیسم توجه به خود را می توان تجسم کرد تا نشان دهد مدل در طول فرآیند تصمیم گیری بر روی کدام بخش از تصویر تمرکز می کند. برای مثال، در یک کار قطعهبندی تصویر، میتوانیم مناطقی از تصویر را که ترانسفورماتور فشرده برای تقسیمبندی یک شی خاص مهمتر میداند، برجسته کنیم. این تفسیرپذیری نه تنها به درک رفتار مدل کمک میکند، بلکه باعث ایجاد اعتماد به مدل، بهویژه در برنامههای دارای ریسک بالا میشود.
5. مقیاس پذیری
با افزایش اندازه تصاویر ورودی و پیچیدگی وظایف، CNN ها ممکن است از نظر منابع محاسباتی و استفاده از حافظه با چالش هایی مواجه شوند. تعداد پارامترها در یک CNN می تواند با افزایش تعداد لایه ها و اندازه هسته ها به طور تصاعدی رشد کند که منجر به هزینه های محاسباتی بالایی می شود.
ترانسفورماتورهای فشرده، با این حال، مقیاس پذیرتر هستند. آنها می توانند با تنظیم تعداد سرهای توجه و عمق معماری ترانسفورماتور، داده های تصویر در مقیاس بزرگ را کارآمدتر مدیریت کنند. علاوه بر این، با توسعه تکنیکهای شتاب سختافزاری برای مدلهای مبتنی بر ترانسفورماتور، ترانسفورماتورهای فشرده را میتوان بر روی دستگاههای مختلف، از دستگاههای لبه گرفته تا مراکز داده در مقیاس بزرگ، مستقر کرد. مابرش ترانسفورماتورهای کابین پیش ساخته فتوولتائیک یکپارچه فتوولتائیک MV&HV - تجهیزات توزیع لبههمچنین نشان دهنده تعهد ما به راه حل های مقیاس پذیر و کارآمد است.
6. عملکرد در وظایف پیچیده تصویر
در کارهای پیچیده تصویر مانند درک صحنه و تولید تصویر، ترانسفورماتورهای فشرده بهتر از CNN ها عمل می کنند. درک صحنه مستلزم این است که مدل نه تنها اشیاء فردی را شناسایی کند، بلکه روابط آنها و زمینه کلی صحنه را نیز درک کند. توانایی درک متن جهانی ترانسفورماتورهای فشرده آنها را برای این نوع کارها مناسب تر می کند.


در تولید تصویر، مدلهای مولد مبتنی بر CNN اغلب برای تولید تصاویر با کیفیت بالا و منسجم، بهویژه برای صحنههای بزرگ و پیچیده تلاش میکنند. ترانسفورماتورهای فشرده می توانند با گرفتن وابستگی های دوربرد در داده های تصویر، تصاویر واقعی تر و متنوع تری تولید کنند.
در نتیجه، ترانسفورماتورهای فشرده مزایای زیادی نسبت به CNN در وظایف تصویر ارائه می دهند. توانایی آنها در درک زمینه جهانی، انعطاف پذیری، کارایی داده، تفسیرپذیری، مقیاس پذیری و عملکرد برتر در وظایف پیچیده، آنها را به جایگزینی امیدوارکننده برای CNN های سنتی تبدیل می کند. من به عنوان یک تامین کننده ترانسفورماتور فشرده، مطمئن هستم که محصولات ما می توانند پیشرفت های قابل توجهی در پروژه های مرتبط با تصویر شما ایجاد کنند. اگر علاقه مند به بررسی پتانسیل ترانسفورماتورهای فشرده برای نیازهای خاص خود هستید، من شما را تشویق می کنم که برای بحث در مورد خرید صحبت کنید. ما آماده همکاری با شما برای یافتن بهترین راه حل برای وظایف پردازش تصویر شما هستیم.
مراجع
- Vaswani، A.، Shazeer، N.، Parmar، N.، Uszkoreit، J.، Jones، L.، Gomez، AN، ... و Polosukhin، I. (2017). توجه تنها چیزی است که نیاز دارید. در پیشرفت در سیستم های پردازش اطلاعات عصبی.
- Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). ارزش یک تصویر 16x16 کلمه است: ترانسفورماتور برای تشخیص تصویر در مقیاس. پیش چاپ arXiv arXiv:2010.11929.
- Zhao, H., Zhang, Y., Liu, S., Christensen, GE, & Li, X. (2021). ترانسفورماتورهای فشرده: یک چارچوب کلی برای زبان کارآمد - ترانسفورماتورهای چشم انداز. پیش چاپ arXiv arXiv:2105.13726.
