هوش مصنوعی در لبه شبکه به ندرت فقط به معنای استنتاج است. استقرار دنیای واقعی معمولاً شامل ورودی/خروجی با سرعت بالا (I/O)، تهویه سیگنال و حلقههای کنترل بلادرنگ است که همه آنها به طور همزمان اجرا میشوند. این بارهای کاری چند منظوره نیاز به هماهنگی دقیق و اطمینان بالایی دارند و طراحان برآورده کردن این الزامات را با استفاده از سختافزار اصلی هوش مصنوعی دشوار یافتهاند.
دو عامل این مشکل را پیچیده تر می کند. اولاً، مدلهای هوش مصنوعی با سرعت شگفتانگیزی در حال توسعه هستند و طراحان را بر آن میدارد تا پلتفرمهایی را اتخاذ کنند که از بهروزرسانیهای سریع الگوریتم پشتیبانی میکنند. در همین حال، بسیاری از سیستمهای لبه تا ده سال یا بیشتر در محل مورد استفاده قرار میگیرند، که اطمینان از سازگاری طولانیمدت را دشوار میکند. ثانیاً، مسیر از مدلهای آموزشدیده تا استقرار و پیادهسازی سیستم هنوز پراکنده است. دانشمندان داده از PyTorch و TensorFlow استفاده می کنند، در حالی که تیم های جاسازی شده از زنجیره های ابزار کاملاً متفاوتی استفاده می کنند که در طول فرآیند تحویل اصطکاک ایجاد می کند و سرعت تولید را کاهش می دهد.
برای مقابله با این چالشها، پلتفرمها باید بتوانند پردازش هوش مصنوعی با توان عملیاتی بالا را با رفتار قطعی، ورودی/خروجی انعطافپذیر و سازگاری طولانیمدت ترکیب کنند، که همگی باید در محدوده مصرف انرژی معمولی بهکارگیری لبههای محدود به دست آیند.
این مقاله بر روی سناریوهای کاربردی و الزامات مرتبط تمرکز دارد که طراحان را برای کشف معماری های جدید هوش مصنوعی لبه به چالش می کشد. سپس، دستگاهها و ابزارهای نرمافزاری که از هوش مصنوعی لبهای پشتیبانی میکنند، آرایه دروازههای قابل برنامهریزی میدانی (FPGA) Altera را معرفی کرد و نحوه استفاده از آنها را برای برآورده کردن عملکرد و توان متنوع مورد نیاز این برنامهها نشان داد.
تکامل هوش مصنوعی لبه نیازمند نوآوری در معماری است
سیستمهای لبه به طور فزایندهای از فناوریهای هوش مصنوعی متنوعی استفاده میکنند، از جمله یادگیری ماشین کلاسیک (ML) برای تشخیص ناهنجاری، شبکههای عصبی کانولوشنال (CNN) برای درک، و مبدلها برای مدلهای زبان بزرگ (LLM). این الگوریتمهای محاسباتی فشرده اغلب با توابع غیر هوش مصنوعی مانند پردازش سیگنال، ارتباطات شبکه و کنترل بلادرنگ همزیستی دارند.
سیستم های خودمختار نمونه خوبی هستند. آنها معمولاً باید دادهها را از روشهای حسگر متعدد مانند ویدئو، صدا، رادار، LiDAR و بازخورد حرکت/موقعیت بگیرند، این جریانهای داده را با توان عملیاتی بالا پیش پردازش کنند، نتایج را با استفاده از هوش مصنوعی پیچیده تجزیه و تحلیل کنند، و سپس حلقههای کنترلی با دقت بالا را مدیریت کنند، که همه اینها به تعیین قابل اعتماد نیاز دارند.
نمونه های مشابه زیادی در اتوماسیون صنعتی، تصویربرداری پزشکی، دفاع و کاربردهای مخابراتی وجود دارد. چالش رایجی که آنها با آن روبرو هستند این است که معماری های سنتی برای انطباق با بار کاری دائماً همگرا دشوار است.
چرا FPGA به ویژه برای هوش مصنوعی لبه مناسب است
در مقابل، این الزامات کاملاً با عملکرد FPGA سازگار است. هسته اصلی FPGA ارائه منطق قابل تنظیم برای انجام عملیات به شیوه ای موازی واقعی است، با رفتار زمان بندی آن در زمان طراحی به جای نوسان در زمان اجرا تعبیه شده است. این معماری می تواند به جبر با تأخیر کم دست یابد که برای هوش مصنوعی لبه بسیار مهم است. منطق انعطافپذیر همچنین میتواند از I/O قدرتمند استفاده کند: FPGAها معمولاً I/O پرسرعت فراوانی را ارائه میکنند، که میتواند به حسگرها و محرکهای مختلف متصل شود تا اتصال محکمی با پردازش AI حاصل شود.
FPGA همچنین شامل حافظه داخلی توزیع شده است که امکان دسترسی به داده ها را با منطقی که روی آن کار می کند را فراهم می کند. این باعث کاهش گلوگاهی میشود که در هنگام رقابت چندین مرحله پردازش برای دسترسی به گذرگاه حافظه مشترک، که یک محدودیت رایج در معماریهای مبتنی بر پردازنده است، ایجاد میشود.
بسیاری از FPGA ها همچنین سخت افزار تخصصی پردازش سیگنال دیجیتال (DSP) را ادغام می کنند. در مقایسه با ساختارهای معمولی، این مدارهای پیشرفته عملکرد بالاتر و بازده انرژی بهتری را برای بارهای کاری پردازش سیگنال ارائه می دهند. برخی از FPGAها همچنین سیستمهای پردازشگر سیمی سخت را ادغام میکنند که میتوانند پشتههای نرمافزار استاندارد (از جمله لینوکس) را اجرا کنند و توسعه نرمافزار سنتی را برای کارهایی مانند شبکه، مدیریت دستگاه و رابط کاربری امکانپذیر میسازند.
به طور خلاصه، یک FPGA واحد میتواند توابعی را که در غیر این صورت به تراشههای ورودی/خروجی جداگانه، شتابدهندههای هوش مصنوعی، DSPها و پردازندههای صفحه کنترل نیاز دارند، ادغام کند. این میتواند Bill of Materials (BOM) را کاهش دهد، سطح برد مدار را کوچک کند، مصرف انرژی کمتری داشته باشد، در حالی که تأخیر و اطمینان پایین مورد نیاز برای برنامههای هوش مصنوعی لبه را حفظ کند.
چگونه با افزودن بلوکهای تانسور هوش مصنوعی فرصتهای جدیدی را باز کنیم
سخت افزار سنتی FPGA DSP در حال حاضر برای بسیاری از بارهای کاری لبه بسیار مناسب است، اما استنباط هوش مصنوعی اغلب بر عملیات ضرب متراکم اما با دقت کم متکی است. برای رفع این مشکل، دستگاه های Agilex 3 و Agilex 5 Altera از DSP های پیشرفته با بلوک های تانسور هوش مصنوعی استفاده می کنند. این سخت افزار تخصصی برای ضرب ماتریس ماتریس و ماتریس برداری است که به طور مکرر در نمودارهای محاسباتی هوش مصنوعی ظاهر می شود.
هسته اصلی این روش محصول اسکالر و موتور جمع کننده/انباشته است (شکل 1). در حالت تانسور، موتور نقطه سیمی سخت از ورودی 8 بیتی و وزنه های 8 بیتی از قبل بارگذاری شده برای اجرای محصول 10 نقطه ای استفاده می کند. به منظور گسترش دامنه پویا، مسیر داده همچنین می تواند از یک "شاخص مشترک" مشترک برای مقیاس بندی نقطه شناور بلوک استفاده کند تا با سناریوهای معمولی که استنتاج هوش مصنوعی معمولاً به محدوده دینامیکی بالا اما دقت پایین نیاز دارد، مقابله کند.

