فارغ التحصیل علوم کامپیوتر
آیا دیپ لرنینگ به کارت گرافیک احتیاج دارد؟
هر دیتا ساینتیست حداقل یکبار این جمله را شنیده که دیپ لرنینگ احتیاج به سخت افزار قوی دارد. بعضی افراد مدل های دیپ لرنینگ را روی لپتاپ بدون کارت گرافیک خود آموزش میدهند که این کار میتواند روز ها به طول بینجامد.
این باعث شده تا یک سری افسانه درباره دیپ لرنینگ ایجاد شود. افراد تازه کار فکر میکنند برای ورود به این حوزه، حتما باید یک کامپیوتر قدرتمند داشته باشند و بدون آن نمیتوانند دیپ لرنینگ کار کنند.
در این مطلب میخواهیم دلیل احتیاج دیپ لرنینگ به سخت افزار قوی را بررسی کنیم و ببینیم آیا همیشه برای آموزش یک مدل دیپ لرنینگ، به یک کامپیوتر قدرتمند احتیاج هست یا نه.
در این مطلب خواهید خواند:
۱- تعریف ها
- دیپ لرنینگ چیست؟
- واحد پردازش گرافیکی به چه معناست؟
۲- مقایسه کلی CPU و GPU
۳-چرا دیپ لرنینگ احتیاج به سخت افزار قوی دارد؟
۴- کارت گرافیک در دیپ لرنینگ
- برنامه نویسی برای کارت گرافیک
- مقایسه CPU و GPU در دیپ لرنینگ
۵- آیا واقعا به کارت گرافیک در دیپ لرنینگ احتیاج دارم ؟
تعریف ها
دیپ لرنینگ چیست؟
دیپ لرنینگ یکی از بخش های هوش مصنوعی است که تلاش میکند طرز کار مغز انسان را در پردازش اطلاعات و تصمیم گیری شبیه سازی کند.
با پیشرفت روزافزون تکنولوژی، روزانه حجم انبوهی از داده ها ایجاد میشوند. این داده را که کلانداده مینامند، در منابعی مانند شبکه های اجتماعی، موتور های جستجو، پلتفرم های تجارت الکترونیک،سایت های پخش فیلم و... تولید میشود. حجم این داده ها به قدری زیاد است که پردازش آن توسط مغز انسان دهه ها طول خواهد کشید. همزمان با پیشرفت روز افزون تکنولوژی، دیپ لرنینگ هم پیشرفت کرد تا بتوانیم با استفاده از آن، این حجم از داده را پردازش کنیم و اطلاعات به درد بخوری از آن استخراج کنیم.
واحد پردازش گرافیکی به چه معناست؟
واحد پردازش گرافیکی ( Graphics Processing Unit ) که به اختصار GPU میگویند، برای رندرینگ گرافیک ساخته شده است. اما بخاطر عملکرد بسیار خوب و هزینه پایین آن، تبدیل به یک استاندار جدید در پردازش تصویر شده است. اگر در گوگل این کلمه را جستجو کنیم، با این تعریف روبرو خواهیم شد:
واحدپردازشگرافیکی یک تراشه کامپیوتری است که محاسبات ریاضی را سریع و با هدف رندرینگ تصاویر انجام میدهد
حوزه های کاربرد GPU ها عبارتند از: ترمیم تصویر ( Image Restoration )، تقسیم بندی تصویر ( Image Segmentation )، کاهش نویز تصویر ( Image De-noising )، بازسازی تصویر ( Image Reconstruction ) و فیلتر کردن ( Image Filtering ).
وبلاگ انویدیا محاسبات GPU را چنین تعریف میکند:
استفاده از GPU به همراه CPU برای افزایش سرعت در کار های علمی، تحلیلی، مهندسی، خرید و فروش و تجارت
همچنین عنوان میکند:
اگر CPU مغز کامپیوتر باشد، GPU روح آن است
واحد پردازش گرافیکی از هسته های متعدد و معماری محاسبات موازی تشکیل شده است. هر کدام از این هسته ها، از تعدادی واحد های عملگر مانند واحد محاسبه و منطق ( ALU ) تشکیل شده است. هر کدام از این هسته ها برای پردازش ریسمانی از دستورات استفاده میشوند. به این گروه از واحد های عملگر که به ریسمان کمک میکنند، عملگر های ریسمانی میگویند. تمام عملگر های ریسمانی در هسته GPU، یک مجموعه دستورات را اجرا میکنند چون واحد کنترل کننده آنها یکسان است. این به این معناست که GPU میتواند یک مجموعه دستورات را روی یک پیکسل عکس به صورت موازی اجرا کند.
معماری های GPU پیچیده و بسته به سازنده آنها، متغیر هستند. دو شرکت اصلی سازنده GPU ها، Nvidia و AMD نام دارند. شرکت Nvidia عملگر های ریسمانی خود را CUDA (Compute Unified Device Architecture) و AMD آنها را SP (Stream Processors) نامگذاری کرده است.
مقایسه کلی CPU و GPU
در اینجا سعی میکنیم اول با یک مثال این مقایسه را انجام دهیم و سپس یک مقایسه کلی بین عملکرد CPU و GPU انجام دهیم.
فرض کنید CPU یک ماشین پرسرعت و قدرتمند و GPU یک کامیون بزرگ است که هر دو میخواهند کالا هایی را به یک مقصد برسانند. CPU که سریع است، میتواند تعداد کمی کالا را در مدت زمان کمی جابجا کند. در حالیکه GPU میتواند تعداد بیشتری کالا جابجا کند اما سرعت کمتری دارد.
- پردازش در CPU بصورت متوالی و با استفاده از تعداد ریسمان کمی انجام شود ( منظور از متوالی این است که اول یک پردازش انجام میشود و سپس دیگری ). همچنین CPU تعداد هسته کمی دارد. این در حالی است که GPU هسته های زیادی دارد و میتواند پردازش را با استفاده از هزاران ریسمان، بصورت موازی انجام دهد.
- در دیپ لرنینگ، کد های میزبان ( Host Code ) روی CPU و کد های CUDA روی GPU اجرا میشوند.
- انجام عملیات پیچیده مثل رندرینگ گرافیک سه بعدی و محاسبات برداری، توسط CPU به GPU سپرده میشود.
- اگرچه که CPU میتواند از پس عملیات پیچیده و طولانی بربیاید اما GPU ممکن است با مشکل گلوگاه شدن Bandwitdh مواجه شود. برای مثال انتقال تعداد زیادی از داده ها به GPU ممکن است طولانی باشد.
- در GPU ها Bandwidth بهینه سازی شده است و در CPU ها تاخیر ( زمان دسترسی به حافظه )
در قسمت های بعدی مطلب، به مقایسه این دو در دیپ لرنینگ خواهیم پرداخت.
چرا دیپ لرنینگ احتیاج به سخت افزار قوی دارد؟
در هر شبکه عصبی، آموزش مدل دیپ لرنینگ مرحلهای است که بیشترین احتیاج را به سخت افزار دارد.
در هنگام آموزش، یک شبکه عصبی ورودی ها را میگیرد، آنها را در لایه های پنهان ( Hidden Layers ) پردازش میکند و یک سری وزن ( Weights ) به آنها نسبت میدهد و سپس، مدل یک پیشبینی انجام میدهد. وزن ها باعث میشوند تا الگو ها بهتر پیدا شوند و روند پیشبینی بهتر انجام شود.
همه این کارها در واقع ضرب ماتریس هستند. در شکل زیر میتوانید یک ضرب ماتریس را مشاهده کنید. در یک شبکه عصبی، ماتریس اول همان ورودی و ماتریس دوم وزن آن است.
اگر شبکه عصبی شما چیزی بین ده هزار تا صد هزار پارامتر داشته باشد، کامپیوتر شما همچنان میتواند در چند دقیقه یا نهایتا چند ساعت محاسبات آن را انجام دهد. اما اگر میلیون ها پارامتر داشته باشد چطور؟ آنوقت شاید روز ها طول بکشد تا مدل شما آموزش ببینید.
اینجاست که کارت گرافیک به کمک ما میآید. کارت گرافیک به ما کمک میکند تا محاسبات سریعتر انجام شوند.
کارت گرافیک در دیپ لرنینگ
یک سوال بزرگ برای کسانی که در حوزه ماشین لرنینگ و دیپ لرنینگ کار میکنند این است که آیا به GPU احتیاج پیدا خواهند کرد یا نه.
اگر تا به حال یک مدل ماشین لرنینگ یا دیپ لرنینگ را آموزش داده باشید، میدانید که GPU میتواند روند آموزش را از روز ها و ساعت ها به دقایق و ثانیه تبدیل کند. اما آیا واقعا به آن نیاز داریم؟ جواب کوتاه بله است. کارت های گرافیک برای آموزش مدل نیاز هستند و هیچ چیزی نمیتواند جایگزین آنها شود. اما این را بدانید که برای استفاده درست از آنها، باید طوری برنامه نویسی کنید تا بهترین استفاده از کارت گرافیک انجام شود و همه کتابخانه های برنامه نویسی برای این کار بهینه نیستند.
برنامه نویسی برای کارت گرافیک
برنامه نویسی برای کارت گرافیک کار راحتی نیست. همانطور که گفتیم، فقط یک شرکت کارت گرافیک تولید نمیکند. دو تا از معروف ترین فریم ورک ها برای این نوع برنامه نویسی عبارتند از:
- فریم ورک CUDA: مخفف Compute Unified Device Architecture مختص شرکت Nvidia
- فریم ورک OpenCL: در کارت های گرافیک دیگر شرکت ها مانند AMD استفاده میشود
همانطور که اشاره شد، CUDA را فقط در کارت های گرافیک شرکت Nvidia میتوان استفاده کرد در حالیکه OpenCL یک استاندارد برای محاسبات موازی روی دستگاه های مختلف مثل GPU، CPU و FPGA ها است.
فریم ورک CUDA به زبان C نوشته شده است اما در پایتون میتوان با استفاده از کتابخانه PyCuda و در جاوا از JCuda از آن استفاده کرد. اما یادگیری و برنامهنویسی در آنها کمی سخت است. همچنین باید بدانید که CUDA و واحد های سازنده آن مانند cuDNN و cuBLAS چگونه عمل میکنند.
نمونه های آسان تری هم مانند Deeplearning4J و ND4J وجود دارند که از GPU استفاده میکنند. ND4J را میتوان معادل کتابخانه Numpy در پایتون، برای جاوا در نظر گرفت.
کتابخانه Rapids برای افزایش سرعت کار های مربوط به دیتا ساینس با کمک GPU طراحی شده است. این کتابخانه در سطوح پایین خود، برای پیاده سازی الگوریتم ها و محاسبات سریع مبتنی بر GPU ، از CUDA و در سطوح بالاتر از پایتون استفاده میکند.
زیبایی Rapids اینجاست که با کتابخانه های مربوط به دیتا ساینس سازگار است. دیتافریم های کتابخانه Pandas را به راحتی میتوان با استفاده از Rapids به کارت گرافیک انتقال داد.
کتابخانه های Rapids عبارتند از:
کتابخانه cuDF: پردازش دیتافریم به کمک GPU در پایتون. این کتابخانه تمام کار هایی که Pandas انجام میدهد را انجام میدهد.
کتابخانه cuML: ماشین لرنینگ به کمک GPU در پایتون. این کتابخانه تمام الگوریتم های ماشین لرنینگ را که در کتابخانه Scikit-Learn وجود دارد، در خود جای داده است.
کتابخانه cuGraph: پردازش گراف به کمک GPU در پایتون. اکثر الگوریتم های تحلیل گراف مانند PageRank در این کتابخانه گنجانده شدهآند.
مقایسه CPU و GPU در دیپ لرنینگ
بالاتر یک مقایسه کلی بین CPU و GPU انجام دادیم. حال میخواهیم عملکرد این دو را در دیپ لرنینگ مقایسه کنیم.
پهنای باند حافظه: پهنای باند حافظه یا Memory Bandwidth یکی از اصلی ترین دلایل سرعت بالای GPU در برابر CPU است. در دیتاست های بزرگ، CPU حافظه زیادی را برای آموزش مدل اشغال میکند. اما GPU خود مجهز به حافظه اختصاصی VRAM است. به همین خاطر میتوان از حافظه اختصاصی کارت گرافیک برای آموزش مدل و از حافظه CPU برای دیگر کار ها استفاده کرد. البته اینجا با یک مشکل روبرو میشویم. انتقال دیتاست های بزرگ از CPU به GPU خود یک چالش است.
محاسبات بزرگ و پیچیده احتیاج به سرعت بالای CPU دارد. علت این امر ،همانطور که بالاتر گفتیم، متوالی انجام شدن عملیات در CPU است. CPU برای این کار هسته های کمتری نسبت به GPU دارد.اگرچه GPU ها سریع تر هستند اما انتقال داده های بزرگ از CPU به GPU، بسته به معماری پردازنده،میتواند مدت زمان زیادی طول بکشد. بهترین CPU ها چیزی در حدود 50GB/s پهنای حافظه دارند. این در حالی است که این عدد در GPU ها چیزی در حدود 750GB/s است.
دیتاست: آموزش یک مدل در دیپ لرنینگ احتیاج به یک دیتاست یا مجموعه داده بزرگ دارد. هرچقدر که دیتاست بزرگ تر باشد، احتیاج به حافظه بیشتری داریم. در اینجا یکی از برتری های GPU به CPU نمایان شود چون کارت های گرافیک مجهز به حافظه اختصاصی هستند.
محاسبات موازی: در مثالی که زدیم، اگر بطور همزمان از کامیون های بیشتری استفاده کنیم، میتوانیم از زمانی که برای بارگذاری کامیون ها صرف میکنیم، استفاده بهینه کنیم. ( به این صورت که اگر مثلا بارگذاری هر کامیون یک ساعت طول بکشد، با افزایش تعداد کامیون ها به 100 تا، میتوانیم در یک ساعت به جای یک کامیون، 100 کامیون را بارگذاری کنیم ) از این رو میتوان زمان تاخیر ( بارگذاری ) را پنهان کرد.
کارت های گرافیک پهنای باند بیشتری را ارائه میدهند و تاخیر ( Latency ) خود را با محاسبات موازی جبران میکنند. پس، در مواقعی که به حافظه بیشتری احتیاج داریم، کارت های گرافیک بیشترین پهنای حافظه را در اختیار ما میگذارند و در عین حال، بخاطر انجام محاسبات به صورت موازی، تقریباً یک تجربه بینقص را ارائه میدهند.
بهینه سازی: بهینه سازی فعالیت ها برای CPU آسان تر از GPU است. هسته های CPU، اگرچه کم هستند اما قدرتمند تر از هزاران هسته GPU هستند.
هر هسته CPU میتواند دستور های متفاوت را انجام دهد ( معماری MIMD ). در برابر، هسته های GPU میتوانند یک دستور را به صورت موازی انجام دهند. ( معماری SIMD ).
برای درک بهتر این دو معماری، به این دو مثال توجه کنید. بازیکنان یک تیم فوتبال مانند معماری MIMD هستند. هر کدام از بازیکنان وظیفه های منحصر به فرد خود را دارند اما در نهایت، نتیجه همه این وظایف به یک هدف منجر میشود. یک تیم قایق رانی هم مانند معماری SIMD است. همه پاروزن ها دقیقا یک وظیفه یکسان دارند.
این موازی کاری در شبکه های عصبی ( Neural Network ) بسیار پیچیده است. در نتیجه پیاده سازی تکنیک های بهینه سازی در GPU سخت تر از CPU است.
هزینه: برای آموزش شبکه های کوچکتر با دیتاست های کوچکتر و در مواقعی که زمان انجام این کار مهم نباشد، میتوان از CPU استفاده کرد چون برق مصرفی GPU بیشتر از CPU است.
خلاصه این مقایسه: پهنای باند بالا و پنهان شدن تاخیر زیر سایه محاسبات موازی، باعث سریعتر بودن GPU نسبت به CPU است.
با توجه به دلایل بالا، اگر میخواهیم مدل را روی یک دیتاست کوچک آموزش دهیم، میتوانیم از CPU استفاده کنیم. استفاده از GPU برای آموزش سیستم های دیپ لرنینگ در دیتاست های بزرگ که زمان طولانی احتیاج دارد، مناسب است. CPU در آموزش یک مدل دیپ لرنینگ کند اما GPU سریع است. در نتیجه اگر میخواهید در زمان خود صرفه جویی کنید، از GPU استفاده کنید.
آیا واقعا در دیپ لرنینگ به کارت گرافیک احتیاج دارم؟
در اینجا میخواهیم این موضوع را در ۴ سناریوی مختلف بررسی کنیم.
سناریوی اول: اول ببینید کاری که میخواهید انجام دهید به چه منابعی احتیاج دارد. اگر قرار است با یک دیتاست کوچک کار کنید یا کاری که میکنید با پردازش متوالی CPU قابل انجام است، پس احتیاج به یک کارت گرافیک برای آموزش مدل خود ندارید.
سناریوی دوم: اگر کاری که انجام میدهید از سناریوی اول کمی بزرگتر است و دیتاست بزرگتری در اختیار دارید، یک کارت گرافیک معقول هم میتواند کار شما را راه بیندازد. مثلا میتوان از کارت گرافیک یک لپتاپ استفاده کرد.
سناریوی سوم: اگر اغلب اوقات کاری که میکنید پیچیده است یا اگر شرکتی هستید که در سرویس های خود از دیپ لرنینگ استفاده میکند، بهتر است یک کامیپوتر مناسب دیپ لرنینگ خریداری کنید یا از سرویس های ابری مانند AWS استفاده کنید.
سناریوی چهارم: اگر کار شما به طور معمول در مقیاس بزرگی است و به طور تخصصی در حوزه دیپ لرنینگ کار میکنید و بودجه خوبی هم دارید، میتوانید چند کارت گرافیک بخرید و برای محاسبات خود استفاده کنید. البته گزینه های دیگری هم مانند استفاده از TPU و FPGA وجود دارد.
Resources:
How you can accelerate your Data Science on GPU
Basics of GPU Computing for Data Scientists
Is GPU Really Necessary for Data Science Work?
Why are GPUs necessary for training Deep Learning models?
مطلبی دیگر از این انتشارات
برنامه نویسی S.O.L.I.D
مطلبی دیگر از این انتشارات
انگولار جی اس Angular JS
مطلبی دیگر از این انتشارات
توان حل مساله یا برنامه نویسی؟