در حال آشنایی اولیه با ترنسفورمرها هستم. ترنسفورمرها، یک معماری خاص برای استفاده از شبکههای عصبی در یادگیری ماشین ارائه میدهند که به طرز شگفتآوری خوب کار میکنند. یکی از ابزارهایی که با ترنسفورمرها ساخته شده و جدیدا مورد توجه قرارگرفته ChatGPT و دوستانش هستند.
ترنسفورمرها ساختارهای بسیار پیچیدهای دارند برای همین شاید یادگرفتن آنها بدیهی نباشد. اینجا برخی منابع برای یادگرفتن ترنسفورمرها را معرفی میکنیم:
فیلمهای آموزشی آکادمی سرانو شامل مفاهیم اولیه و توضیحات نسبتا روانی از شبکههای عصبی و لایه توجه و ترنسفورمرهاست.
کتاب Natural Language Processing with Transformers که علاوه بر آموزش کلیات، کتابخانه huggingface را هم آموزش میدهد که ابزار سادهای برای کارکردن با ترنسفورمرها و دادههاست.
برای رشتههای طولانی، ظاهرا کارکردن با ترنسفورمرها مشکلاتی جدی دارد. مخصوصا که برای کاربردهای بیوانفورماتیکی نیاز دارید که از ترنسفورمرهایی استفاده کنیم که رشتههای طولانی را دریافت میکنند. در مدیوم مقالهای در این مورد هست. وبگاه huggingface هم مقاله خوبی در این زمینه دارد.
برخی جزئیات در مورد اینکه محاسبات مراحل مختلف ترنسفورمرها چگونه انجام میشود در اینجا (لایه دگرنمایی) و اینجا (رمزگذاری مکانی) و اینجا (لایه توجه چندسر) آمده است.