مدل‌های زبانی بزرگ هوش مصنوعی (مثل چت‌بات‌ها) چگونه کار میکنند

مدل‌های زبانی بزرگ هوش مصنوعی (مثل چت‌بات‌ها) چگونه کار میکنند

داستان مدل‌های زبانی بزرگ، تصور کن یک فیلمنامه کوتاه پیدا می‌کنی که در آن مکالمه‌ای بین یک انسان و دستیار هوش مصنوعی‌اش نوشته شده، اما فقط سوال انسان هست و جواب‌های هوش مصنوعی از بین رفته‌اند.

حالا فرض کن یک دستگاه جادویی در اختیار داری که می‌تواند هر متنی را بخواند و به‌طور هوشمندانه کلمه‌ی بعدی را پیش‌بینی کند. با وارد کردن سوال انسان به این دستگاه، آن شروع می‌کند به حدس زدن جواب، کلمه به کلمه، و این روند را ادامه می‌دهد تا گفتگو کامل شود.

در واقع، وقتی با یک چت‌بات صحبت می‌کنی، همین اتفاق در پشت صحنه می‌افتد. مدل زبان بزرگ (Large Language Model) یک تابع پیچیده ریاضی است که پیش‌بینی می‌کند بعد از هر جمله یا کلمه، چه کلمه‌ای باید بیاید.

اما به‌جای اینکه فقط یک کلمه را با قطعیت پیش‌بینی کند، برای هر کلمه‌ی ممکن، یک احتمال مشخص می‌کند. برای ساخت چت‌بات، اول یک متن فرضی از گفت‌وگو بین کاربر و دستیار AI طراحی می‌کنند، بعد متن واقعی کاربر را وارد می‌کنند، و مدل به صورت خودکار جواب دستیار را کلمه‌به‌کلمه پیش‌بینی می‌کند.

برای طبیعی‌تر شدن پاسخ‌ها، مدل گاهی کلماتی با احتمال کمتر را به‌صورت تصادفی انتخاب می‌کند. این باعث می‌شود حتی اگر یک سوال را چند بار تکرار کنی، مدل پاسخ‌های مختلفی بدهد.

مدل‌های زبانی این توانایی را از طریق مطالعه‌ی حجم عظیمی از متن (معمولاً از اینترنت) یاد می‌گیرند. برای درک بهتر این موضوع تصور کنید که اگر یک انسان بخواهد همه‌ی متن‌هایی که برای آموزشGPT-3 استفاده شده را ۲۴ ساعته بدون توقف بخواند، بیش از ۲۶۰۰ سال طول می‌کشد!

مدل‌های جدیدتر حتی داده‌های بیشتری دریافت می کنند، مثلا آموزش دادن به مدل مانند تنظیم پیچ‌های بی شمار یک دستگاه بزرگ است. همه چیز به مجموعه‌ای از اعداد (پارامترها) بستگی دارد. این پارامترها در ابتدا تصادفی هستند و مدل جواب‌های بی‌ربط می‌دهد. ولی با بررسی مثال‌های واقعی، این پارامترها به‌تدریج بهبود می‌یابند.

برای هر مثال، مدل باید حدس بزند آخرین کلمه‌ی جمله چیست. اگر درست نباشد، الگوریتمی به نام پس‌انتشار خطا (Backpropagation) پارامترها را تنظیم می‌کند تا حدس مدل بهتر شود و این کار برای تریلیون‌ها مثال تکرار می‌شود.

بعد از این همه آموزش، مدل می‌تواند حتی برای متن‌هایی که تا به حال ندیده، پاسخ‌های منطقی بدهد. اما انجام این همه محاسبه بسیار سنگین است. حتی اگر بتوانی در هر ثانیه یک میلیارد عملیات انجام دهی، آموزش بزرگ‌ترین مدل‌های زبانی بیش از ۱۰۰ میلیون سال طول می‌کشد!

این مرحله، آموزش اولیه یا پیش‌آموزش (pre-training) نام دارد و هدف این آموزش فقط پیش‌بینی کلمه است، نه رفتار خوب یک دستیار. برای همین، مدل‌ها وارد مرحله‌ی دوم آموزش به نام یادگیری تقویتی با بازخورد انسانی (Reinforcement Learning with Human Feedback). می‌شوند در این مرحله، انسان‌ها پاسخ‌های بد مدل را علامت ‌زده و اصلاح می کنند، و این اصلاحات باعث می‌شود مدل در آینده پاسخ‌های بهتری بدهد.

برای انجام این آموزش‌ها از چیپ‌های خاصی به نام GPU استفاده می‌شود که می‌توانند میلیون‌ها عملیات را همزمان انجام دهند. 

قبل از سال ۲۰۱۷، مدل‌ها متن را کلمه‌به‌کلمه می‌خواندند. اما گوگل مدلی به نام Transformer را معرفی کرد که متن را به صورت هم‌زمان (در لحظه) تحلیل می‌کند.

اولین کار در Transformer این است که هر کلمه را به یک لیست عددی تبدیل می‌کند “چون مدل فقط با عدد کار می‌کند” و این اعداد معنای کلمات را منتقل می‌کنند.

چیزی که Transformer را خاص می‌کند، عملیاتی به نام توجه یا Attention است. این عملیات کمک می‌کند تا هر کلمه بتواند معنایش را با توجه به بقیه‌ی متن تنظیم کند.

همچنین یک لایه‌ی دیگر به نام شبکه عصبی پیش‌خور (Feedforward Neural Network) دارد که به مدل کمک می‌کند الگوهای بیشتری را یاد بگیرد.

تمام این اطلاعات از لایه‌ای به لایه‌ی بعد منتقل می‌شود تا مدل بتواند پیش‌بینی دقیقی از کلمه‌ی بعدی داشته باشد و در پایان، مدل احتمال هر کلمه‌ی ممکن را محاسبه می‌کند و یکی را انتخاب می‌کند.

در نهایت، مهم است بدانیم که رفتار مدل نه با برنامه‌نویسی مستقیم، بلکه به صورت پدیده‌ای خودجوش (emergent) از میلیون‌ها پارامتر شکل می‌گیرد. به همین دلیل دقیقاً مشخص نیست چرا مدل فلان جواب را داده، اما آنچه قابل مشاهده است این است که پاسخ‌هایی که مدل تولید می‌کند، بسیار روان، جالب، و اغلب مفید هستند.

اگر علاقه‌مند هستی بیشتر در مورد  این فناوردی در”مدل‌های زبانی بزرگ” یاد بگیری، خوب است بدانی که معماری ترنسفورمر Transformer یکی از انقلابی‌ترین دستاوردهای هوش مصنوعی در زمینه‌ی پردازش زبان طبیعی است. این معماری اولین‌بار در سال 2017 توسط پژوهشگران گوگل در مقاله‌ای با عنوان «توجه تنها چیزی است که نیاز دارید(Attention Is All You Need) » معرفی شد. ترنسفورمرها از مکانیزمی به نام «توجه» یا «Attention» استفاده می‌کنند که به مدل اجازه می‌دهد به بخش‌های مختلف جمله یا متن ورودی با دقت بیشتری نگاه کند و روابط بین کلمات را بهتر درک کند — حتی اگر آن کلمات از هم دور باشند. برخلاف مدل‌های قدیمی‌تر مثل RNN یا LSTM، ترنسفورمرها می‌توانند جملات بلند را هم‌زمان (و نه به ترتیب) پردازش کنند، که این روش باعث افزایش سرعت و دقت آن‌ها شده است.

یکی از اجزای کلیدی ترنسفورمر «توجه چندسَری» یا Multi-Head Attention است، که به مدل اجازه می‌دهد اطلاعات را از زوایای مختلف بررسی کند. این ویژگی باعث شده که ترنسفورمرها بتوانند معنا و مفهوم واژگان را در زمینه‌ی جمله بهتر درک کنند.

امروزه، مدل‌های پیشرفته‌ای مانند BERT، GPT، T5 و بسیاری دیگر، همگی بر پایه‌ی همین معماری ترنسفورمر ساخته شده‌اند. این مدل‌ها در کاربردهایی مثل ترجمه‌ی ماشینی، پاسخ به سوالات، تولید متن، و حتی تحلیل احساسات استفاده می‌شوند.

برای یادگیری بیشتر، می‌توانید به منابع معتبری مانند مقالات رسمی در arXiv، یا وب‌سایت‌هایی مثل Towards Data Science و Distill.pub مراجعه کنید که توضیحات بصری و ساده‌شده‌ای درباره‌ی نحوه‌ی عملکرد ترنسفورمر و مکانیزم توجه ارائه می‌دهند. همچنین ویدیوهای آموزشی تولیدشده توسط دانشگاه MIT یا کانال‌هایی مثل 3Blue1Brown و CodeEmporium نیز این مفاهیم را با استفاده از انیمیشن‌ها و مثال‌های ساده آموزش می‌دهند.

این تصویر یک نمودار ساده از ساختار مدل ترنسفورمر (Transformer) را نشان می‌دهد. بیایید قدم به قدم به زبان ساده آن را توضیح دهیم:

بردارهای ورودی Input Embeddings
متنی که به مدل می‌دهیم (مثلاً جمله‌ای از زبان انگلیسی یا فارسی)، ابتدا به شکل عددی یا برداری تبدیل می‌شود تا کامپیوتر بتواند آن را بفهمد. این قسمت دقیقا همین کار را انجام می‌دهد.

کدگذاری موقعیتی Positional Encoding
چون مدل ترنسفورمر ترتیب واژه‌ها را به‌صورت مستقیم نمی‌فهمد، باید به آن بگوییم که هر کلمه در چه موقعیتی قرار دارد. این بخش اطلاعات مربوط به موقعیت هر کلمه را به بردارها اضافه می‌کند.

جمع و نرمال‌سازی Add & Norm
در این مرحله، اطلاعاتِ موقعیت و ورودی با هم ترکیب شده و نرمال می‌شوند تا مدل بهتر بتواند آن‌ها را پردازش کند.

 توجه چندسَری به خود Multi-Head Self-Attention
این بخش خیلی مهم است. مدل تصمیم می‌گیرد که به کدام کلمه‌ها در جمله بیشتر توجه کند. مثلاً در جمله “علی به مدرسه رفت”، مدل یاد می‌گیرد که «علی» فاعل است و «رفت» فعل است — پس باید به رابطه‌ی بین این دو توجه کند.

شبکه عصبی پیش‌رو Feed Forward Neural Network
بعد از مرحله توجه، مدل اطلاعات را از یک شبکه عصبی ساده عبور می‌دهد تا مفاهیم پیچیده‌تری یاد بگیرد.

دوباره جمع و نرمال‌سازی Add & Norm
یک بار دیگر عملیات ترکیب و نرمال‌سازی انجام می‌شود تا نتایج منظم‌تر شوند.

خروجی Output
در پایان، نتیجه‌ی نهایی آماده است — مثلاً ترجمه‌ی جمله، پاسخ به سؤال، یا تولید متن جدید. این ساختار پایه‌ی مدل‌هایی مثل GPT، BERT و دیگر مدل‌های معروف هوش مصنوعی است.

در نهایت، مدل‌های زبانی بزرگ LLMs نه تنها نشان‌دهنده یک پیشرفت چشمگیر در حوزه هوش مصنوعی هستند، بلکه به سرعت در حال تغییر نحوه تعامل ما با فناوری و اطلاعات نیز می‌باشند. از تسهیل ارتباطات گرفته تا خودکارسازی وظایف پیچیده، پتانسیل این مدل‌ها بی‌حد و حصر به نظر می‌رسد. با درک عمیق‌تر از سازوکار و قابلیت‌های این فناوری‌های نوین، می‌توانیم هم از مزایای آن‌ها بهره‌مند شویم و هم برای چالش‌های پیش رو آماده‌تر باشیم. آینده‌ای که مدل‌های زبانی بزرگ ترسیم می‌کنند، آینده‌ای هیجان‌انگیز و پر از امکانات جدید است که نیازمند توجه و توسعه مستمر خواهد بود.

سلب مسئولیت: این مقاله فقط برای اهداف اطلاعاتی ارائه شده است و توصیه نمی شود به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا سایر موارد مورد استفاده قرار گیرد.

Click for reference

Add a Comment

Your email address will not be published. Required fields are marked *