داستان مدلهای زبانی بزرگ، تصور کن یک فیلمنامه کوتاه پیدا میکنی که در آن مکالمهای بین یک انسان و دستیار هوش مصنوعیاش نوشته شده، اما فقط سوال انسان هست و جوابهای هوش مصنوعی از بین رفتهاند.
حالا فرض کن یک دستگاه جادویی در اختیار داری که میتواند هر متنی را بخواند و بهطور هوشمندانه کلمهی بعدی را پیشبینی کند. با وارد کردن سوال انسان به این دستگاه، آن شروع میکند به حدس زدن جواب، کلمه به کلمه، و این روند را ادامه میدهد تا گفتگو کامل شود.
در واقع، وقتی با یک چتبات صحبت میکنی، همین اتفاق در پشت صحنه میافتد. مدل زبان بزرگ (Large Language Model) یک تابع پیچیده ریاضی است که پیشبینی میکند بعد از هر جمله یا کلمه، چه کلمهای باید بیاید.
اما بهجای اینکه فقط یک کلمه را با قطعیت پیشبینی کند، برای هر کلمهی ممکن، یک احتمال مشخص میکند. برای ساخت چتبات، اول یک متن فرضی از گفتوگو بین کاربر و دستیار AI طراحی میکنند، بعد متن واقعی کاربر را وارد میکنند، و مدل به صورت خودکار جواب دستیار را کلمهبهکلمه پیشبینی میکند.
برای طبیعیتر شدن پاسخها، مدل گاهی کلماتی با احتمال کمتر را بهصورت تصادفی انتخاب میکند. این باعث میشود حتی اگر یک سوال را چند بار تکرار کنی، مدل پاسخهای مختلفی بدهد.
مدلهای زبانی این توانایی را از طریق مطالعهی حجم عظیمی از متن (معمولاً از اینترنت) یاد میگیرند. برای درک بهتر این موضوع تصور کنید که اگر یک انسان بخواهد همهی متنهایی که برای آموزشGPT-3 استفاده شده را ۲۴ ساعته بدون توقف بخواند، بیش از ۲۶۰۰ سال طول میکشد!
مدلهای جدیدتر حتی دادههای بیشتری دریافت می کنند، مثلا آموزش دادن به مدل مانند تنظیم پیچهای بی شمار یک دستگاه بزرگ است. همه چیز به مجموعهای از اعداد (پارامترها) بستگی دارد. این پارامترها در ابتدا تصادفی هستند و مدل جوابهای بیربط میدهد. ولی با بررسی مثالهای واقعی، این پارامترها بهتدریج بهبود مییابند.
برای هر مثال، مدل باید حدس بزند آخرین کلمهی جمله چیست. اگر درست نباشد، الگوریتمی به نام پسانتشار خطا (Backpropagation) پارامترها را تنظیم میکند تا حدس مدل بهتر شود و این کار برای تریلیونها مثال تکرار میشود.
بعد از این همه آموزش، مدل میتواند حتی برای متنهایی که تا به حال ندیده، پاسخهای منطقی بدهد. اما انجام این همه محاسبه بسیار سنگین است. حتی اگر بتوانی در هر ثانیه یک میلیارد عملیات انجام دهی، آموزش بزرگترین مدلهای زبانی بیش از ۱۰۰ میلیون سال طول میکشد!
این مرحله، آموزش اولیه یا پیشآموزش (pre-training) نام دارد و هدف این آموزش فقط پیشبینی کلمه است، نه رفتار خوب یک دستیار. برای همین، مدلها وارد مرحلهی دوم آموزش به نام یادگیری تقویتی با بازخورد انسانی (Reinforcement Learning with Human Feedback). میشوند در این مرحله، انسانها پاسخهای بد مدل را علامت زده و اصلاح می کنند، و این اصلاحات باعث میشود مدل در آینده پاسخهای بهتری بدهد.
برای انجام این آموزشها از چیپهای خاصی به نام GPU استفاده میشود که میتوانند میلیونها عملیات را همزمان انجام دهند.
قبل از سال ۲۰۱۷، مدلها متن را کلمهبهکلمه میخواندند. اما گوگل مدلی به نام Transformer را معرفی کرد که متن را به صورت همزمان (در لحظه) تحلیل میکند.
اولین کار در Transformer این است که هر کلمه را به یک لیست عددی تبدیل میکند “چون مدل فقط با عدد کار میکند” و این اعداد معنای کلمات را منتقل میکنند.
چیزی که Transformer را خاص میکند، عملیاتی به نام توجه یا Attention است. این عملیات کمک میکند تا هر کلمه بتواند معنایش را با توجه به بقیهی متن تنظیم کند.
همچنین یک لایهی دیگر به نام شبکه عصبی پیشخور (Feedforward Neural Network) دارد که به مدل کمک میکند الگوهای بیشتری را یاد بگیرد.
تمام این اطلاعات از لایهای به لایهی بعد منتقل میشود تا مدل بتواند پیشبینی دقیقی از کلمهی بعدی داشته باشد و در پایان، مدل احتمال هر کلمهی ممکن را محاسبه میکند و یکی را انتخاب میکند.
در نهایت، مهم است بدانیم که رفتار مدل نه با برنامهنویسی مستقیم، بلکه به صورت پدیدهای خودجوش (emergent) از میلیونها پارامتر شکل میگیرد. به همین دلیل دقیقاً مشخص نیست چرا مدل فلان جواب را داده، اما آنچه قابل مشاهده است این است که پاسخهایی که مدل تولید میکند، بسیار روان، جالب، و اغلب مفید هستند.
اگر علاقهمند هستی بیشتر در مورد این فناوردی در”مدلهای زبانی بزرگ” یاد بگیری، خوب است بدانی که معماری ترنسفورمر Transformer یکی از انقلابیترین دستاوردهای هوش مصنوعی در زمینهی پردازش زبان طبیعی است. این معماری اولینبار در سال 2017 توسط پژوهشگران گوگل در مقالهای با عنوان «توجه تنها چیزی است که نیاز دارید(Attention Is All You Need) » معرفی شد. ترنسفورمرها از مکانیزمی به نام «توجه» یا «Attention» استفاده میکنند که به مدل اجازه میدهد به بخشهای مختلف جمله یا متن ورودی با دقت بیشتری نگاه کند و روابط بین کلمات را بهتر درک کند — حتی اگر آن کلمات از هم دور باشند. برخلاف مدلهای قدیمیتر مثل RNN یا LSTM، ترنسفورمرها میتوانند جملات بلند را همزمان (و نه به ترتیب) پردازش کنند، که این روش باعث افزایش سرعت و دقت آنها شده است.
یکی از اجزای کلیدی ترنسفورمر «توجه چندسَری» یا Multi-Head Attention است، که به مدل اجازه میدهد اطلاعات را از زوایای مختلف بررسی کند. این ویژگی باعث شده که ترنسفورمرها بتوانند معنا و مفهوم واژگان را در زمینهی جمله بهتر درک کنند.
امروزه، مدلهای پیشرفتهای مانند BERT، GPT، T5 و بسیاری دیگر، همگی بر پایهی همین معماری ترنسفورمر ساخته شدهاند. این مدلها در کاربردهایی مثل ترجمهی ماشینی، پاسخ به سوالات، تولید متن، و حتی تحلیل احساسات استفاده میشوند.
برای یادگیری بیشتر، میتوانید به منابع معتبری مانند مقالات رسمی در arXiv، یا وبسایتهایی مثل Towards Data Science و Distill.pub مراجعه کنید که توضیحات بصری و سادهشدهای دربارهی نحوهی عملکرد ترنسفورمر و مکانیزم توجه ارائه میدهند. همچنین ویدیوهای آموزشی تولیدشده توسط دانشگاه MIT یا کانالهایی مثل 3Blue1Brown و CodeEmporium نیز این مفاهیم را با استفاده از انیمیشنها و مثالهای ساده آموزش میدهند.
این تصویر یک نمودار ساده از ساختار مدل ترنسفورمر (Transformer) را نشان میدهد. بیایید قدم به قدم به زبان ساده آن را توضیح دهیم:
بردارهای ورودی Input Embeddings
متنی که به مدل میدهیم (مثلاً جملهای از زبان انگلیسی یا فارسی)، ابتدا به شکل عددی یا برداری تبدیل میشود تا کامپیوتر بتواند آن را بفهمد. این قسمت دقیقا همین کار را انجام میدهد.
کدگذاری موقعیتی Positional Encoding
چون مدل ترنسفورمر ترتیب واژهها را بهصورت مستقیم نمیفهمد، باید به آن بگوییم که هر کلمه در چه موقعیتی قرار دارد. این بخش اطلاعات مربوط به موقعیت هر کلمه را به بردارها اضافه میکند.
جمع و نرمالسازی Add & Norm
در این مرحله، اطلاعاتِ موقعیت و ورودی با هم ترکیب شده و نرمال میشوند تا مدل بهتر بتواند آنها را پردازش کند.
توجه چندسَری به خود Multi-Head Self-Attention
این بخش خیلی مهم است. مدل تصمیم میگیرد که به کدام کلمهها در جمله بیشتر توجه کند. مثلاً در جمله “علی به مدرسه رفت”، مدل یاد میگیرد که «علی» فاعل است و «رفت» فعل است — پس باید به رابطهی بین این دو توجه کند.
شبکه عصبی پیشرو Feed Forward Neural Network
بعد از مرحله توجه، مدل اطلاعات را از یک شبکه عصبی ساده عبور میدهد تا مفاهیم پیچیدهتری یاد بگیرد.
دوباره جمع و نرمالسازی Add & Norm
یک بار دیگر عملیات ترکیب و نرمالسازی انجام میشود تا نتایج منظمتر شوند.
خروجی Output
در پایان، نتیجهی نهایی آماده است — مثلاً ترجمهی جمله، پاسخ به سؤال، یا تولید متن جدید. این ساختار پایهی مدلهایی مثل GPT، BERT و دیگر مدلهای معروف هوش مصنوعی است.
در نهایت، مدلهای زبانی بزرگ LLMs نه تنها نشاندهنده یک پیشرفت چشمگیر در حوزه هوش مصنوعی هستند، بلکه به سرعت در حال تغییر نحوه تعامل ما با فناوری و اطلاعات نیز میباشند. از تسهیل ارتباطات گرفته تا خودکارسازی وظایف پیچیده، پتانسیل این مدلها بیحد و حصر به نظر میرسد. با درک عمیقتر از سازوکار و قابلیتهای این فناوریهای نوین، میتوانیم هم از مزایای آنها بهرهمند شویم و هم برای چالشهای پیش رو آمادهتر باشیم. آیندهای که مدلهای زبانی بزرگ ترسیم میکنند، آیندهای هیجانانگیز و پر از امکانات جدید است که نیازمند توجه و توسعه مستمر خواهد بود.
سلب مسئولیت: این مقاله فقط برای اهداف اطلاعاتی ارائه شده است و توصیه نمی شود به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا سایر موارد مورد استفاده قرار گیرد.