مثالی از کاربرد مدلهای زبانی بزرگ در دنیای واقعی – بخش ششم

مثالی از کاربرد مدلهای زبانی بزرگ در دنیای واقعی – بخش ششم
یکی از قابلیتهای بالقوه و نوظهوری که مدلهای زبانی بزرگ در اختیار ما قرار میدهند، سرویس خودکار مشتریان ACS سرنام (automated customer service) است که البته نیازمند پیشآموزش مدل پایه برای جلوگیری از تجربههای غیرمنتظره مشتریان است. به طور کلی، فرآیند مذکور بر مبنای مراحل زیر انجام میشود.
جمعآوری و پیشپردازش دادهها
ACS با گردآوری مجموعه عظیمی از مکالمات خدمات مشتریان، ایمیلها و تعاملات در شبکههای اجتماعی شروع میشود. این دادهها پیشپردازش میشوند و اطلاعات غیرمرتبط مانند قیمتها و اطلاعات شناسایی شخصی (PII) حذف میشوند. به طوری که در حالت ایدهآل، حدود ۱ تریلیون توکن برای پیشآموزش باید تولید شده و مورد استفاده قرار گیرند.
انتخاب مدل پایه
در مرحله بعد برخی از شرکتها از مدل لاما ۲ (Llama 2) بهعنوان مدل پایه استفاده میکنند تا بتوانند مدل خودشان را پیادهسازی کنند. این کار به آنها اجازه میدهد تا مدل را از ابتدا پیشآموزش دهند. این کار به ACS اجازه داد تا دانش و دامنه مدل را کنترل کند.
مرحله پیشآموزش
پیشآموزش به حدود ۱۰۰,۰۰۰ ساعت محاسبات مبتنی بر تراشه A100 نیاز دارد که به طور میانگین هزینهای حدود ۱۵۰,۰۰۰ دلار به همراه دارد. در مقایسه، نسخه رسمی لاما ۲ روی ۲ تریلیون توکن با هزینهای حدود یکچهارم میلیون دلار آموزش دیده است.
مرحله تنظیم دقیق (Fine-tuning)
به طور معمول، سه نسخه از مدل پیشآموزشدیده بهصورت جداگانه برای کاربردهای خدمات مشتریان تنظیم میشوند که شامل ایمیلها، تعاملات شبکههای اجتماعی و مکالمات صوتی است.
استقرار مدل
پس از تنظیم دقیق، مدلها از طریق پلتفرمهای ابری مثل Azure AI مستقر میشوند و در پلتفرم خدمات مشتریان شرکت ادغام شدند. این استقرار شامل یکپارچگی با سیستمهای CRM موجود شرکت برای ارائه تجربه کاربری یکپارچه است.
نظارت و بهروزرسانی مداوم
تیمهای LLMOps عملکرد مدل را بهصورت مداوم نظارت میکنند و معیارهایی مانند دقت، زمان پاسخگویی و هزینه را رصد میکنند. همچنین مراقب انحراف یا کاهش عملکرد مدل هستند. مدل بهصورت دورهای با دادههای جدید بهروز میشود تا با نیازهای در حال تحول حوزه و خدمات مشتریان هماهنگ بماند. این بهروزرسانیها شامل بازآموزش بخشهایی از مدل با دادههای اخیر برای حفظ دقت و بهروز بودن آن است.
امنیت و انطباق
نکته مهمی که باید در این بخش به آن اشاره داشته باشیم این است که سازمانها نیازمند پروتکلهای امنیتی سختگیرانه هستند که شامل رمزنگاری دادهها، کنترل دسترسی و ممیزیهای امنیتی منظم برای حفاظت از مدل و دادههای پردازششده است. انطباق با استانداردهای قانونی و دستورالعملهای اخلاقی باید به شکل مداوم انجام شود تا سازمان با مشکلات حقوقی روبرو نشود.
تا این بخش از مبحث LLMOps، پیشرفت تاریخی پردازش زبان طبیعی (NLP) را بررسی کردیم و تکامل آن را از سیستمهای مبتنی بر قواعد تا ظهور مدلهای زبانی تحولآفرین (LLMs) مرور کردیم. این مسیر، نقاط عطف مهم و پیشرفتهای فناوری را که منجر به توسعه مدلهای پیشرفتهای مانند GPT و لاما ۲ شدهاند، برای ما هویدا کرد. سپس، چالشهای منحصربهفرد LLMOps را در مقایسه با MLOps سنتی بررسی کردیم و متوجه شدیم که مقیاس، پیچیدگی و نیازهای خاص LLMs نیازمند رویکردی تخصصی است که بهطور قابلتوجهی با مدلهای یادگیری ماشینی معمولی متفاوت است.
همچنین، مشاهده کردیم که چگونه LLMs بهطور فزایندهای در صنایع مختلف ادغام میشوند و چشمانداز تعاملات دیجیتال و تولید محتوا را تغییر میدهند. این ادغام نشاندهنده تاثیر رو به رشد و تطبیقپذیری LLMs در کاربردهای عملی است.
در نهایت، مفاهیم کلیدی مانند معماریهای ترنسفورمر، توکنسازی، پنجرههای زمینهای و اهمیت مقیاسپذیری و ارزیابی مدل را معرفی کردیم تا درک عمیقتری از جنبههای فنی LLMOps به دست آوریم.
مروری گامبهگام بر فرآیند LLMOps، از انتخاب و طراحی مدل تا استقرار و نظارت، حداقل دید اولیه از فرآیندهای مدیریت LLMs در اختیار ما قرار داد تا ببینیم پیچیدگی استقرار و نگهداری مدلهای زبانی به چه صورتی است. اکنون، وقت آن رسیده تا فرآیندهای مرتبط با جمعآوری دادهها را مورد بررسی قرار دهیم.
جمعآوری و آمادهسازی دادهها
جمعآوری و آمادهسازی دادهها ستون فقرات آموزش و کارایی مدلهای زبانی بزرگ (LLMs) را تشکیل میدهد. این مرحله شامل جمعآوری، پردازش و ذخیرهسازی دادهها بهگونهای است که برای آموزش LLMs بیشترین کارایی را داشته باشد.
جمعآوری دادهها
جمعآوری دادهها برای آموزش LLMs معمولا شامل گردآوری از مجموعه دادههای عمومی متنوع در زبان است. این مجموعه دادهها شامل موارد زیر میشوند:
- متن وب: دادههای استخراجشده از وبسایتها، شامل موضوعات و سبکهای متنوع.
- کتابها و نشریات: متون کتابها، بهویژه آنهایی که در حوزه عمومی هستند، دیدگاه ادبی کلاسیک و متنوعی ارائه میدهند.
- شبکههای اجتماعی: پلتفرمهایی مانند ایکس یا ردیت بینشهایی درباره استفاده از زبان محاورهای و روزمره ارائه میدهند.
- مقالات خبری: مجموعه دادههای خبری، زبان رسمی و معاصر را ارائه میکنند.
برای درک بهتر موضوع اجازه دهید به ذکر مثالی از خروجی یک وباسکریپر از یک سایت خبری در قالب JSON بپردازیم. قطعه کد زیر این موضوع را نشان میدهد.
{
"url": "http://example-news-website.com/article1",
"content": "AIAdvancements
title> The Recent Advancements in AI
The recent
advancements in AI have been rem...",
"date_published": "2021-07-01",
"author": "John Doe"
}
این قطعه JSON، محتوا و متادیتای مرتبط با یک وبسایت خاص را نشان میدهد. در مرحله بعدی پردازش، از محتوای این ساختار JSON استفاده خواهیم کرد.
پردازش متن خام
متن خام در محتوای JSON چند مرحله پردازش را طی میکند:
- پاکسازی: حذف محتوای غیرمرتبط مانند تگهای HTML، تبلیغات یا عناصر ناوبری:
{
"content": "The recent advancements in AI have been
remarkable. With new applications emerging across different
sectors.."
}
- نرمالسازی: استانداردسازی متن، مانند تبدیل به حروف کوچک برای کاهش تنوع:
{
"content": "the recent advancements in artificial intelligence
have been remarkable. With new applications emerging across
different sectors.."
}
- تقسیمبندی جملات: تقسیم متن به جملات جداگانه برای درک بهتر زمینه:
{
"content": ["the recent advancements in artificial
intelligence have been remarkable."], ["With new applications
emerging across different sectors.."]
}
- حذف تکرار: حذف محتوای تکراری برای اطمینان از کیفیت دادهها:
["the recent advancements in artificial intelligence have been
remarkable."], ["With new applications emerging across different
sectors.."]
این مراحل پردازش، متن خام را به چیزی تبدیل میکنند که میتوان آن را توکنسازی کرد. در مقاله بعدی مبحث توکنسازی را بررسی خواهیم کرد.