شرکتهایی که به ارائه ابزارهای هوش مصنوعی مولد (GenAI) علاقهمند هستند، میتوانند بهراحتی این فناوری را آزمایش کنند، زیرا مدلهای قدرتمند زبان بزرگ مانند GPT-3 و GPT-4 از OpenAI، LLaMA از Meta، و PaLM2 از گوگل این امکان را فراهم کردهاند. با این حال، موفقیت اولیه در مرحله اثبات مفهوم GenAI ممکن است این تصور اشتباه را ایجاد کند که اجرای آن در مقیاس سازمانی آسان است. در واقع، مدیران به زودی متوجه میشوند که توسعه محصولات مبتنی بر GenAI در مقیاس بزرگ، با چالشها و عدم قطعیتهای بیشتری نسبت به بسیاری از فناوریهای دیگر همراه است.
یکی از جنبههای مهم برای درک کامل پتانسیل GenAI، تجربه کاربری (UX) است. در این مقاله، با ارائه چارچوب طراحی UX و روشهای آزمایش، به بررسی چالشها و بهینهسازی تجربه کاربری میپردازیم.
طراحی تجربه کاربری
وقتی فناوری قدرتمندی مثل GenAI ظهور میکند، رهبران باید راههای مختلف تعامل مردم با آن را در نظر بگیرند. این موضوع بهویژه در مورد ابزارهایی که بهصورت یک «عامل» GenAI عمل میکنند اهمیت بیشتری دارد. این عامل میتواند با قابلیتهای خلاقانه و فعال خود، در پسزمینه از طرف کاربران کارهایی مانند جستجوی اطلاعات، مشارکت در بحثها، یا انجام مصاحبههای تخصصی را انجام دهد. با این دیدگاه، ما یک چارچوب طراحی UX تهیه کردهایم تا به سازمانها کمک کنیم این ابزارها را بهخوبی در جریانهای کاری جدید و فعلی خود ادغام کنند. این چارچوب میتواند به طراحان محصول کمک کند تا درباره روشهای تعامل کاربران با این سیستمها بهتر فکر و برنامهریزی کنند.
چارچوب UX ما بر چهار نوع تعامل متفاوت که افراد ممکن است با این فناوریها داشته باشند، تمرکز دارد. این چهار نوع تعامل شامل تجزیه و تحلیل، تعریف، پالایش و عمل هستند.
تجزیه و تحلیل محتوا
بخش عمدهای از پتانسیل هوش مصنوعی در توانایی آن برای حذف کارهای تکراری و ساده از فرآیندهای کاری است. عوامل GenAI “همیشه فعال” میتوانند بهطور خودکار با فعالیتهای انسانی همزمان شده و در زمان واقعی به تقویت کارها کمک کنند. برای مثال، یک دستیار میتواند به جلسات تیم گوش دهد و زمانی که شکاف اطلاعاتی وجود دارد، آن را شناسایی کرده یا بهترین اقدامات بعدی را پیشبینی و پیشنهاد دهد. این نوع عوامل در ابزارهایی مانند Microsoft Teams و Zoom برای رونویسی و خلاصهسازی استفاده میشوند و بهسرعت در حال گسترش به کارهای خاصی مانند مراکز تماس خدمات مشتری هستند.
در این نوع تعامل، ملاحظات UX باید بر کنترل اینکه هوش مصنوعی به چه چیزی توجه میکند (مانند ضبط، تجزیه و تحلیل و غیره) و شفافسازی برای کاربران درباره کارهایی که انجام میدهد، تمرکز داشته باشد. طراحی مکان، زمان و نحوه استفاده از GenAI در حالت همیشه روشن باید با مشورت مستقیم با کاربران و از طریق فرآیند آموزش مداوم و ایجاد اعتماد انجام شود.
تعریف قصد
برخلاف رابطهای کاربری سنتی که اغلب با کلیک کردن کار میکنند، تعامل با ابزارهای GenAI معمولاً شامل ورودیهای زبان طبیعی بدون ساختار، ورودیهای کلامی یا حتی ورودیهای چندوجهی (مثل ترکیب صدا و تصویر) است. اینها روشهای جدیدی برای تعامل با ماشینها هستند. در حالی که بیان خواستهها با کلمات ممکن است ساده به نظر برسد، اکثر کاربران تجربه زیادی در استفاده سریع از این ابزارها ندارند. بدون اینکه کاربران متوجه شوند، مدل میتواند با تغییرات جزئی در کلمات یا بهروزرسانیهای مدل، پاسخهای متفاوت یا حتی متناقضی تولید کند. همچنین، ورودیهای متنی ممکن است سریعترین یا دقیقترین روشهای تعامل نباشند.
چون برخی از کاربران ممکن است درک کاملی از قابلیتهای ابزارهای GenAI یا کارهایی که بهطور ایدهآل باید انجام دهند نداشته باشند، باید منحنی یادگیری برای هر دو، یعنی کاربر و ابزار، بهطور کامل در نظر گرفته شود. تجربه ورود به این ابزار چگونه است؟ چگونه کاربران میتوانند به تدریج اعتماد، سرعت، و کیفیت نتایج را بهبود دهند؟ و چگونه ابزارهای GenAI میتوانند از نیازها، علایق و رفتارهای کاربران بیاموزند تا تجربه بهتری ارائه دهند؟ به عنوان مثال، افزودن کنترلهای آشنا به رابطهای چت، مانند دکمهها یا فیلترها، میتواند به کاهش اشتباهات کمک کند و به کاربران این امکان را بدهد که GenAI را به سمت نتایج موفقتر هدایت کنند.
پالایش خروجی ها
حتی زمانی که هدف کاربر بهطور واضح مشخص باشد، ابزارهای GenAI معمولاً نتایج درست را در اولین تلاش ارائه نمیدهند. فرآیند تکرار برای رسیدن به پاسخ یا خروجی صحیح، بخش مهمی از تعامل کاربر با هوش مصنوعی است. این تعامل زمانی پیچیدهتر میشود که هوش مصنوعی با نرمافزارهای موجود در سازمان ترکیب شود و چندین کاربر بهطور همزمان درگیر شوند.
یکی دیگر از دلایل پیچیدگی این است که خروجیهای GenAI معمولاً از بخشهای مختلف تشکیل شدهاند. به عنوان مثال، یک برنامه سفر، داشبورد تجزیه و تحلیل، یا ویدیوی بازاریابی هرکدام شامل انواع مختلفی از رسانهها هستند که به شیوههای خاصی ترکیب شدهاند. اگرچه این خروجیها میتوانند در قالب یک مکالمه متنی نمایش داده شوند، اصلاح آنها تنها از طریق مکالمه ممکن است دشوار باشد. در حالت ایدهآل، کاربر باید بتواند بخشی از خروجی را انتخاب کرده و آن را بهطور جداگانه اصلاح کند. در برخی مواقع، استفاده از عناصر موجود در UX برای اصلاح تصویر میتواند بسیار مفید باشد، بهویژه برای کارهای ساده و قابل تکرار. در مواقع دیگر، زبان طبیعی امکان انجام کارهای پیچیده و سفارشی را فراهم میآورد، مانند تغییر مجدد یک تصویر به سبک هنرمند مورد علاقه کاربر.
بازیگری و پیگیری
از آنجا که مدلهای عامل GenAI فقط اطلاعات نمیدهند بلکه اقداماتی هم انجام میدهند، امکانات و پیچیدگیهای جدیدی به وجود میآید. عوامل GenAI که با دیگر عوامل GenAI و APIها ارتباط برقرار میکنند، باید اهداف خود را بهطور بصری به کاربران انسانی نشان دهند، اما این تعاملات باید با دقت طراحی شوند.
به عنوان مثال، تصور کنید که در طول یک جلسه زنده، یک عامل هوش مصنوعی نیاز به دادههای خاصی را شناسایی میکند، سپس بهطور فعال تحقیق کرده و آنها را قبل از پایان جلسه به تیم تحویل میدهد. این ممکن است به نظر برسد که یک راه عالی برای کمک به تیم در تکمیل کارها بهطور کارآمدتر است. اما چه زمانی مردم واقعاً راحت به هوش مصنوعی اجازه میدهند که این مراحل را انجام دهد؟ چگونه میتوان از پیشنهادات مداوم آن جلوگیری کرد و در عین حال از تمام تواناییهایی که میتواند برای گروه فراهم کند، بهره برد؟ چگونه این سوالات بسته به اینکه تیم یا اعضای آن چگونه با هوش مصنوعی تعامل دارند، تغییر میکند؟ آیا زمانی که تیم هوش مصنوعی را آموزش میدهد، اعتماد به نفس آنها در طول زمان افزایش مییابد و به مداخله کمتری نیاز خواهد بود، که باعث میشود هوش مصنوعی بهطور فعالتر در پسزمینه عمل کند؟
در ابتدا، انتظار میرود که تیمها از عوامل GenAI بخواهند ورودی اولیهای ارائه دهند که انسانها قبل از استفاده آن را اصلاح و تأیید کنند. اما با گذشت زمان و افزایش موفقیت این عوامل، احتمال دارد که فعالیتهای پسزمینه بهطور فزایندهای بدون نیاز به دخالت انسان انجام شود.
پیاده سازی روش آزمون
اگرچه طراحی یک گردش کار مناسب ممکن است، طبیعت غیرقابل پیشبینی GenAI باعث میشود که برخی سازمانها در ارائه ابزارهای GenAI در سطح سازمانی تردید کنند. همانطور که گفته شد، ابزارهای GenAI میتوانند پاسخهایی ارائه دهند که بسته به کاربر و حتی نوع تعامل متفاوت باشد. علاوه بر این، با دسترسی این ابزارها به مجموعه دادههای بزرگتر که خارج از کنترل سازمان است، این تنوع افزایش مییابد. این موضوع خطر اطلاعات نادرست و پاسخهای نادرست را بیشتر میکند.
برای اطمینان از اینکه یک استفاده خاص از GenAI مؤثر است و همینطور باقی میماند، نظارت و آزمایش مداوم خروجیها با استفاده از یک متدولوژی قوی بسیار مهم است. متدولوژی جدید نظارت و آزمایش BCG شامل پنج فعالیت کلیدی است که بهطور خاص برای ابزارهای GenAI طراحی شدهاند. با پیشرفت سریع فناوری، این روشها همچنان در حال بهروزرسانی هستند و شرکتها ممکن است بخواهند بعضی از این مراحل را با توجه به نیازهای خود تغییر دهند. با این حال، عناصری مانند این برای جلوگیری از خطرات و بهبود کارایی ابزار بسیار توصیه میشوند.
1. شناسایی مراحل اولیه
ما پیشنهاد میکنیم که آزمایش محصول GenAI ابتدا با یک تیم کوچک در یک محیط داخلی کنترلشده شروع شود، قبل از اینکه برای مخاطبان وسیعتر منتشر شود. در این مرحله اولیه، هدف این است که پاسخهای ابزار GenAI و دادههایی که برای آموزش مدل استفاده میشود، تأیید شوند. این فرآیند شامل شناسایی سؤالات یا وظایف مهمی است که ابزار باید بدون ایجاد پاسخهای متناقض به آنها پاسخ دهد، مانند فهرست کردن اندازهها و رنگهای موجود برای یک محصول خاص. با تعریف دقیق این سؤالات «باید پاسخ داده شده»، شرکت میتواند سطح دقت مورد نیاز ابزار GenAI را قبل از ارائه آن به کاربران تعیین کند.
2. معیارهای پذیرش
برای زمان اعتبارسنجی محصول، وقتی یک کارگروه داخلی انتخاب شد و مجموعهای از سوالات “باید پاسخ داد” تعیین شد، باید پاسخها با استفاده از سه معیار سنجیده شوند که به هرکدام نمرهای از 1 تا 5 داده میشود:
- ارتباط: آیا پاسخها مربوط به حوزه تخصص محصول یا برند هستند؟
- دقت: آیا پاسخها صحیح و بدون اطلاعات نادرست هستند؟
- همسویی برند: آیا پاسخها با سبک، لحن و ارزشهای برند همخوانی دارند؟
امتیازدهی بر اساس این معیارها اطلاعات مفیدی در مورد بهبودهای مورد نیاز برای پاسخدهی بهتر به هر سوال «باید پاسخ داده شود» فراهم میکند و احتمال دریافت پاسخهای بیمعنی یا نادرست را کاهش میدهد. زمانی که ابزار به امتیاز رضایتبخش (که توسط هر شرکت تعیین میشود) برای هر کار یا سوال برسد، میتواند وارد مرحله پایلوت گستردهتری شود.
در طول مرحله آزمایشی، ممکن است سوالات و وظایف «باید پاسخ داده شود» بر اساس بازخورد کاربران در مرحله اولیه گسترش یابند تا قابلیتهای جدید را پوشش دهند. هر سوال و وظیفه در این مرحله نیز با استفاده از سه معیار ارتباط، دقت و همسویی برند، در مقیاس 1 تا 5 امتیازدهی میشود.
3. تست محصول
علاوه بر معیارهای پذیرش، ارزیابی قابلیت استفاده از محصول اهمیت زیادی دارد. به غیر از معیارهای معمول قابلیت استفاده، اعتماد و درک از ابزار نیز باید در مورد GenAI در نظر گرفته شوند.
- قابلیت استفاده – آیا استفاده از محصول بدون نیاز به راهنمایی متخصص آسان بود؟
- اعتماد – آیا به اطلاعاتی که به شما داده شد، اعتماد داشتید؟
- قابلیت – آیا متوجه شدید که با این ابزار چه کاری میتوانید انجام دهید؟
ما پیشنهاد میکنیم که معیارهای آزمایش محصول در مراحل پایانی دوره جوجهکشی یا مراحل اولیه آزمایش معرفی شوند، زمانی که احتمال دریافت پاسخهای با کیفیت بالا بیشتر است. وقتی محصول در هر دو معیار پذیرش و تست محصول امتیاز کافی کسب کرد، شرکت میتواند آن را از مرحله آزمایشی به آزمایش در مقیاس بزرگ منتقل کند.
4. تجزیه و تحلیل زنده
برای ارزیابی دقیق تأثیر یک محصول GenAI در مقیاس بزرگ، باید تجزیه و تحلیل بلادرنگ در آن گنجانده شود. یک مثال ساده این است که در ChatGPT پس از هر پاسخ، کاربران میتوانند نظر خود را با شست بالا/پایین اعلام کنند. اگر محصول GenAI از کاربران بپرسد که آیا دستورالعملها به حل مشکل کمک کردهاند، این به آن کمک میکند که به نسخهای قویتر تبدیل شود. این تجزیه و تحلیلها دادههای غنی و متنوعی از نظر کمی و کیفی در مورد نحوه استفاده از محصول جمعآوری میکنند، که به طور معمول برای تیمهای تحقیقاتی انسانی بهتنهایی قابل دستیابی نیست. این روند به اطمینان از حفظ کیفیت پاسخها و قابلیت استفاده کمک میکند، در حالی که محصول با معیارهای تعیینشده در مرحله دوم مطابقت دارد.
5. نظارت بر هوش مصنوعی
در مرحله نهایی روش آزمایش، نظارت مداوم و بهبود پاسخها برای کاهش ریسک در مقیاس سازمانی ضروری است. برای این کار، شرکتها میتوانند از سایر ابزارهای GenAI که به عنوان کاربران مصنوعی عمل میکنند، استفاده کنند و پاسخهای محصول را با معیارهای پذیرش و آزمایش محصول ارزیابی کنند. این نظارت به سازمانها کمک میکند تا بررسی کنند که آیا نیاز به تغییراتی در دادههای آموزش مدل است یا خیر، و در نتیجه، یک لایه کنترل کیفیت اضافی به فرایند اضافه میشود. همچنین، شرکتها میتوانند حساسیت مدلهای اعتبارسنجی را تنظیم کنند تا حدود و مرزهایی برای پاسخهای قابل قبول و غیرقابل قبول تعیین کنند. سپس این اطلاعات به محصول بازگشت داده میشود تا پاسخهای بعدی اصلاح شده و روند بهبود مستمر ادامه یابد.
تسلط بر تجربه کاربری
انتقال از یک آزمایش مفهومی GenAI به پیادهسازی در مقیاس کامل کار سادهای نیست. این فرآیند نیازمند آن است که شرکت به مجموعهای از فرآیندهای کلیدی توجه کند، از جمله درک مفاهیم برای افراد و فرآیندهای سازمانی، و تغییرات همراه با آنها را مدیریت کند. چارچوب ما برای طراحی تجربه کاربری و روششناسی آزمایش محصولات GenAI میتواند به مدیران کمک کند تا این پیچیدگیها را به دقت پیگیری کرده و تجربهای منحصر به فرد برای مشتریان و کارکنان ایجاد کنند.
دیدگاهتان را بنویسید