به نظر می‌رسد که امروزه هوش مصنوعی و بایاس نژادی به طور فزاینده‌ای در هم تنیده شده‌اند به طوری که نمیتوان یک تیزر ساخته شده با مصنوعی را چه از بابت تصاویر چه از بابت گویندگی تیزر از کار انسان تشخیص داد. اگر بایاس در مدل‌های یادگیری ماشینی وارد شود، می‌تواند تاثیر نامطلوبی بر زندگی روزمره ما بگذارد. این بایاس در شکل استثنا کردن (مثل این که درخواست وام گروهی از افراد رد شود یا قادر به استفاده از تکنولوژی نباشند یا تکنولوژی برای همه یکسان نباشد) خود را نشان می‌دهد. با تبدیل هوش مصنوعی به بخشی از زندگی ما، خطرات بایاس افزایش پیدا می‌کند.

در زمینه تشخیص چهره، بایاس نژادی فقط یکی از انواع بایاس است. سایر ویژگی‌های دموگرافیک (جمعیت شناختی) مانند سن، جنسیت، عوامل اقتصادی-اجتماعی و حتی کیفیت دوربین/وسیله می‌تواند توانایی نرم‌افزار را در مقایسه یک چهره نسبت به دیتابیس (پایگاه داده) چهره‌ها تحت تاثیر قرار دهد. در این نوع نظارت‌ها، کیفیت و مقاوم بودن دیتابیس اصلی، مسئله‌ای است که می‌تواند باعث سوگیری مدل‌های هوش مصنوعی شود. نرم‌افزار تشخیص چهره جدید از بیومتریک‌ها (سنجش بیولوژیکی) برای نگاشت ویژگی‌های صورت (از یک عکس یا ویدئو) استفاده می‌کند. سپس این نرم‌افزار اطلاعات را برای پیدا کردن مطابقت با یک دیتابیس از چهره‌های تعریف‌شده مقایسه می‌کند (این روش به عنوان مطابقت ۱:n شناخته می‌شود).

در سال ۲۰۱۸ اتحادیه آزادی‌های مدنی آمریکا (ACLU) نرم‌افزار تشخیص چهره مبتنی بر هوش مصنوعی شرکت آمازون با نام Rekognition را مورد مطالعه قرار داده و متوجه شده است که‌ این نرم افزار اشتباها ۲۸ عضو کنگره‌ایالات متحده را با دیتابیس تصاویر مجرمان تطبیق داده است. بر طبق گفته‌های ACLU، “حدودا ۴۰ درصد از مطابقت‌های نادرست نرم‌افزار Rekognition در تست این اتحادیه، از افراد رنگین‌پوست بوده‌اند، در حالی که‌ این افراد فقط ۲۰ درصد از اعضای کنگره را تشکیل می‌دادند.”

با این حال، تشخیص چهره و احراز هویت چهره تفاوت زیادی با هم دارند. در ایران نیز راهکار احراز هویت دیجیتال بیومتریک چهره در نحوه احراز هویت سجام استفاده شده است که برای دریافت کد بورسی از آن استفاده می شود. راهکارهای احراز هویت دیجیتال در حال حاضر کاربردهای گسترده ای پیدا کرده اند و می توانند در بخش های مختلفی مانند نظام بانکی، بازار سرمایه، نحوه احراز هویت ثنا و دولت الکترونیک به کار گیری شوند.

بیشتر راه‌حل‌های پیشروی احراز هویت از هوش مصنوعی و یادگیری ماشینی به منظور ارزیابی هویت دیجیتالی کاربران راه دور استفاده می‌کنند – و متاسفانه ‌این الگوریتم‌ها نیز در معرض بایاس دموگرافیک هستند که شامل نژاد، سن، جنسیت و سایر مشخصات است. اما این نوع بایاس ارتباطی با دیتابیس اصلی ندارد، زیرا این نوع احراز هویت در دیتابیس تصاویر منتشرشده، جستجوهای نوع ۱:n انجام نمی‌دهد.

این مطلب هم بخوانید:  بهترین فیلم را با این روشها انتخاب کنید

این یک نوع کاملا متفاوت از هوش مصنوعی است که هدف آن حل مشکل بسیار سخت تجارت – اگر شخصی هنگام ایجاد حساب‌های جدید بصورت آنلاین همان فردی باشد که ادعا می‌کند هست – است.

الگوریتم‌های هوش مصنوعی به منظور مقایسه تصویر سلفی مشتری با تصویر موجود در سند هویتی است. بر طبق گفته شرکت گارتنر ” همیشه در این روند شناسایی چهره، افراد از بایاس احتمالی اطلاع داشته‌اند. با این حال، با توجه به مشاهدات ما مشتریان در شش ماه گذشته به ‌این مسئله توجه بسیار بیشتری داشته‌اند. این احتمالا به دلیل افزایش روایت سیاسی و بحث در مورد ابعاد مختلف نابرابری ناشی از جنبشBlack Lives Matter (زندگی سیاه‌پوستان ارزشمند است) بوده است.”

فرض برنامهریزی استراتژیک

تا سال ۲۰۲۲ بیش از ۹۵% RFPها برای اثبات هویت مدرک-محور با توجه به کمینه شدن بایاس دموگرافیک شامل الزامات واضحی خواهد بود که امروزه ‌این عدد فقط ۱۵% است.

راهنمای بازار گارتنر ۲۰۲۰ برای اثبات و تأیید هویت

بایاس می‌تواند به چند طریق در الگوریتم‌ها رخنه کند. سیستم‌های هوش مصنوعی تصمیمات را بر اساس آموزش داده‌ها می‌گیرند که حتی اگر متغیرهای حساس مانند جنسیت، نژاد یا گرایش جنسی حذف شده باشند، می‌تواند شامل تصمیمات انسانی بایاس‌شده بوده یا منعکس‌کننده نابرابری‌های تاریخی یا اجتماعی باشد.

در اینجا پنج سوالی را آورده‌ایم که می‌توانید از ارائه‌دهندگان راه‌حل احتمالی بپرسید که چگونه آن‌ها مشکل بایاس دموگرافیک را حل می‌کنند:

  1. دیتابیس آموزش شما تا چه حدی بزرگ بوده و نماینده انواع بیشتر است؟

داده‌های آموزش هوش مصنوعی اطلاعاتی هستند که برای آموزش یک مدل یادگیری ماشینی استفاده می‌شوند. مدل‌های یادگیری ماشین از دیتاستِ (مجموعه داده‌ها) آموزش برای آموزش تشخیص الگو و اعمال تکنولوژی‌هایی مانند شبکه‌های عصبی استفاده می‌کنند، بنابراین مدل‌ها می‌توانند در ارائه‌های پیش‌رو با داده‌های جدید در کاربردهای واقعی، پیش‌بینی‌های دقیق‌تری داشته باشند. در مورد هوش مصنوعی اندازه اطلاعات امری مهم است. هر چه دیتاست آموزش بزرگ‌تر و نماینده انواع بیش‌تر باشد، توانایی بهتری در مقابله با بایاس دموگرافیک خواهد داشت.

این مطلب هم بخوانید:  کنیک پرده سبز یا گرین اسکرین در دنیای امروز چه جایگاهی دارد؟

برای مثال، دستیاران صوتی محبوب مانند Siri یا Alexa بدبختانه از روی دیتاست‌های مکالمات ضبط‌شده سفیدپوستان متعلق به طبقه متوسط به بالا آموزش داده شده‌اند. این امر درک فرامین افرادی که متعلق به‌ این دسته نیستند را برای این تکنولوژی سخت‌تر می‌کند. همچنین این دستیاران صوتی نسبت به لهجه‌های مختلف نیز حساس هستند که در لهجه‌های غربی نسبت به بقیه لهجه‌ها قدرت تشخیص بالاتری دارند.

این عدم نماینده بودن همان چیزی است که منجر به دیتاست‌های بایاس‌شده و در نهایت الگوریتم‌هایی می‌شود که احتمالا باعث تداوم بایاس‌های سیستمی ‌خواهند شد. به طور مشابه، به مدل تشخیص چهره‌ فکر کنید که از روی دیتاست بزرگی از چهره‌های یک اتنیک (قومیت) واحد آموزش داده شده‌اند. اگر الگوریتمی ‌را برای مدارک شناسایی رومانیایی ایجاد می‌کنید، داشتن ده‌ها هزار مدرک شناسایی رومانیایی در مقابل صدها سند مدرک شناسایی برای ساخت الگوریتم‌هایی که بتوانند تقلب را بهتر تشخیص داده و ناهنجاری‌ها را پیدا کنند، امری کمک‌کننده است.

  • داده‌های آموزش دیتاست‌ها را از کجا بدست آورده‌اید؟

زمانی که شرکت‌ها خود داده‌های کافی برای ایجاد مدل‌های مقاوم را ندارند، برای پر کردن این خلا از منابع داده دیگری استفاده می‌کنند و این دیتاست‌های خریداری‌شده می‌توانند بایاس غیرعمدی ایجاد کنند. برای مثال، دیتاستی از تصاویر اسناد مدارک هویتی که زیر نور کافی و با دوربین‌های کیفیت-بالا گرفته می‌شوند نمایشگر تصاویر مدارک هویتی واقعی نیستند. تعجب‌برانگیز نیست که مدل‌های هوش مصنوعی که بر روی مدل‌های غیرواقعی ساخته شده‌اند، در کار با تصاویر مدارک هویتی که حاوی قسمتی تار یا روشن بوده یا در نور کم گرفته شده‌اند، چالش‌هایی پیش‌رو خواهند داشت. از طرف دیگر الگوریتم‌هایی که با داده‌های واقعی ساخته شده‌اند، شامل اسنادی خواهند بود که نواقصاتی خواهند داشت. در نتیجه، این مدل‌های هوش مصنوعی، مقاوم‌تر بوده و حساسیت کمتری نسبت به بایاس دموگرافیک دارند.

  • دیتاست‌ها چگونه برچسب زده شده‌اند؟

در بیشتر پروژه‌های هوش مصنوعی، دسته‌بندی و برچسب زدن (بخصوص اگر با دقت کافی و تک تک برای پاسخگویی به انتظارات بازار انجام شده باشد) زمان زیادی می‌طلبد. در زمینه احراز هویت، برچسب زدن در حقیقت نحوه تگ‌زنی اسناد مدارک هویتی است. اگر تصویر مدرک هویتی دستکاری شده باشد، سند به صورت “جعل از نوع دستکاری تصویر” تگ زده خواهد شد. اگر تصویر مدرک هویتی روشنایی یا تاری اضافی داشته یا در روشنایی ضعیف گرفته شده باشد، برچسب‌ها باید آن مشخصات را منعکس کنند. اگر هنگام تگ‌زنیِ تراکنش‌های احراز هویت فردی، برچسب‌های اشتباه استفاده شوند، مدل‌های هوش مصنوعی آن اطلاعات را در الگوریتم وارد خواهند کرد که ‌این امر باعث خواهد شد تا مدل‌ها دقت کمتری داشته و بیشتر مستعد بایاس باشند.

این مطلب هم بخوانید:  نکات کلیدی و فنی در انتخاب سیستم صوتی!

برخی از افراد ارائه‌کننده راه‌حل، با استفاده از راه‌حل‌هایی مانند Mechanical Turk آمازون، مسئله تگ‌زنی را برون‌سپاری کرده یا به بر عهده افراد عادی می‌گذارند. سایر راه‌حل‌های تگ‌زنی، تصاویر را به افراد باتجربه خود می‌سپارند که نحوه تگ‌زنی تراکنش‌های احراز هویت را آموزش دیده‌اند تا منحنی آموزش مدل‌های هوش مصنوعی را بهینه کنند. طبیعتا، مدل‌هایی که به افراد خودی سپرده می‌شوند معمولا منجر به تولید مدل‌های دقیق‌تری می‌شوند.

  • چه نوع کنترلی کیفی برای کنترل فرایند تگ‌زنی استفاده می‌کنید؟

بدبختانه بیشتر این بایاس ناخودآگاه است، زیرا بسیاری از ارائه‌دهندگان راه‌حل لزوما نمی‌دانند چه زمانی الگوریتم را ایجاد خواهند که نتایج غیرصحیح ایجاد خواهد کرد. بدین دلیل است که باید کنترل کیفی را در پروژه انجام داد. در فضای احراز هویت ، جایگزینی برای کارمندان متخصص تگ‌زنی (افرادی که می‌دانند چگونه به طور دقیق تراکنش‌های مدرک هویت فردی را تگ زده و فرایندها را به منظور چک کردن کارشان بررسی کنند) وجود ندارد.

  • تیم توسعهدهنده الگوریتم تا چه حدی متنوع است؟

کاهش بایاس همچنین به افرادی که الگوریتم‌های هوش مصنوعی را توسعه داده و دیتاست‌ها را تگ‌زنی می‌کنند، بستگی دارد. سوال پرسیدن در مورد ترکیب هوش مصنوعی غیرمنصفانه نیست. به طور ایده‌آل، مهندسان هوش مصنوعی و دانشمندان علوم داده از ملیت‌ها، جنسیت‌ها، اتنیک‌ها، تجارب تخصصی و پس‌زمینه‌های (رشته‌های) دانشگاهی متنوعی هستند. این تنوع کمک می‌کند تا اطمینان حاصل کنیم که نقطه نظرات متنوع در مدل‌های در حال ساخت وارد شده‌اند که می‌تواند تا حدی بایاس دموگرافیک را کاهش دهد.

این نگرانی فزاینده وجود دارد که بایاس دموگرافیک در مدل‌های هوش مصنوعی یک فروشنده می‌تواند روی برند شرکت تاثیر منفی بگذارد و خصوصا زمانی که تصمیمات اقتصادی به دقت و قابلیت اطمینان آن الگوریتم‌ها متکی باشند، مشکلات حقوقی احتمالی ایجاد کند. باور کنید یا نه، این الگوریتم‌ها می‌توانند منجر به رد یا طرد شدن غیرعادلانه برخی از مشتریان شوند که به معنای از دست دادن تجارت و فرصت‌های پایین‌دستی است. بدین دلیل است که درک نحوه ‌اندازه‌گیری بایاس دموگرافیک و مقیاس‌های اشاره به ‌این بایاس توسط فروشندگان، اهمیت فزاینده‌ای پیدا می‌کند.