به نظر میرسد که امروزه هوش مصنوعی و بایاس نژادی به طور فزایندهای در هم تنیده شدهاند به طوری که نمیتوان یک تیزر ساخته شده با مصنوعی را چه از بابت تصاویر چه از بابت گویندگی تیزر از کار انسان تشخیص داد. اگر بایاس در مدلهای یادگیری ماشینی وارد شود، میتواند تاثیر نامطلوبی بر زندگی روزمره ما بگذارد. این بایاس در شکل استثنا کردن (مثل این که درخواست وام گروهی از افراد رد شود یا قادر به استفاده از تکنولوژی نباشند یا تکنولوژی برای همه یکسان نباشد) خود را نشان میدهد. با تبدیل هوش مصنوعی به بخشی از زندگی ما، خطرات بایاس افزایش پیدا میکند.
در زمینه تشخیص چهره، بایاس نژادی فقط یکی از انواع بایاس است. سایر ویژگیهای دموگرافیک (جمعیت شناختی) مانند سن، جنسیت، عوامل اقتصادی-اجتماعی و حتی کیفیت دوربین/وسیله میتواند توانایی نرمافزار را در مقایسه یک چهره نسبت به دیتابیس (پایگاه داده) چهرهها تحت تاثیر قرار دهد. در این نوع نظارتها، کیفیت و مقاوم بودن دیتابیس اصلی، مسئلهای است که میتواند باعث سوگیری مدلهای هوش مصنوعی شود. نرمافزار تشخیص چهره جدید از بیومتریکها (سنجش بیولوژیکی) برای نگاشت ویژگیهای صورت (از یک عکس یا ویدئو) استفاده میکند. سپس این نرمافزار اطلاعات را برای پیدا کردن مطابقت با یک دیتابیس از چهرههای تعریفشده مقایسه میکند (این روش به عنوان مطابقت ۱:n شناخته میشود).
در سال ۲۰۱۸ اتحادیه آزادیهای مدنی آمریکا (ACLU) نرمافزار تشخیص چهره مبتنی بر هوش مصنوعی شرکت آمازون با نام Rekognition را مورد مطالعه قرار داده و متوجه شده است که این نرم افزار اشتباها ۲۸ عضو کنگرهایالات متحده را با دیتابیس تصاویر مجرمان تطبیق داده است. بر طبق گفتههای ACLU، “حدودا ۴۰ درصد از مطابقتهای نادرست نرمافزار Rekognition در تست این اتحادیه، از افراد رنگینپوست بودهاند، در حالی که این افراد فقط ۲۰ درصد از اعضای کنگره را تشکیل میدادند.”
با این حال، تشخیص چهره و احراز هویت چهره تفاوت زیادی با هم دارند. در ایران نیز راهکار احراز هویت دیجیتال بیومتریک چهره در نحوه احراز هویت سجام استفاده شده است که برای دریافت کد بورسی از آن استفاده می شود. راهکارهای احراز هویت دیجیتال در حال حاضر کاربردهای گسترده ای پیدا کرده اند و می توانند در بخش های مختلفی مانند نظام بانکی، بازار سرمایه، نحوه احراز هویت ثنا و دولت الکترونیک به کار گیری شوند.
بیشتر راهحلهای پیشروی احراز هویت از هوش مصنوعی و یادگیری ماشینی به منظور ارزیابی هویت دیجیتالی کاربران راه دور استفاده میکنند – و متاسفانه این الگوریتمها نیز در معرض بایاس دموگرافیک هستند که شامل نژاد، سن، جنسیت و سایر مشخصات است. اما این نوع بایاس ارتباطی با دیتابیس اصلی ندارد، زیرا این نوع احراز هویت در دیتابیس تصاویر منتشرشده، جستجوهای نوع ۱:n انجام نمیدهد.
این یک نوع کاملا متفاوت از هوش مصنوعی است که هدف آن حل مشکل بسیار سخت تجارت – اگر شخصی هنگام ایجاد حسابهای جدید بصورت آنلاین همان فردی باشد که ادعا میکند هست – است.
الگوریتمهای هوش مصنوعی به منظور مقایسه تصویر سلفی مشتری با تصویر موجود در سند هویتی است. بر طبق گفته شرکت گارتنر ” همیشه در این روند شناسایی چهره، افراد از بایاس احتمالی اطلاع داشتهاند. با این حال، با توجه به مشاهدات ما مشتریان در شش ماه گذشته به این مسئله توجه بسیار بیشتری داشتهاند. این احتمالا به دلیل افزایش روایت سیاسی و بحث در مورد ابعاد مختلف نابرابری ناشی از جنبشBlack Lives Matter (زندگی سیاهپوستان ارزشمند است) بوده است.”
فرض برنامهریزی استراتژیک
تا سال ۲۰۲۲ بیش از ۹۵% RFPها برای اثبات هویت مدرک-محور با توجه به کمینه شدن بایاس دموگرافیک شامل الزامات واضحی خواهد بود که امروزه این عدد فقط ۱۵% است.
راهنمای بازار گارتنر ۲۰۲۰ برای اثبات و تأیید هویت
بایاس میتواند به چند طریق در الگوریتمها رخنه کند. سیستمهای هوش مصنوعی تصمیمات را بر اساس آموزش دادهها میگیرند که حتی اگر متغیرهای حساس مانند جنسیت، نژاد یا گرایش جنسی حذف شده باشند، میتواند شامل تصمیمات انسانی بایاسشده بوده یا منعکسکننده نابرابریهای تاریخی یا اجتماعی باشد.
در اینجا پنج سوالی را آوردهایم که میتوانید از ارائهدهندگان راهحل احتمالی بپرسید که چگونه آنها مشکل بایاس دموگرافیک را حل میکنند:
- دیتابیس آموزش شما تا چه حدی بزرگ بوده و نماینده انواع بیشتر است؟
دادههای آموزش هوش مصنوعی اطلاعاتی هستند که برای آموزش یک مدل یادگیری ماشینی استفاده میشوند. مدلهای یادگیری ماشین از دیتاستِ (مجموعه دادهها) آموزش برای آموزش تشخیص الگو و اعمال تکنولوژیهایی مانند شبکههای عصبی استفاده میکنند، بنابراین مدلها میتوانند در ارائههای پیشرو با دادههای جدید در کاربردهای واقعی، پیشبینیهای دقیقتری داشته باشند. در مورد هوش مصنوعی اندازه اطلاعات امری مهم است. هر چه دیتاست آموزش بزرگتر و نماینده انواع بیشتر باشد، توانایی بهتری در مقابله با بایاس دموگرافیک خواهد داشت.
برای مثال، دستیاران صوتی محبوب مانند Siri یا Alexa بدبختانه از روی دیتاستهای مکالمات ضبطشده سفیدپوستان متعلق به طبقه متوسط به بالا آموزش داده شدهاند. این امر درک فرامین افرادی که متعلق به این دسته نیستند را برای این تکنولوژی سختتر میکند. همچنین این دستیاران صوتی نسبت به لهجههای مختلف نیز حساس هستند که در لهجههای غربی نسبت به بقیه لهجهها قدرت تشخیص بالاتری دارند.
این عدم نماینده بودن همان چیزی است که منجر به دیتاستهای بایاسشده و در نهایت الگوریتمهایی میشود که احتمالا باعث تداوم بایاسهای سیستمی خواهند شد. به طور مشابه، به مدل تشخیص چهره فکر کنید که از روی دیتاست بزرگی از چهرههای یک اتنیک (قومیت) واحد آموزش داده شدهاند. اگر الگوریتمی را برای مدارک شناسایی رومانیایی ایجاد میکنید، داشتن دهها هزار مدرک شناسایی رومانیایی در مقابل صدها سند مدرک شناسایی برای ساخت الگوریتمهایی که بتوانند تقلب را بهتر تشخیص داده و ناهنجاریها را پیدا کنند، امری کمککننده است.
- دادههای آموزش دیتاستها را از کجا بدست آوردهاید؟
زمانی که شرکتها خود دادههای کافی برای ایجاد مدلهای مقاوم را ندارند، برای پر کردن این خلا از منابع داده دیگری استفاده میکنند و این دیتاستهای خریداریشده میتوانند بایاس غیرعمدی ایجاد کنند. برای مثال، دیتاستی از تصاویر اسناد مدارک هویتی که زیر نور کافی و با دوربینهای کیفیت-بالا گرفته میشوند نمایشگر تصاویر مدارک هویتی واقعی نیستند. تعجببرانگیز نیست که مدلهای هوش مصنوعی که بر روی مدلهای غیرواقعی ساخته شدهاند، در کار با تصاویر مدارک هویتی که حاوی قسمتی تار یا روشن بوده یا در نور کم گرفته شدهاند، چالشهایی پیشرو خواهند داشت. از طرف دیگر الگوریتمهایی که با دادههای واقعی ساخته شدهاند، شامل اسنادی خواهند بود که نواقصاتی خواهند داشت. در نتیجه، این مدلهای هوش مصنوعی، مقاومتر بوده و حساسیت کمتری نسبت به بایاس دموگرافیک دارند.
- دیتاستها چگونه برچسب زده شدهاند؟
در بیشتر پروژههای هوش مصنوعی، دستهبندی و برچسب زدن (بخصوص اگر با دقت کافی و تک تک برای پاسخگویی به انتظارات بازار انجام شده باشد) زمان زیادی میطلبد. در زمینه احراز هویت، برچسب زدن در حقیقت نحوه تگزنی اسناد مدارک هویتی است. اگر تصویر مدرک هویتی دستکاری شده باشد، سند به صورت “جعل از نوع دستکاری تصویر” تگ زده خواهد شد. اگر تصویر مدرک هویتی روشنایی یا تاری اضافی داشته یا در روشنایی ضعیف گرفته شده باشد، برچسبها باید آن مشخصات را منعکس کنند. اگر هنگام تگزنیِ تراکنشهای احراز هویت فردی، برچسبهای اشتباه استفاده شوند، مدلهای هوش مصنوعی آن اطلاعات را در الگوریتم وارد خواهند کرد که این امر باعث خواهد شد تا مدلها دقت کمتری داشته و بیشتر مستعد بایاس باشند.
برخی از افراد ارائهکننده راهحل، با استفاده از راهحلهایی مانند Mechanical Turk آمازون، مسئله تگزنی را برونسپاری کرده یا به بر عهده افراد عادی میگذارند. سایر راهحلهای تگزنی، تصاویر را به افراد باتجربه خود میسپارند که نحوه تگزنی تراکنشهای احراز هویت را آموزش دیدهاند تا منحنی آموزش مدلهای هوش مصنوعی را بهینه کنند. طبیعتا، مدلهایی که به افراد خودی سپرده میشوند معمولا منجر به تولید مدلهای دقیقتری میشوند.
- چه نوع کنترلی کیفی برای کنترل فرایند تگزنی استفاده میکنید؟
بدبختانه بیشتر این بایاس ناخودآگاه است، زیرا بسیاری از ارائهدهندگان راهحل لزوما نمیدانند چه زمانی الگوریتم را ایجاد خواهند که نتایج غیرصحیح ایجاد خواهد کرد. بدین دلیل است که باید کنترل کیفی را در پروژه انجام داد. در فضای احراز هویت ، جایگزینی برای کارمندان متخصص تگزنی (افرادی که میدانند چگونه به طور دقیق تراکنشهای مدرک هویت فردی را تگ زده و فرایندها را به منظور چک کردن کارشان بررسی کنند) وجود ندارد.
- تیم توسعهدهنده الگوریتم تا چه حدی متنوع است؟
کاهش بایاس همچنین به افرادی که الگوریتمهای هوش مصنوعی را توسعه داده و دیتاستها را تگزنی میکنند، بستگی دارد. سوال پرسیدن در مورد ترکیب هوش مصنوعی غیرمنصفانه نیست. به طور ایدهآل، مهندسان هوش مصنوعی و دانشمندان علوم داده از ملیتها، جنسیتها، اتنیکها، تجارب تخصصی و پسزمینههای (رشتههای) دانشگاهی متنوعی هستند. این تنوع کمک میکند تا اطمینان حاصل کنیم که نقطه نظرات متنوع در مدلهای در حال ساخت وارد شدهاند که میتواند تا حدی بایاس دموگرافیک را کاهش دهد.
این نگرانی فزاینده وجود دارد که بایاس دموگرافیک در مدلهای هوش مصنوعی یک فروشنده میتواند روی برند شرکت تاثیر منفی بگذارد و خصوصا زمانی که تصمیمات اقتصادی به دقت و قابلیت اطمینان آن الگوریتمها متکی باشند، مشکلات حقوقی احتمالی ایجاد کند. باور کنید یا نه، این الگوریتمها میتوانند منجر به رد یا طرد شدن غیرعادلانه برخی از مشتریان شوند که به معنای از دست دادن تجارت و فرصتهای پاییندستی است. بدین دلیل است که درک نحوه اندازهگیری بایاس دموگرافیک و مقیاسهای اشاره به این بایاس توسط فروشندگان، اهمیت فزایندهای پیدا میکند.
با ثبت نظر خود درباره ۵ روش عملی برای کاهش بایاس (تعصب) هوش مصنوعی در احراز هویت آنلاین به راهنمایی دیگران بالا بردن کیفیت مطالب کمک کنید.