یک مطالعه جدید در متا تقویت الگوریتم های یادگیری ما کمک می کند تا درک کنند که چگونه مغز انسان می آموزد برای انطباق با پیچیدگی و عدم قطعیت در هنگام یادگیری و تصمیم گیری است. یک تیم تحقیقاتی به رهبری پروفسور سنگ Wan Lee در KAIST به طور مشترک با جان O’Doherty در Caltech موفق به کشف دو محاسباتی عصبی و مکانیسم انسانی متا, تقویت, آموزش باز کردن امکان انتقال عناصر کلیدی از هوش انسان به هوش مصنوعی الگوریتم. این مطالعه فراهم می کند یک نگاه اجمالی به چگونه آن را ممکن است در نهایت با استفاده از مدل های محاسباتی به مهندسی معکوس انسان تقویت یادگیری است.

این کار منتشر شد و در 16 دسامبر 2019 در مجله Nature Communications. عنوان مقاله “وظیفه پیچیدگی تعامل با دولت-فضای عدم اطمینان در داوری بین مبتنی بر مدل و مدل-رایگان یادگیری است.”

انسان تقویت یادگیری است ذاتا پیچیده و پویا فرایند شامل تعیین هدف استراتژی, انتخاب, اقدام, انتخاب, استراتژی اصلاح شناختی تخصیص منابع و غیره. این یک بازی بسیار چالش برانگیز و مشکل انسان را حل کند با توجه به سرعت در حال تغییر و multifaced محیط زیست است که در آن انسان به کار گیرند. به مسائل بدتر انسان اغلب نیاز به اغلب به سرعت در تصمیم گیری های مهم را حتی قبل از گرفتن این فرصت را به جمع آوری مقدار زیادی از اطلاعات بر خلاف مورد زمانی که با استفاده از روش های یادگیری به مدل یادگیری و تصمیم گیری در هوش مصنوعی برنامه های کاربردی.

به منظور حل این مشکل این تیم تحقیقاتی با استفاده از یک تکنیک به نام “تقویت یادگیری تئوری مبتنی بر آزمایش طراحی’ به بهینه سازی این سه متغیر از دو مرحله پردازش های تصمیم گیری مارکوف وظیفه — هدف وظیفه پیچیدگی و وظیفه عدم قطعیت است. این طراحی آزمايش به روش مجاز این تیم نه تنها به کنترل عوامل مخدوش کننده اما همچنین برای ایجاد یک وضعیت شبیه به آن رخ می دهد که در انسان واقعی حل مشکل است.

در مرحله دوم این تیم با استفاده از یک تکنیک به نام ” مدل مبتنی بر تصویربرداری و تحلیل.’ بر اساس رفتار به دست آورد و fMRI اطلاعات بیش از 100 نوع مختلف از متا تقویت الگوریتم های یادگیری بودند برابر یکدیگر بازمی گردد برای پیدا کردن یک مدل محاسباتی است که می تواند توضیح دهد که هر دو رفتاری و عصبی داده است. ثالثا به خاطر دقیق تر تأیید این تیم اعمال یک روش تحلیلی به نام “پارامتر بهبود تجزیه و تحلیل’ که شامل دقت بالا رفتاری پروفایل هر دو افراد بشر و مدل های محاسباتی.

در این راه این تیم قادر به شناسایی دقیق یک مدل محاسباتی از متا تقویت یادگیری اطمینان حاصل کرد که نه تنها این مدل را آشکار رفتار شبیه به انسان اما همچنین که مدل حل مشکل را در همان راه به عنوان انسان انجام دهد.

این تیم نشان داد که مردم تمایل به افزایش برنامه ریزی مبتنی بر یادگیری تقویتی (به نام model-based control) در پاسخ به افزایش وظیفه پیچیدگی است. اما آنها با توسل به ساده تر و کارآمد منابع استراتژی به نام مدل-رایگان کنترل زمانی که هر دو عدم قطعیت و پیچیدگی وظیفه بودند ، این نشان می دهد که هر دو این کار عدم اطمینان و پیچیدگی وظیفه ارتباط برقرار کردن در طول متا کنترل یادگیری تقویتی. محاسباتی fMRI تجزیه و تحلیل نشان داد که وظیفه پیچیدگی تعامل با عصبی نمایندگی از اطمینان از استراتژی های یادگیری در پایین تر از قشر.

این یافته ها به طور قابل توجهی پیشرفت درک درستی از ماهیت محاسبات در حال اجرا در پایین تر از قشر در طول متا تقویت یادگیری و همچنین ارائه بینش به این سوال کلی تر از مغز چگونه برطرف عدم قطعیت و پیچیدگی در صورت پویا در حال تغییر محیط زیست است. شناسایی کلید محاسباتی متغیر است که درایو بجلو متا تقویت یادگیری همچنین می توانید اطلاع رسانی به درک درستی از چگونگی این فرایند ممکن است در معرض خطر شکستن در برخی اختلالات روانی مانند افسردگی و اختلال وسواسی-اجباری. علاوه بر به دست آوردن یک محاسباتی درک درستی از چگونگی این فرایند گاهی اوقات می تواند منجر به افزایش مدل ها-رایگان کنترل می تواند به ارائه بینش چگونه تحت برخی از شرایط عملکرد کار ممکن است شکستن تحت شرایط بالا شناختی ،

پروفسور لی گفت: “این مطالعه خواهد شد از علاقه بسیار زیادی به محققان در هر دو هوش مصنوعی و انسان/کامپیوتر تعامل زمینه از این دارای پتانسیل قابل توجهی برای استفاده از هسته بینش های جمع آوری شده را چگونه هوش انسان با این نسخهها کار با الگوریتم های هوش مصنوعی.”

این کار تامین شده بود توسط موسسه ملی سوء مصرف مواد مخدر از بنیاد ملی تحقیقات کره, وزارت علوم و فناوری اطلاعات و ارتباطات سامسونگ در بودجه های تحقیقاتی مرکز سامسونگ الکترونیک است.

tinyurlis.gdv.gdv.htclck.ruulvis.netshrtco.de

نرم افزار گرامرلی