د EITC/AI/ARL پرمختللی تقویت زده کړه په مصنوعي استخباراتو کې د پیاوړتیا زده کړې لپاره د ډیپ ماینډ چلند په اړه د اروپا IT تصدیق کولو برنامه ده.
د EITC/AI/ARL پرمختللی تقویت زده کړې نصاب په لاندې جوړښت کې تنظیم شوي ډیپ مائنډ له لید څخه د تقویت زده کړې تخنیکونو کې نظریاتي اړخونو او عملي مهارتونو تمرکز کوي ، د دې EITC تصدیق لپاره د یوې مرجع په توګه جامع ویډیو ډیډټیک مینځپانګه پکې شامله ده.
د پیاوړتیا زده کړه (RL) د ماشین زده کړې یوه برخه ده چې د دې په څرنګوالي پورې اړه لري چې عاقل اجنټان څنګه باید په چاپیریال کې اقدام وکړي ترڅو د ډیرو زیاتوالي نظر ته اعظمي کړي. د ځواک پیاوړتیا زده کړه د نظارت شوي زده کړې او بې نظمه زده کړې سربیره د ماشین زده کړې درې اساسی نمونو څخه ده.
د ځواک پیاوړتیا زده کړې د نظارت شوي زده کړې سره توپیر لري پدې کې چې د لیبل شوي آخذې/محصولاتو جوړو وړاندې کولو ته اړتیا نلري ، او د فرعي مطلوب کارونو ته اړتیا نلري چې باید په سمه توګه اصلاح شي. پرځای یې تمرکز د اکتشاف (د نه کشف شوې سیمې) او استحصال (اوسني پوهې) تر منځ توازن موندلو باندې دی.
چاپیریال عموما د مارکوف پریکړې پروسې (MDP) په ب .ه ویل شوی ، ځکه چې د دې شرایطو لپاره د ځواک پیاوړتیا ډیری الګوریتمونه د متحرک پروګرام کولو تخنیکونه کاروي. د کلاسیک متحرک پروګرام کولو میتودونو او د تقویه کولو زده کړې الګوریتمونو تر مینځ اصلي توپیر دا دی چې وروستی د MDP دقیقي ریاضياتي ماډل پوهه نه ګ andي او دوی لوی MDPs په نښه کوي چیرې چې دقیق میتودونه ناشوني دي.
د دې د عموميیت له امله ، د تقویه کولو زده کړه په ډیری ډیسکونو کې مطالعه کیږي ، لکه د لوبې تیوری ، کنټرول نظریه ، د عملیاتو څیړنه ، د معلوماتو تیوری ، د نقلیه توب مطلوب اصلاح ، ملټي - ایجنټ سیسټمونه ، سوري استخبارات ، او احصایې. د عملیاتو څیړنې او کنټرول ادب کې ، د تقویه کولو زده کړې تخمیني متحرک برنامې یا نیورو متحرک برنامې ویل کیږي. د پیاوړتیا زده کړې کې د ګټو ستونزې د مطلوب کنټرول نظریه کې هم مطالعه شوې ، کوم چې د دوی دقیق حساب کولو لپاره ډیری د مطلوب حلونو شتون او ځانګړتیا سره تړاو لري ، او لږ څه د زده کړې یا نږدې کیدو سره ، په ځانګړي توګه د نه شتون په صورت کې. د چاپېریال ریاضی ماډل. په اقتصاد او لوبو تیوري کې ، د تقویت زده کړې ممکن د دې تشریح کولو لپاره وکارول شي چې څنګه ممکن انډول ممکن د محدود منطق له مخې رامینځته شي.
اساسی پیاوړتیا د مارکوف پریکړې پروسې (MDP) په توګه ب .ه شوې. په ریاضیاتو کې ، د مارکوف پریکړې پروسه (MDP) د وخت وخت لرونکي سټیسټیک کنټرول پروسه ده. دا په داسې شرایطو کې د پریکړې کولو موډل کولو لپاره ریاضیاتي چوکاټ چمتو کوي چیرې چې پایله تر یوې اندازې تصادفي او یوه برخه د پریکړه کونکي تر کنټرول لاندې وي. MDPs د متحرک برنامو له لارې حل شوي مطلوب ستونزو مطالعې لپاره ګټورې دي. MDPs لږترلږه د 1950s په څیر پیژندل شوي و. د مارکوف پریکړې پروسو په اړه د څیړنې اصلي ارګان د رونالډ هوارډ د 1960 کتاب ، متحرک برنامې او مارکوف پروسیسونو پایله درلوده. دا په ډیری ډیسکونو کې کارول کیږي ، پشمول د روباټیک ، اتومات کنټرول ، اقتصاد او تولید. د MDPs نوم د روسي ریاضي پوه آنډري مارکوف څخه راځي ځکه چې دا د مارکوف سلسلو غزول دي.
په هر وخت مرحله کې ، پروسه په یو حالت S کې وي ، او پریکړه کونکی ممکن هغه عمل غوره کړي کوم چې په ایالت S کې شتون لري. پروسه په راتلونکي وخت مرحله کې په تصادفي ډول نوي حالت S ته ځي او ځواب ورکوي. د پریکړې جوړونکی ورته اجوره را (S ، S ') ورکوي.
احتمال چې پروسه خپل نوي حالت S 'ته واوړي د غوره شوي عمل لخوا اغیزه کیږي. په ځانګړې توګه ، دا د دولت لیږد فن Pa (S، S ') لخوا ورکول کیږي. پدې توګه ، راتلونکی حالت S اوسني حالت S او د پریکړې کونکي عمل پورې اړه لري. مګر S او a ته ورکړل شوی ، دا په شرایطو سره د ټولو تیرو دولتونو او عملونو څخه خپلواک دی. په بل عبارت ، د MDP دولتي لیږد د مارکوف ملکیت پوره کوي.
د مارکوف پریکړې پروسې د مارکوف سلسلو غزول دي؛ توپیر د عمل اضافه کول (د انتخاب اجازه ورکول) او انعامونه (هڅونه ورکول) دي. برعکس ، که چیرې د هر ایالت لپاره یوازې یو عمل شتون ولري (د بیلګې په توګه "انتظار") او ټولې اجرونه ورته وي (د مثال په توګه "صفر") ، د مارکوف پریکړې پروسه د مارکوف سلسلو ته راټیټیږي.
د ځواک پیاوړي کولو اجنټ د خپل چاپیریال سره په مشخص وخت مرحلو کې تعامل کوي. په هر وخت t کې ، اجنټ اوسنی حالت S (t) او جایزې r (t) ترلاسه کوي. دا بیا د شته عملونو له ترتیب څخه یوه (t) غوره کوي ، کوم چې وروسته چاپیریال ته لیږل کیږي. چاپیریال نوي حالت S (t + 1) ته حرکت کوي او د لیږد پورې اړوند اجر r (t + 1) ټاکل شوی. د پیاوړتیا زده کړې اجنټ هدف د یوې داسې پالیسۍ زده کول دي چې تمه شوې اجر cum اعظمي اعظمي حد ته ورسوي.
د MDP په توګه د ستونزې رامینځته کول فرض کوي چې استازی مستقیم اوسنی چاپیریال حالت مشاهده کړي. پدې حالت کې ستونزه ته د بشپړ څارنې ویل کیږي. که چیرې استازی یوازې ایالتونو فرعي برخې ته لاسرسی ولري ، یا که لیدل شوي دولتونه د شور له لارې فاسد شوي وي ، نو ویل کیږي چې دغه اجنټ یو څه نظارت لري ، او په رسمي ډول ستونزه باید د مارکوف د یوې برخې نظارت پروسې په توګه تشکیل شي. په دواړه حالتونو کې ، اجنټ ته د موجودو کړنو تنظیم محدود کیدی شي. د مثال په توګه ، د حساب توازن حالت ممکن مثبت وي. که چیرې د دولت اوسنی ارزښت 3 وي او د دولت لیږد هڅه کوي ترڅو دا ارزښت 4 ته راټیټ کړي ، نو لیږد ته به اجازه ورنکړل شي.
کله چې د اجنټ فعالیت د یو اجنټ سره پرتله کیږي چې مطلوب عمل کوي ، په عمل کې توپیر د افسوس تصور رامینځته کوي. د نږدې نږدې عمل کولو لپاره ، اجنټ باید د خپلو کړنو اوږدمهاله پایلو په اړه دلیل وړاندې کړي (د بیلګې په توګه ، راتلونکی عاید اعظمي کړئ) ، که څه هم پدې کې سمدستي اجر ممکن منفي وي.
په دې توګه ، د تقویه کولو زده کړه په ځانګړي توګه د ستونزو لپاره مناسبه ده چې په کې د لنډمهاله اجر سوداګریز بند اوږدمهاله شامل دي. دا په مختلفو ستونزو بریالیتوب سره پلي شوی ، په ګډون د روبوټ کنټرول ، د لفټ مهالویش ، مخابراتو ، بیکګیمون ، چیکرس او ګو (AlphaGo).
دوه عناصر د ځواک پیاوړتیا پیاوړي کوي: د فعالیت مطلوب کولو لپاره د نمونو کارول او د لوی چاپیریال سره معامله کولو لپاره د فعالیت نږدې کولو کارول. د دې دوه کلیدي برخو څخه مننه ، د پیاوړتیا زده کړه په لاندې شرایطو کې په لوی چاپیریال کې کارول کیدی شي:
- د چاپیریال ماډل پیژندل شوی ، مګر یو تحلیلي حل شتون نلري.
- یوازې د چاپیریال سیمولیشن ماډل ورکړل شوی (د انکار پر اساس مطلوب موضوع).
- د چاپیریال په اړه د معلوماتو راټولولو یوازینۍ لار د هغې سره تعامل کول دي.
د دې ستونزو څخه لومړي دوه د پلان کولو ستونزې په پام کې نیول کیدی شي (ځکه چې د ماډل ځینې ب availableې شتون لري) ، پداسې حال کې چې وروستۍ یوه د زده کړې اصلي ستونزه ګ .ل کیدی شي. په هرصورت ، د تقویه کولو زده کړه دواړه د پلان کولو ستونزې د ماشین زده کړې ستونزو ته اړوي.
د اکتشاف په وړاندې د استحصال سوداګرۍ بند ترټولو ښه مطالعه د څو وسله والو غلو ستونزې او په بورنیتس او کاتکیس (1997) کې د محدود دولتي دولتي ساحې MDPs لپاره شوې.
د ځواک پیاوړتیا زده کړې د سپړنې سپړنې میکانیزمونو ته اړتیا لري؛ په تصادفي ډول د اعمالو غوره کول ، پرته د اټکل شوي احتمالي توزیع حوالې ته ، خراب فعالیت ښیې. د (کوچنۍ) محدود مارکوف پریکړې پروسې قضیه نسبتا ښه پوهیږي. په هرصورت ، د الګوریتم نشتوالي له امله چې د ایالتونو شمیر سره ښه اندازه کوي (یا د لامحدود دولت ځایونو ستونزو ته پیمانه) ، د سپړنې ساده میتودونه خورا عملي دي.
حتی که چیرې د سپړنې مسله په پام کې نه نیول شوې وي او حتی که دولت ورته د پاملرنې وړ هم وي ، ستونزه د پخوانیو تجربو کارولو ته پاتې ده ترڅو ومومي چې کومې کړنې د زیاتو اجراتو المل کیږي.
د تصدیق کولو نصاب سره په تفصیل سره د ځان پیژندلو لپاره تاسو کولی شئ لاندې جدول پراخه او تحلیل کړئ.
د EITC/AI/ARL پرمختللی تقویت زده کړې تصدیق نصاب په ویډیو کې د خلاص لاسرسي درسي موادو ته اشاره کوي. د زده کړې پروسه په مرحله وار جوړښت ویشل شوې ده (پروګرامونه -> درسونه -> موضوعات) چې د نصاب اړوند برخې پوښي. د ډومین متخصصینو سره لامحدود مشوره هم چمتو کیږي.
د تصدیق پروسې په اړه د جزیاتو لپاره چیک کړئ څنګه کار کوي.
د درسي نصاب سرچینې
د ژور قوي زده کړې خپرونې له لارې د انساني کچې کنټرول
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
په UC برکلي کې د ژورې پیاوړتیا زده کړې په اړه د خلاص لاسرسی کورس
http://rail.eecs.berkeley.edu/deeprlcourse/
RL له مانیفولډ.ای څخه د K - ارایډ بینډټ ستونزه کې غوښتنه وکړه
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
د EITC/AI/ARL پرمختللي تقویت زده کړې برنامې لپاره بشپړ آفلاین ځان زده کړې چمتو کونکي توکي په PDF فایل کې ډاونلوډ کړئ