1.   مشاوره و انجام پروپوزال  و پایان نامه ، مشاوره در زمینه ارائه سمینار، 
       مشاوره و انجام مقاله های بین المللی و داخلی، 
       مشاوره و انجام مقاله در مجله های علمی پژوهشی معتبر، 
        مشاوره و آموزش شبیه سازی شبکه توسط شبیه ساز آکادمیک 2-NS، 
         مشاوره و آموزش شبیه سازهای ترافیک شهری از قبیل  SUMO، ONE، و ...
          کمک به دانشجویان برای پیاده سازی ایده ها و مقالات خود با شبیه سازهای
               NS2, NS3 , OMNET++ , ONE
     
    
                 شماره تماس :
                         حسین رنجبران:    09101607834   
                                          
    
                  ساعات تماس: 
                                      ۸ الی ۲۰
                         
                   ایمیل:
                         hossein.ranjbaran.it@gmail.com
                        
           
    

مدلی‌مبتنی ‌بر آنتروپی‌و ‌اتوماتاهاي یادگیر برای حل بازی های تصادفی

شروع موضوع توسط AdMiN ‏5/5/14 در انجمن الگوریتم های یادگیر

وضعیت موضوع:
You must be a logged-in, registered member of this site to view further posts in this thread.
  1. Administrator
    AdMiN
    هیات مدیره
    تاریخ عضویت:
    ‏3/10/13
    ارسال ها:
    2,146
    تشکر شده:
    316
    چكيده‌- بازی های غیر قطعی(تصادفی) به عنوان توسعه ای از فرآیندهای تصادفی مارکوف با چندین عامل در سیستمهای چند عامله و مدل سازی آنها حائز اهمیت بوده و به عنوان چارچوبی مناسب در تحقیقات یادگیری‌تقویتی ‌چند‌عامله به‌کار‌رفته‌اند. در حال حاضراتوماتاهای‌یادگیر به عنوان ابزاری ارزشمند در طراحی الگوریتمهای یادگیری چند عامله به کار رفته اند. در این مقاله مدلی مبتنی براتوماتای یادگیر و مفهوم آنتروپی برای حل بازی های غیر قطعی و پیدا کردن سیاست بهینه در این بازیها ارائه شده است. در مدل پیشنهادی به ازای هر عامل در هر حالت از محیط بازی یک اتوماتای یادگیربا ساختار متغیر ازنوع S قرارداده شده است که اعمال بهینه را در هر حالت یاد می گیرند. تعداد اعمال هر اتوماتا با توجه به همسایگان مجاور هر حالت تعیین شده و ترکیب اعمال اتوماتاها حالت بعدی محیط را انتخاب می‌کند. در مدل پیشنهادی از آنتروپی بردار احتمالات اتوماتای یادگیر حالت جدید برای کمک به پاداش دهی اتوماتاها و بهبود یادگیری استفاده شده است.برای بررسی و تحلیل رفتار الگوریتم یادگیری پارامتری به نام آنتروپی‌کلی تعریف گردیده که میزان همگرایی را در الگوریتم یادگیری بیان می کند. در نهایت الگوریتمی اصلاح یافته با ایجاد تعادل بین جستجوو استناد بر تجربیات پیشنهاد شده است. نتایج آزمایش ها نشان می دهد الگوريتم ارائه شده از کارایی مناسبی از هر دو جنبه هزينه و سرعت رسيدن به راهحل بهينه برخوردار است.

    كليد واژه- آنتروپی، اتوماتاهاي يادگير، بازی های تصادفی، سيستمهاي چند عامله.

    بهروز معصومی، محمد رضا میبدی
     

    فایل های ضمیمه:

وضعیت موضوع:
You must be a logged-in, registered member of this site to view further posts in this thread.

این صفحه را به اشتراک بگذارید