در سالهای اخیر، ادغام روشهای پیشرفته هوش مصنوعی (AI) در سامانههای مالی و حسابداری، توجه گستردهای را در میان پژوهشگران و متخصصان این حوزه به خود جلب کرده است. با این حال، یکی از حوزههای کمتر مورد بررسی اما بسیار پُرپتانسیل در این تقاطع، استفاده از یادگیری تقویتی (Reinforcement Learning) در حسابداری دولتی و سامانههای بودجهریزی بخش عمومی است. این مقاله به بررسی نوآورانهای میپردازد که چگونه یادگیری تقویتی میتواند فرآیند تصمیمگیری مالی در بخش دولتی را متحول ساخته و راهحلهایی پویا و تطبیقپذیر برای تخصیص بودجه ارائه دهد. برخلاف مدلهای ایستای سنتی در تدوین بودجه، الگوریتمهای یادگیری تقویتی قادرند از طریق تعامل مستمر با محیطهای پیچیده و نامطمئن، سیاستهای بهینه را فرا بگیرند، و این ویژگی آنها را برای شرایط در حال تغییر مالی عمومی بسیار مناسب میسازد. بودجهریزی عمومی شامل تخصیص منابع محدود میان برنامههای مختلف دولتی است که اغلب تحت تأثیر عدم قطعیت، فشارهای سیاسی و شرایط متغیر اقتصاد کلان قرار دارد. روشهای سنتی مانند بودجهریزی مبتنی بر عملکرد، بودجهریزی صفر مبنا یا مدلهای افزایشی، عمدتاً به فرضیات ایستا و دادههای گذشته متکی هستند و بنابراین توانایی واکنش مؤثر به تغییرات سریع یا بحرانهای ناگهانی را ندارند. یادگیری تقویتی، که از روانشناسی رفتاری و نظریه تصمیمگیری الهام گرفته است، یک تغییر پارادایم اساسی ایجاد میکند. این روش به عاملهای تصمیمگیرنده (Agent) امکان میدهد با دریافت پاداش یا جریمه از محیط، تصمیمات خود را بهبود بخشیده و در طول زمان بهینهسازی شوند؛ حتی در محیطهایی که جزئیات کامل آنها مشخص نیست یا تصادفی هستند. هدف این پژوهش، طراحی و پیادهسازی یک چارچوب مبتنی بر یادگیری تقویتی برای شبیهسازی و بهینهسازی تصمیمات تخصیص بودجه دولتی در یک محیط آزمایشی کنترلشده است. در این راستا، ما محیطی مجازی برای بودجهریزی عمومی ایجاد میکنیم که شامل چندین هدف سیاستگذاری (مانند بهداشت، آموزش، زیرساخت) همراه با توابع مطلوبیتی است که ابعاد اجتماعی، اقتصادی و سیاسی را در نظر میگیرند. این محیط بهعنوان یک فرایند تصمیمگیری مارکوف (MDP) مدلسازی شده و یک عامل یادگیرنده مبتنی بر شبکه عصبی Q (DQN) آموزش داده میشود تا در تعامل با این محیط، بیشینه مطلوبیت تجمعی را در چارچوب محدودیتهای بودجهای بهدست آورد. مطالعه ما نشان میدهد که مدلهای یادگیری تقویتی در مقایسه با روشهای سنتی در چندین بُعد کلیدی عملکرد بهتری دارند: انطباقپذیری با تغییرات سیاستی، واکنش مؤثر به شوکهای اقتصادی و بهینهسازی اهداف بلندمدت. بهعنوان مثال، هنگام مواجهه با بحرانهای شبیهسازیشده نظیر افزایش ناگهانی تورم، بلایای طبیعی یا بحرانهای سلامت عمومی، عامل یادگیرنده توانست منابع را مؤثرتر از مدلهای ایستا بازتخصیص دهد و در عین حال، استمرار خدمات و کارآمدی هزینهها را حفظ کند. همچنین، این رویکرد با یادگیری از الگوهای گذشته و پیشبینی پیامدهای آینده، توانایی برنامهریزی استراتژیک بلندمدت را فراهم میکند؛ قابلیتی که در اغلب رویههای فعلی حسابداری دولتی جایگاهی ندارد. ما همچنین به پیامدهای نظری بهکارگیری یادگیری تقویتی در حوزه مالیه عمومی میپردازیم. بهویژه، این فناوری امکان حاکمیت مالی خودکار را فراهم میسازد؛ جایی که عاملهای هوشمند بهطور مداوم، تخصیص منابع را بر اساس دادههای بلادرنگ بهینه میکنند. این امر نهتنها از بروز سوگیریهای انسانی و مداخلات سیاسی در تصمیمات بودجهای میکاهد، بلکه از طریق مسیرهای تصمیمگیری قابل ردیابی، شفافیت و پاسخگویی را افزایش میدهد. افزون بر این، بهکارگیری یادگیری تقویتی میتواند شکاف دیرینه میان ارزیابی عملکرد مالی و اثربخشی سیاستی را پر کرده و مکانیزمی دادهمحور برای همراستایی ورودیهای مالی با پیامدهای اجتماعی فراهم کند. با وجود یافتههای امیدوارکننده، پیادهسازی یادگیری تقویتی در سامانههای واقعی حسابداری دولتی با چالشهایی مواجه است. مسائل اخلاقی مرتبط با تصمیمگیری الگوریتمی در مدیریت عمومی، بهویژه در زمینههایی که عدالت و برابری اجتماعی اهمیت دارند، باید مورد توجه قرار گیرد. همچنین، کمبود دادههای دقیق و قابل اعتماد در بخش عمومی، مانعی جدی برای آموزش و بهکارگیری این سامانهها است. پیچیدگی محاسباتی و دشواری در تفسیر خروجیهای یادگیری تقویتی نیز ممکن است پذیرش آن را نزد حسابرسان و ناظران مالی محدود سازد. ما چارچوبی میانرشتهای برای پژوهشهای آتی پیشنهاد میکنیم که ترکیبی از هوش مصنوعی، مالیه عمومی، تحلیل سیاستی و اقتصاد رفتاری را برای طراحی مشترک سامانههای RL ارائه میدهد که هم از نظر فنی پیشرفته و هم از منظر اجتماعی قابل پذیرش باشند. این مقاله با پیشگامی در ادغام یادگیری تقویتی در حسابداری دولتی، افق جدیدی برای مدیریت مالی عمومی هوشمند، خودکار و انطباقپذیر گشوده است. این پژوهش، فرضیات سنتی درباره نحوه تدوین و ارزیابی بودجهها را به چالش میکشد و چارچوبی نوآورانه ارائه میدهد که نهتنها عملکرد مالی را بهینه میسازد، بلکه همراستایی بیشتری با ارزشهای عمومی و پاسخگویی دموکراتیک دارد. یافتههای ما نشان میدهد که در عصر حکمرانی دیجیتال، سامانههای حسابداری باید به گونهای تکامل یابند که بتوانند از عاملهای تصمیمگیرنده هوشمند برای مدیریت پیچیدگیهای مالیه عمومی بهرهبرداری کنند. در پایان، این پژوهش خواهان همکاری فعال میان فناوران، سیاستگذاران و متخصصان حسابداری است تا ابزارهای مبتنی بر یادگیری تقویتی متناسب با بسترهای خاص دولتی طراحی و توسعه یابند. با توجه به چالشهای فزایندهای که دولتها با آنها مواجه هستند—از تغییرات اقلیمی و پیری جمعیت گرفته تا نوسانات اقتصادی و تحولات دیجیتال—نیاز به سامانههای بودجهریزی هوشمند، انعطافپذیر و آیندهنگر بیش از هر زمان دیگری احساس میشود. یادگیری تقویتی، با توجه به موفقیتهای اثباتشدهاش در حوزههایی نظیر رباتیک، نظریه بازیها و سامانههای خودران، میتواند کلید تحول بعدی در حسابداری دولتی و حکمرانی مالی عمومی باشد