تحلیلی بر مساله‌ انتخاب متغیرهای کمکی در مدل گاوسی با استفاده از ماکسیمم احتمال پسین و رهیافت‌های فراوانی‌گرا و بیزی

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه آمار، دانشکده ریاضی و علوم کامپیوتر، دانشگاه صنعتی امیرکبیر، تهران، ایران

2 گروه آمار، دانشکده علوم ریاضی، دانشگاه شهید بهشتی، تهران، ایران

چکیده

مساله‌ی انتخاب مناسب‌ترین مدل جهت برازش بر روی داده‌ها همواره چالش برانگیز بوده است. روش ماکسیمم احتمال پسین از جمله روش‌های انتخاب مدل است که در هر دو رهیافت فراوانی‌گرا و بیزی کاربرد دارد. به‌علاوه، مطلوبیت مدل نیز یکی از ابزارهای مورد استفاده برای سنجش عملکرد روش‌های انتخاب مدل است. در این مقاله، روش ماکسیمم احتمال پسین برای مدل گاوسی استاندارد بیزی مورد مطالعه قرار گرفته و عملکرد آن با حالت فراوانی‌گرا مقایسه می‌شود. همچنین، یک صورت جبری برای برآورد مطلوبیت مدل ارائه خواهد شد. در ادامه، مطالعه‌ی شبیه‌سازی روی مدل گاوسی عملکرد بهتر رهیافت بیزی را هم از دیدگاه مطلوبیت و هم با بررسی میانگین توان‌های دوم خطای مدل ( ) تایید می‌کند. با این وجود، هر دو رهیافت با افزایش اندازه‌ی نمونه، کمتر در معرض بیش‌برازش قرار می‌گیرند. همچنین با افزایش ضریب همبستگی میان متغیرهای کمکی، در هر دو رهیافت افزایش یافته حال آن‌که تمایل به انتخاب مدل با تعداد متغیر کمتر، افزایش می‌یابد. مطالعه بر روی داده‌های واقعی نشان می‌دهد که در هر دو رهیافت با افزایش اندازه‌ی نمونه، مدل‌های انتخاب شده، کاهش می‌یابد.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

An analysis on covariates selection problem for Gaussian model by Maximum a posteriori criterion using frequentist and Bayesian approaches

نویسندگان [English]

  • Amirhossein Ghatari 1
  • Mojtaba Ganjali 2
1 Department of Statistics, Faculty of Mathematic and Computer Science, Amirkabir University of Technolgy, Tehran, Iran
2 Department of Statistics, Faculty of Mathematical Sciences, Shahid Beheshti University, Tehran, Iran
چکیده [English]

Choosing the most suitable fitted model on data is one of the common challenges in statistical modeling. Maximum a posteriori (MAP) criterion is a method used in both frequentist and Bayesian approaches. Additionally, the utility of the model is used as a tool to compare the performances of methods. In this paper, the MAP method is applied for the Gaussian model and its performance is compared to that of frequentist approach. Also, an analytical form of utility estimation is proposed. Besides, using simulation studies, it is shown that the Gaussian model has better performance, based on both utility and mean of squared errors (MSE) criteria, when it is used by the Bayesian approach. However, both frequentist and Bayesian approaches avoid over-fitting by increasing the sample size. Also, by increasing correlation among covariates, MSE increases, while the tendency of choosing fewer covariates is raised. Eventually, the study on a real dataset is shown that in both frequentist and Bayesian approaches, MSE of selected models decreases when the size of sample increases.

کلیدواژه‌ها [English]

  • Model selection
  • Maximum a posteriori
  • Over-fitting
  • Utility of The Model
1.Geisser, S. and Eddy, W.F. (1979). A predictive approach to model
selection, Journal of the American Statistical Association, 74(365), 153–
160.
2.Watanabe, S. (2009). Algebraic geometry and statistical learning theory
(Vol. 25), Cambridge University Press.
3. Spiegelhalter, D. J., Best, N. G., Carlin, B. P., and Van Der Linde, A.
(2002). Bayesian measures of model complexity and fit. Journal of the
Royal Statistical Society: Series b (Statistical Methodology), 64(4), 583-
639.
4.Laud, P.W. and Ibrahim, J.G. (1995). Predictive model selection, Journal
of the Royal Statistical Society. Series B (Methodological), 57(1), 247–
262.
5. Gelfand, A.E. and Ghosh, S.K. (1998). Model choice: a minimum posterior
predictive loss approach, Biometrika, 85(1), 1–11.