Regression Models with Heteroscedasticity using Bayesian Approach

Modelos de regresión heterocedásticos usando aproximación bayesiana

EDILBERTO CEPEDA CUERVO1, JORGE ALBERTO ACHCAR2

1Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Estadística, Bogotá, Colombia. Profesor asociado. Email: ecepedac@unal.edu.co
2Universidade de São Paulo, Faculdade de Medicina de Ribeirão Preto, Departamento de Medicina Social, São Paulo, Brasil. Profesor. Email: jorge@icmc.usp.br


Abstract

In this paper, we compare the performance of two statistical approaches for the analysis of data obtained from the social research area. In the first approach, we use normal models with joint regression modelling for the mean and for the variance heterogeneity. In the second approach, we use hierarchical models. In the first case, individual and social variables are included in the regression modelling for the mean and for the variance, as explanatory variables, while in the second case, the variance at level 1 of the hierarchical model depends on the individuals (age of the individuals), and in the level 2 of the hierarchical model, the variance is assumed to change according to socioeconomic stratum. Applying these methodologies, we analyze a Colombian tallness data set to find differences that can be explained by socioeconomic conditions. We also present some theoretical and empirical results concerning the two models. From this comparative study, we conclude that it is better to jointly modelling the mean and variance heterogeneity in all cases. We also observe that the convergence of the Gibbs sampling chain used in the Markov Chain Monte Carlo method for the jointly modeling the mean and variance heterogeneity is quickly achieved.

Key words: Socioeconomic status, Variance heterogeneity, Bayesian methods, Bayesian hierarchical model.


Resumen

En este artículo, comparamos el desempeño de dos aproximaciones estadísticas para el análisis de datos obtenidos en el área de investigación social. En la primera, utilizamos modelos normales con modelación conjunta de media y de heterogeneidad de varianza. En la segunda, utilizamos modelos jerárquicos. En el primer caso, se incluyen variables del individuo y de su entorno social en los modelos de media y varianza, como variables explicativas, mientras que, en el segundo, la variación en nivel 1 del modelo jerárquico depende de los individuos (edad de los individuos). En el nivel 2 del modelo jerárquico, se asume que la variación depende del estrato socioeconómico.
Aplicando estas metodologías, analizamos un conjunto de datos de talla de los colombianos, para encontrar diferencias que pueden explicarse por sus condiciones socioeconómicas. También presentamos resultados teóricos y empíricos relacionados con los dos modelos considerados. A partir de este estudio comparativo concluimos que, en todos los casos, es "mejor" la modelación conjunta de media y varianza. Además de una interpretación muy sencilla, observamos una rápida convergencia de las cadenas generadas con la metodología propuesta para el ajuste de estos modelos.

Palabras clave: metodología bayesiana, heterogeneidad de varianza, métodos bayesianos, estrato socioeconómico.


Texto completo disponible en PDF


References

1. Adair, L. S., Eckhardt, C. L., Gordon-Larsen, P. & Suchindran, C. (2005), `The Association Between Diet and Height in the Postinfancy Period Changes with Age and Socioeconomic Status in Filipino Youths´, The Journal of Nutrition 135(9), 2192-2198).

2. Aitkin, M. (1987), `Modelling Variance Heterogeneity in Normal Regression using Glim´, Applied Statistics 36(4), 332-339.

3. Bryk, A. & Raudenbush, S. (1992), Hierarchical Linear Models: Applications and Data Analysis Methods, Sage publications, Inc, Newbury Park, United States.

4. Cepeda, E. & Gamerman, D. (2001), `Bayesian Modeling of Variance Heterogeneity in Normal Regression Models´, Brazilian Journal of Probability and Statistics 14(1), 207-221.

5. Cepeda, E. & Gamerman, D. (2005), `Bayesian Methodology for Modeling Parameters in the two Parameter Exponential Family´, Revista Estadística 57(168-169), 93-105.

6. Chumlea, W. C., Guo, S. S., Wholihan, K., Cockram, D., Kuczmarski, R. J. & Johnson, C. L. (1998), `Stature Prediction Equations for Elderly Non-Hispanic white, Non-Hispanic Black, and Mexican-American Persons Developed from NHANES III Data´, Journal of the American Dietetic Association 98(2), 137-142.

7. De Leeuw, J. & Kreft, I. (1986), `Random Coefficient Models for Multilevel Analysis´, Journal of Educational Statistics 11, 57-85.

8. Longford, N. (1993), Random Coefficient Models, Oxford University Press, New York, United States.

9. Prosser, R., Rasbash, J. & Goldstein, H. (1991), ML3. Software for Three-Level Analysis. User's Guide for V. 2, GB: Institute of Education, University of London, London, England.

10. Raudenbush, S. & Bryk, A. (2002), Hierarchical Linear Models: Applications and Data Analysis Methods, 2 edn, Sage Publications, Inc., Thousand Oaks, United States.

11. Steenbergen, M. & Bradford, S. (2002), `Modeling Multilevel Data Structures´, American Journal of Political Science 46(1), 218-237.

12. Stein, A. D., Barnhart, H. X., Wang, M., Hoshen, M. B., Ologoudou, K., Ramakrishnan, U., Grajeda, R., Ramírez, M. & Martorell, R. (2004), `Comparison of Linear Growth Patterns in the first three Years of Life Across two Generations in Guatemala´, Pediatrics 113(3), 270-275.

13. Van Der Leeden, R. (1998), `Multilevel Analysis of Repeated Measures Data´, Quality & Quantity. Kluwer Academic Publishers. Netherlands 32, 15-29.


[Recibido en marzo de 2009. Aceptado en noviembre de 2009]

Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:

@ARTICLE{RCEv32n2a06,
    AUTHOR  = {Cepeda Cuervo, Edilberto and Achcar, Jorge Alberto},
    TITLE   = {{Regression Models with Heteroscedasticity using Bayesian Approach}},
    JOURNAL = {Revista Colombiana de Estadística},
    YEAR    = {2009},
    volume  = {32},
    number  = {2},
    pages   = {267-287}
}