1Universidad Pedagógica y Tecnológica de Colombia, Departamento de Matemáticas y Estadística, Tunja, Colombia. Profesora auxiliar. Email: yayalas@unal.edu.co
2Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Estadística, Bogotá, Colombia. Profesor asistente. Email: oomelom@unal.edu.co
Se propone una metodología para la estimación de datos faltantes en condiciones longitudinales con respuesta binaria, desde una perspectiva univariada, basada en máxima verosimilitud. Suponiendo que las respuestas son faltantes de forma aleatoria (FFA), en cada una de las ocasiones se emplea el algoritmo EM de dos formas distintas: en la primera, el paso E se expresa como una log-verosimilitud ponderada de la respuesta, condicionada a las anteriores ocasiones tomadas como covariables adicionales, con base en el método de Ibrahim (1990) para covariables categóricas faltantes, obteniendo de esta forma estimadores máximo verosímiles. En la segunda, en el paso E se realiza la estimación e imputación de datos faltantes basada en el método Ancova de Bartlett (1937). La metodología propuesta es aplicada en un caso de estudio relacionado con factores de riesgo coronario, presentado en Fitzmaurice et al. (1994).
Palabras clave: datos longitudinales, regresión logística, máxima verosimilitud, algoritmo EM.
A maximum likelihood method is proposed to provide estimates for models with binary response in longitudinal data based on an univariate model. Under a missing at random (MAR) mechanism, the EM algorithm is used in two different forms: in the first, the E step can be expressed as a weighted log-likelihood responses given the previous times, based in the method of weights proposed by Ibrahim (1990), for partially missing covariates. In the second, on the E step the estimation and imputation for missing data is based in Ancova method proposed by Bartlett (1937). Finally, we apply our method to the data from the Muscatine Coronary Risk Factor Study, employed in Fitzmaurice et al. (1994).
Key words: Longitudinal data, Logistic regression, Maximum likelihood, EM algorithm.
Texto completo disponible en PDF
Referencias
1. Ayala, S. Y. (2006), Estimación e Imputación de Datos Faltantes en Diseños de Medidas Repetidas con Respuesta Binaria o Poisson, Tesis de Maestría, Estadística, Universidad Nacional de Colombia, Facultad de Ciencias, Departamento de Estadística, Bogotá, Colombia.
2. Bartlett, M. S. (1937), `Some Examples of Statistical Methods of Research in Agricultura and Applied Botany´, Journal of Royal Statistical 4, 137-170.
3. Chen, H. Y. & Little, R. (1999), `A Test of Missing Completely at Random for Generalised Estimating Equations with Missing Data´, Biometrika 86(1), 1-13.
4. Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), `Maximum Likelihood from Incomplete Data Via the EM Algorithm´, Journal of the Royal Statistical 39, 1-38.
5. Diggle, P. J., Liang, K. Y. & Zeger, S. L. (1994), Analysis of Longitudinal Data, Oxford, England.
6. Fitzmaurice, G., Laird, N. & Lipsitz, S. (1994), `Analysis Incomplete Longitudinal Binary Responses: A Likelihood-Based Approach´, Biometrics 50(3), 601-612.
7. Fitzmaurice, G., Laird, N. & Ware, J. (2004), Applied Longitudinal Analysis, Wiley Series in Probability and Statistics, New York, United States.
8. Healy, M. & Wesmacott, M. (1956), `Missing Values in Experiments Analized on Automatic Computers´, Applied Statistic 5, 203-206.
9. Horton, N. & Lipsitz, S. (2001), `Multiple Imputation in Practice: Comparison of Software Packages for Regression Models With Missing Variables´, American Statistical Association 55(3), 244-254.
10. Ibrahim, J. (1990), `Incomplete Data in Generalized Linear Models´, Journal of American Statistical Association 85(411 pages 765-769).
11. Lipsitz, S., Ibrahim, J. & Fitzmaurice, G. (1999), `Likelihood Methods for Incomplete Longitudinal Binary Responses with Incomplete Categorical Covariates´, Biometrics 55, 214-223.
12. Little, R. & Rubin, D. (2002), Statistical Analysis with Missing Data, Wiley & Son, New York, United States.
13. McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, second edn, CRC Press, New York, United States.
14. Park, T. & Davis, C. (1993), `A Test of the Missing Data Mechanism for Repeated Categorical Data´, Biometrics 49(2), 631-638.
15. Park, T. & Lee, S. Y. (1997), `A Test of Missing Completely at Random for Longitudinal Data with Missing Observations´, Statistics in Medicine 16, 1859-1871.
16. Peña, D. (2002), Análisis de datos multivariantes, McGraw-Hill, Madrid, España.
17. Srivastava, M. & Carter, E. (1986), `The Maximum Likelihood Method for Non-Response in Sample Surveys´, Statistics Canada 12, 61-72.
18. Wolson, R. F. & Clarke, W. R. (1984), `Analysis of Categorical Incomplete Longitudinal Data´, Royal Statistical Society 147, 87-99.
19. Yang, X., Li, J. & Shoptaw, S. (2005), `Multiple Partial Imputation for Longitudinal Data with Missing Values in Clinical Trials´. Paper 2005010102.
20. Yates, F. (1933), `The Analysis of Replicate Experiments When the Field Results are Incomplete´, Empire Journal of Experimental Agriculture 1, 129-142.
21. Zhao, L. P. & Prentice, R. L. (1990), `Correlated Binary Regression Using a Quadratic Exponential Model´, Biometrika 77, 642-648.
22. Zorn, C. J. (2001), `Generalized Estimation Equation Model for Correlated Data: A Review with Application´, American Journal of Political Science 45(2), 470-490.
Este artículo se puede citar en LaTeX utilizando la siguiente referencia bibliográfica de BibTeX:
@ARTICLE{RCEv30n2a08,
AUTHOR = {Ayala, Yolima and Melo, Óscar Orlando},
TITLE = {{Estimación de datos faltantes en medidas repetidas con respuesta binaria}},
JOURNAL = {Revista Colombiana de Estadística},
YEAR = {2007},
volume = {30},
number = {2},
pages = {265-285}
}