CÁLCULO DE COTAS SUPERIORES DE CONFIANZA PARA EL ERROR MONETARIO TOTAL EN DISTRIBUCIONES MIXTAS DE TIPO NO ESTÁNDAR. APLICACIONES EN AUDITORÍA CONTABLE José Miguel Casas Sánchez1 - [email protected] José Javier Núñez Velázquez1 - [email protected] Juan Antonio Zapardiel López1,2 [email protected] 1 Universidad de Alcalá 2 Ministerio de Economía y Hacienda Reservados todos los derechos. Este documento ha sido extraído del CD Rom “Anales de Economía Aplicada. XIV Reunión ASEPELT-España. Oviedo, 22 y 23 de Junio de 2000”. ISBN: 84-699-2357-9 CÁLCULO DE COTAS SUPERIORES DE CONFIANZA PARA EL ERROR MONETARIO TOTAL EN DISTRIBUCIONES MIXTAS DE TIPO NO ESTÁNDAR. APLICACIONES EN AUDITORÍA CONTABLE José Miguel Casas Sánchez Departamento de Estadística, Estructura Económica y O.E.I.. Universidad de Alcalá de Henares. [email protected] José Javier Núñez Velázquez Departamento de Estadística, Estructura Económica y O.E.I.. Universidad de Alcalá de Henares. [email protected] Juan Antonio Zapardiel López Inspección General. Ministerio de Economía y Hacienda. Departamento de Estadística, Estructura Económica y O.E.I.. Universidad de Alcalá de Henares. [email protected] RESUMEN Aceptando la hipótesis de Kaplan sobre la generación del error en Auditoría a través de una mixtura no estándar de dos distribuciones, una degenerada y otra absolutamente continua, el presente trabajo trata de salvar las dificultades derivadas del desconocimiento de la distribución del estadístico error medio muestral bajo esta consideración. Para ello, se utilizan aproximaciones teóricas basadas en el modelo bootstrap paramétrico de replicación muestral y en la razón de máxima verosimilitud, en un entorno de selección de Muestreo de Unidades Monetarias. Los resultados obtenidos sobre poblaciones contables se comparan con los de otras cotas conocidas en el ámbito del muestreo de auditoría, para analizar su robustez y fiabilidad. Palabras clave: Cota superior de confianza, Error de sobrevaloración, Bootstrap paramétrico, Razón de Máxima Verosimilitud, Mixtura no estándar. Área Temática: G2. Métodos de estadística económica Clasificación UNESCO: 1209.10, 5302.04 Introducción En una investigación auditora, la construcción de una cota superior de confianza para la media de los errores monetarios suele ser uno de los principales objetivos estadísticos. Las poblaciones de errores (diferencia entre valor en libros y valor auditado) observadas en el ámbito auditorcontable presentan un componente discreto o degenerado en el punto cero, y un componente continuo. Kaplan fue el primero en advertir esta peculiaridad en las poblaciones analizadas en Auditoría. Por lo general, un elevado porcentaje de los elementos de estas poblaciones presenta un error nulo, es decir, coincidencia entre valor en libros y valor auditado, mientras que el resto de elementos muestran una magnitud de error positiva. Esta característica supone una perturbación sustancial en la natural robustez de la aproximación t -Student (normal). En este tipo de situaciones, la población de estudio responde a una mixtura de dos distribuciones; una de ellas, con una masa probabilística discreta en el punto cero (distribución degenerada), y la otra caracterizada por una distribución continua de valores no nulos. Al referirse a estos casos, la literatura utiliza el término mixtura no estándar de dos poblaciones. Sea una población de N documentos contables de la que se extrae una muestra de tamaño n 1. Considérense las siguientes variables, en relación con un documento i (i = 1, 2, ..., N): Xi : Valor monetario en libros del documento i. Yi : Valor auditado del documento i. Ei = Xi - Yi : Error monetario en el documento i. X − Yi E i Di = i = : error monetario en términos de céntimos de la moneda Xi Xi elegida, en el documento i. Tx: Valor monetario total en libros de la población. El análisis se centra en poblaciones con errores exclusivamente de sobrevaloración, es decir: X i ≥ Yi , o bien, Ei ≥ 0 , y se establece que 0 ≤ Di ≤ 1 , dado que no se espera que el error de sobrevaloración para un documento contable supere su valor monetario en libros. Sea p la proporción de unidades monetarias erróneas en la población, generalmente pequeña gracias a los procedimientos auditores de control interno de las compañías, y Z i una variable definida para los valores de Di distintos de cero. Así pues: 0 Di = Zi 1− p p En el presente estudio, la variable Z i sigue una distribución continua de tipo paramétrico. El error medio poblacional se definirá como E (Di ) = µ . En este trabajo, se construye una cota superior de confianza para µutilizando dos posibilidades: un modelo combinado de atributos y variables apoyado en técnicas de bootstrap paramétrico, y un modelo de construcción de cotas basado en la razón de máxima verosimilitud. Modelo CAV-beta paramétrico utilizando bootstrap Admitamos que los valores de Z i han sido generados a partir de una distribución del tipo beta. La elección de esta función se basa tanto en su versatilidad de formas, lo que constituye un factor decisivo a la hora de aproximar otros tipos de funciones a las que pueden ajustarse los valores z, como en su adaptación al campo de variación de la variable Z. De la información previa se deriva la estructura del modelo: 1 Se utiliza Muestreo de Unidades Monetarias (MUS). La selección muestral se lleva a cabo sobre unidades monetarias, lo que equivale a un muestreo de unidades físicas con probabilidades proporcionales a los valores monetarios en libros de cada documento contable. 0 d = z 1− p p f (z a , b ) = cz a −1 (1 − z ) b −1 ; 0< z≤1 Con estas premisas, la media poblacional para los valores de la variable, será : µ = E( D) = pE(Z ) = pθ = pa a+b Este modelo probabilístico de tres parámetros ( p , a, b ) para una población contable con errores de sobrevaloración, puede denominarse S ( p , a, b ) . Los parámetros básicos son p , a, b , ya que θ, µ se derivan de ellos. A continuación se detallará el proceso de obtención de estimadores para los parámetros desconocidos surgidos en el modelo. Se considera que de las n unidades monetarias, hay k unidades erróneas y n − k unidades correctas incluidas en sus correspondientes documentos contables. Dada la función de verosimilitud para la submuestra de k unidades que se consideran generadas por la variable Z i : k [ L( z; a, b ) = c k ∏ z ia −1 (1 − z i )b −1 i =1 ] no va a existir una expresión algebraica para los estimadores de a y b utilizando el método de la máxima verosimilitud, por lo que sus valores deberían obtenerse mediante métodos numéricos a partir de las ecuaciones: ∂ log Γ(a ) ∂ log Γ(a + b ) 1 k − = ∑ log z i ∂a ∂a k i =1 ∂ log Γ(b ) ∂ log Γ(a + b ) 1 k − = ∑ log (1 − zi ) ∂b ∂b k i =1 Como alternativa se propone el uso del método de los momentos. Es bien conocida la ineficiencia de estos estimadores, pero su comportamiento es ciertamente eficaz en este análisis. Los momentos poblacionales de primer y segundo orden para la variable Z i son los de una variable distribuida beta con parámetros a y b : E (Z i ) = a a+b ( ) E Z i2 = a a +1 ⋅ a + b a + b +1 Aplicando el método de los momentos se obtienen las siguientes expresiones de los estimadores de a y b : donde: z (1 − z ) aˆ M = z − 1 Sˆ z2 z (1 − z ) ; bˆM = (1 − z ) − 1 Sˆ z2 1 k Sˆ z2 = ∑ ( z i − z )2 k i =1 Partiendo de las expresiones de â M y b̂M ,se puede obtener un estimador para la media de los valores de Di : µ ˆ = pˆ θˆ , donde p̂ es la proporción muestral de documentos erróneos y θ̂ el estimador de la media de Z. Seguidamente, se tratará de obtener una cota superior de confianza para µ, lo que requeriría un conocimiento previo de la distribución muestral de µ̂. Sin embargo, se presenta un problema para encontrar esta distribución muestral, ya que los valores de la variable D responden a una distribución mixta, lo que obliga a buscar otro camino alternativo para la construcción de una cota superior para µ. Se ha optado por la opción del método de replicación muestral bootstrap paramétrico. Se parte del estimador muestral de µ : µ ˆ = pˆ θˆ Conociendo â M y b̂M , y calculando p̂ , se puede obtener un estimador para µ: µ ˆ = pˆ θˆ . ( ) Con esta información, se construye una población Sˆ pˆ , aˆ , bˆ alternativa a S ( p , a, b ) , en la que se aproximan los parámetros p , a, b desconocidos con pˆ , aˆ M , bˆM . Posteriormente se genera una población beta de parámetros â M y b̂M , caracterizada por la variable Zˆ i = Z β . Estableciendo el porcentaje de documentos contables erróneos igual a p̂ , y generando una población uniforme (0,1), de variable Z u , se puede construir una nueva población de variable aleatoria D̂i que simule a la variable Di : 0 Dˆ i = ˆ Z i = Z β Z u > pˆ Z u ≤ pˆ donde Ẑ i es una variable aleatoria que seguirá una distribución beta de parámetros â M y b̂M . En definitiva, se ha generado una subpoblación que se aproxima a la población de valores de Zi . ( ) De la población Sˆ pˆ , aˆ , bˆ se extraen B muestras aleatorias 2 y se calcula para cada muestra s el valor de µ̂s . Para cada muestra s: pˆ s = ks n z (1 − z ) aˆ Ms = z s s 2 s − 1 Sˆ z s θˆs = aˆ s z (1 − z ) bˆMs = (1 − z s ) s 2 s − 1 Sˆ z s ˆ s = pˆ s θˆs µ aˆ s + bˆs donde k s es el número de unidades erróneas (equivalentes a documentos cuyo valor ha sido simulado) , z es la media de los valores de Ẑ , y Sˆ 2 es la varianza de los valores Ẑ , todos s para la muestra s -ésima. i zs i Una cota superior µ̂u para µ al 100(1 − α)% de confianza, se puede obtener desde la siguiente ecuación: m* = 1 −α B donde m* es el número de valores µ̂s inferiores a µ̂u . Finalmente, la cota en términos monetarios tendrá la forma: CAV-β = µ̂u ⋅ Tx En el proceso de selección de la muestra original, se observan dos situaciones para las que el modelo no ofrece una solución, y que reciben un tratamiento especial: En el caso de muestras que no contienen errores, p̂ u se obtendrá por el procedimiento conocido: n P[k ≤ 0] = (1 − pˆ u ) = α pˆ u = pu (0) = 1 − α1 n Para muestras con una unidad monetaria errónea, se opta por la filosofía de la cota de ordenación de errores para la proporción3: 2 La cantidad B se corresponde con un número elevado de muestras. Generalmente, B = 1.000 muestras al menos. 3 Goodfellow, Loebbecke y Neter (1974 b). En el Anexo se citan una serie de cotas CAV entre las que figura ésta, con la notación CAV-2. pˆ u CAV −2 = p u (0) + [ p u (1) − pu (0)] ⋅ z1 Por lo tanto, el cálculo de µ̂ se realizaría del siguiente modo: pˆ u = pu (0 ) pˆ u CAV − 2 µ ˆ = aˆ M pˆ ˆ aˆ M + bM k =0 k =1 k >1 Construcción de cotas de confianza mediante la razón de máxima verosimilitud. Utilizando la razón de máxima verosimilitud podemos construir cotas superiores de confianza para la media de una población contable que contiene por una parte un gran número de valores cero, y por otra, valores procedentes de una distribución continua. La probabilidad de obtener un documento erróneo en el proceso auditor es p . X −Y Partiendo de la definición de error relativo representado por la variable D = , la función X de densidad de D responde a la expresión: p ⋅ g (d ;θ , δ1 ,K , δm ) d ≠ 0 f (d ) = 1− p d =0 donde p ,definido en el intervalo 0 ≤ p ≤ 1 , es la proporción de documentos erróneos en la población, θ es la media de la distribución de errores diferentes de cero, y δ1 ,K , δm son otros parámetros de la distribución de errores. Se trata de encontrar una cota superior de confianza 100(1 − α)% para la media de la población global (errores nulos y errores diferentes de cero), µ = pθ . Sea D1 , D2 ,K , Dn una muestra aleatoria simple obtenida de la población de errores, en la que n − k de sus valores son ceros, y los restantes k valores son distintos de cero. El estimador de máxima verosimilitud para µ, µ̂ puede obtenerse maximizando: L = L(µ,θ , δ1 ,K , δm ) µ = θ k 1 − µ θ n− k k ∏ g (d ;θ, δ , K, δ ) i i =1 1 m Considérese a µ como una cantidad fija, por ejemplo µ = µ0 . Entonces, la función de verosimilitud se convierte en una función de θ y de δ1 ,K , δm . L(θ , δ1 ,K , δm ; µ0 ) µ = 0 θ k µ0 1 − θ n− k k ∏ g (d ;θ, δ , K, δ ) i =1 i 1 m Maximizando L se hallan los estimadores de máxima verosimilitud restringida, θˆ0 , δˆ10 , K, δˆm 0 , cuyos valores serán función de µ0 . Se define la función: λ(µ0 ) = L (θˆ0 , δˆ10 ,K , δˆ m 0 ; µ0 ) L (µ ˆ ,θˆ , δˆ , K, δˆm ) Cuando n es suficientemente grande, se cumple que la expresión: máx δ ∈Λ 0 L(δ ) − 2 ln máx L ( δ ) δ ∈ Λ es aproximadamente una variable aleatoria que sigue una distribución chi-cuadrado con v − v 0 grados de libertad, χv2− v0 , donde v − v0 = (dimensión de Λ − dimensión de Λ 0 ). Aplicando el resultado a la situación de estudio, con v = m + 2 , v 0 = m + 1 , resultará que − 2 ln λ(µ) será aproximadamente una variable aleatoria con distribución χ12 . De esta forma, se puede obtener un intervalo de confianza 100(1 − α)% para µ 4, que comprenderá los valores de µ para los que se cumpla: λ(µ) > e 1 − χ12−α ,1 2 donde χ12−α ,1 es el percentil 1 − α de una distribución chi-cuadrado con un grado de libertad. Hipótesis de distribución exponencial del error Como caso particular, se procede a calcular la razón de máxima verosimilitud λ( µ) cuando los valores del error siguen una distribución exponencial con media igual a θ. La función de 4 Kvanli, Shen y Deng demuestran mediante simulaciones la eficiencia estadística de estos tipos de intervalos de confianza. verosimilitud para una muestra aleatoria de tamaño n que contiene n − k valores cero y k valores distintos de cero, es la siguiente: L = L(µ, θ ) µk = k θ 1 − µ θ n− k k k di 1 e −θ ∑ i =1 θ 1 y los estimadores de máxima verosimilitud para θ y µ serán: n n ∑ di θ̂ = µ̂ = i =1 k ∑d i =1 i n Haciendo µ = µ0 , la función de verosimilitud será una función de θ exclusivamente: µ0k µ0 L = L(θ ) = k 1 − θ θ n− k * k k di 1 −θ ∑ e i= 1 θ 1 y entonces, puede demostrarse el siguiente resultado: Proposición En las condiciones anteriores, el estimador de máxima verosimilitud para θ satisface la ecuación de segundo grado: h (θ ) = θ 2 − Aθ + B = 0 siendo: n A= ∑ d + (n + k )µ i =1 i 0 2k n B= µ0 ∑ d i i =1 2k Demostración El estimador de máxima verosimilitud para θ, maximizará la función de verosimilitud L* , luego: µ ∂ ln L* k θ k 1 = − + (n − k ) 02 − + 2 ∂θ θ θ θ − µ0 θ θ Operando en la anterior ecuación, se llega a: n ∑d i =1 i =0 n di ∑ k−n µ θ2 + µ0 − µ0 − i =1 θ + 0 2k 2k 2k n ∑d i =1 i =0 de donde: n n ( ) d + n + k µ µ di ∑ 0 ∑ i 2 i =1 i =1 θ + θ − =0 2k 2k c.q.d. Posteriormente, definiremos la función λ( µ) para el valor fijo µ0 : k n− k k k di µ0 µ0 1 − θˆ0 ∑ 1 − e i =1 θˆ θˆ θˆ 0 0 λ(µ0 ) = 0 k 1 k n −k k di ˆ µ ˆ 1 − θˆ ∑ µ 1 − e i =1 θˆ θˆ θˆ 1 En términos generales, la razón de máxima verosimilitud tendrá la forma: k n− k k k µ − ∑ di 1 − µ 1 e θˆ0 i=1 θˆ θˆ θˆ 0 0 λ(µ) = 0 k 1 k n− k k di ˆ µ ˆ 1 −θˆ ∑ µ 1 − e i =1 θˆ θˆ θˆ 1 Utilizando la función λ( µ) se puede construir el intervalo de confianza buscando valores de µ que satisfagan: λ(µ) > e 1 − χ12−α ,1 2 Ilustración Seguidamente se muestran los resultados para las cotas analizadas en un análisis realizado sobre cuatro muestras (M1, M2, M3, M4) de tamaño n = 100 tomadas de una población de valor total monetario en libros Tx = 492.000.000, para un nivel de confianza del 95%. Los errores Di diferentes de 0 obtenidos en cada muestra, son los siguientes: M1 98,2% 52,2% 18,1% 7,0% 3,8% M2 71,2% 69,9% 31,4% 28,1% 3,1% M3 67,6% 67,0% 62,2% 15,1% 7,6% 3,1% M4 86,5% 75,3% 57,2% 56,5% 36,3% 10,2% 5,8% Tabla 1. Errores D i distintos de cero para las cuatro muestras Los resultados de las cotas CAV-beta paramétrica (CAV-β) y de la Razón de Máxima Verosimilitud (Cota-R) para el error total monetario se comparan con los obtenidos para las mismas muestras utilizando siete cotas CAV cuya expresión se muestra en el Anexo, y de las que un análisis comparativo de su comportamiento puede verse, por ejemplo, en Casas, Núñez, Zapardiel (1999): Cota-R CAV-β CAV-7 CAV-6 CAV-5 CAV-4 CAV-3 CAV-2 CAV-1 M1 M2 24.609.598 27.929.623 27.862.044 26.074.296 43.815.385 58.021.397 40.589.652 55.240.230 53.477.549 69.019.597 61.032.575 76.959.659 41.651.182 55.422.943 51.784.923 66.474.558 97.707.699 130.801.449 M3 27.539.929 31.604.749 32.111.120 28.213.605 40.130.090 45.903.701 28.960.558 39.087.116 68.646.174 M4 37.505.334 32.114.815 45.611.114 41.661.306 54.128.304 59.379.317 43.349.600 52.476.395 86.299.452 Tabla 2. Resultados comparativos de las cotas superiores de confianza para el error en términos monetarios, calculadas sobre las cuatro muestras Conclusiones En relación con la construcción de cotas de confianza para el error monetario total en Auditoría, una posibilidad la constituyen las cotas combinadas a través del análisis de la magnitud de los errores, como las que se muestran en el Anexo. Frente a este enfoque, se han presentado dos alternativas que trabajan sobre la base de la distribución de los errores, admitiendo que su estructura se adapta a una mixtura de tipo no estándar. Para ello, se opta por dos métodos diferentes de estimación paramétrica. En primer lugar, se introduce la cota CAV-β, obtenida a través del método bootstrap de replicación muestral en su vertiente paramétrica, y en segundo lugar la cota CAV-R, basada en el método de la razón de máxima verosimilitud, desarrollando el caso particular de errores exponenciales. Uno de los principales problemas que se presenta en la construcción de las cotas combinadas, es su exceso de conservadurismo, en el sentido de reflejar cantidades de error excesivamente ambiguas por su excesivo tamaño. A esta crítica podrían escapar únicamente las cotas CAV-3 y CAV-6, pero asumiendo planteamientos arriesgados dada su definición a través de la media, lo que implica, en ocasiones, que los niveles de confianza reales se sitúen incluso por debajo de los nominales, razón de su escasa utilización en el entorno auditor profesional. La principal ventaja que ofrece la obtención de cotas a través del planteamiento del error mediante una mixtura no estándar, radica en su robustez frente a las anteriores. Por otra parte, las cotas resultantes son menos conservadoras, como puede observarse en la aplicación desarrollada, de donde se deduce un menor tamaño en todos los casos, con la excepción de las cotas CAV-3 y CAV-6 para la muestra M3, pero a costa de sus inconvenientes ya apuntados en el párrafo anterior. En el resto de los casos, la diferencia entre el tamaño de CAV-R y CAV-β frente a los demás es bastante abultado, y no por ello se presenta mayor riesgo, ya que el error real observado en toda la población (previamente auditada al 100%) resultó ser inferior a todas las cotas calculadas, por lo que la aproximación más ajustada sería CAV-R en M1. Sin embargo, la diferencia de comportamiento de las cotas presentadas en las cuatro muestras extraídas, sugiere conductas dispares atendiendo a la distribución de la magnitud de los errores detectados en la muestra. Por ello, pese a la mejora proporcionada por estas cotas frente al resto, se hace necesario llevar a cabo un mayor esfuerzo para conocer su comportamiento en diversas modalidades de población, y profundizar de esta manera en el estudio de su fiabilidad en la práctica. Esta observación es aún más contundente en el caso de CAV-R, ya que la hipótesis de la distribución beta al utilizar el método bootstrap, se revela bastante más adaptable que la hipótesis exponencial desarrollada para el método de la razón de máxima verosimilitud. Referencias Casas, J.M., Núñez, J.J., Zapardiel, J.A. (1999). Comportamiento de las Cotas CAV en Auditoría Contable. Anales de Economía Aplicada. XIII Reunión ASEPELT España. Burgos. Efron, B., Tibshirani, R.J. (1993). An introduction to the Bootstrap. Chapman and Hall. New York. Goodfellow, J.L., Loebbecke, J.K., Neter, J. (1974-a). Some perspectives on CAV sampling plans. Part I. CA Magazine. October. 23-30. Goodfellow, J.L., Loebbecke, J.K., Neter, J. (1974-b). Some perspectives on CAV sampling plans. Part II. CA Magazine. November. 46-53. Kaplan, R.S. (1973-a). A stochastic model for auditing. Journal of Accounting Research. Spring. 38-46. Kaplan, R.S. (1973-b).Statistical sampling in auditing with auxiliary information estimators. Journal of Accounting Research. Autumn. 238-258. Kvanli, A.H., Shen, Y.K. Deng, L.Y. (1998). Construction of confidence intervals for the mean of a population containing many zero values. Journal of Business and Economic Statistics. 16. 3. 362-368. Tamura, H., Frost, P.A. (1986). Tightening CAV(DUS) bounds by using a parametric model. Journal of Accounting Research. Vol. 24. 2. 364-371. ANEXO Método de los Máximos Errores (CAV-1) CAV1 = Tx pu ( k ;1 − α) p u (k ;1 − α) es una cota superior de confianza para la proporción, utilizando la distribución Binomial, para k errores en la muestra in un coeficiente de confianza de 1 − α . Método de los Errores Ordenados (CAV-2) CAV 2 = Tx pu (0;1 − α) + Tx ∑ [ p u (i ;1 − α) − p u (i − 1;1 − α)] ⋅ d i k i =1 d1 ≥ d2 ≥ K ≥ dk Método del Error Medio (CAV-3) 1 k k ∑ d i d = i =1 1 CAV 3 = Tx p u (k ;1 − α) d Método de Goodfellow, Loebbecke y Neter (CAV-4) T n CAV 4 = Tx p u (k ;1 − α) − x ∑ (1 − d i ) ⋅ vi n i =1 k>0 k=0 0 t = 1 v= 1 t ≠ 1 n ∑v i i =1 Método de Stringer (CAV-5) T T k CAV 5 = x λu ( 0;1 − α) + x ∑ [λu ( i;1 − α) − λu (i − 1;1 − α)] ⋅ d i n n i =1 d1 ≥ d2 ≥ K ≥ dk Método de la Media Muestral para MUS (CAV-6) CAV 6 = Eˆ MUS + z1 −α Sˆ Eˆ MUS ( T Eˆ MUS = x n n ∑di i =1 T Sˆ 2 (Eˆ MUS ) = x n 2 d ′= n 1 − Tx ) 1 n (d i − d ′)2 ∑ n − 1 i =1 1 n ∑ di n i =1 Método de la Media Muestral Múltiple Expandida (CAV-7) CAV 7 = Eˆ MUS + CS Eˆ MUS ( ) np (1 − α; k ) kn C= u − 1 k n − k 1 2 =k