ࡱ > C E @ A B x z | ~ B q` a bjbjqPqP ?f : : , % 6 6 6 6 6 6 6 6 8 Ґ 6 : ~ Z " | | | W " y I K K K K K K $ X h V o i 6 B W W B B o 6 6 | | B , 6 | 6 | I B I h 6 6 | r w n L 0 M 8 . $ 6 1 . _ [ d ž l o o 8 X 1 1 1 B B B B 6 6 6 Z 6 6 6 6 6 6 6 6 6 6 6 6 CONTENIDO TOC \o "1-3" \h \z \u HYPERLINK \l "_Toc122491000" 1. Introduccin PAGEREF _Toc122491000 \h 3 HYPERLINK \l "_Toc122491001" 2. Conceptos fundamentales de estadstica para PLN PAGEREF _Toc122491001 \h 4 HYPERLINK \l "_Toc122491002" 2.1. Teorema de Bayes PAGEREF _Toc122491002 \h 4 HYPERLINK \l "_Toc122491003" 2.2. Teora de informacin PAGEREF _Toc122491003 \h 8 HYPERLINK \l "_Toc122491004" 3. Colocaciones PAGEREF _Toc122491004 \h 12 HYPERLINK \l "_Toc122491005" 4. Modelos sobre datos escasos PAGEREF _Toc122491005 \h 15 HYPERLINK \l "_Toc122491006" 4.1. Estimadores estadsticos PAGEREF _Toc122491006 \h 15 HYPERLINK \l "_Toc122491007" 4.1.1. Estimacin likelihood mxima (ELM) PAGEREF _Toc122491007 \h 15 HYPERLINK \l "_Toc122491008" 4.1.2. Ley de Laplace, ley Lidstone y ley Jeffreys-Perks PAGEREF _Toc122491008 \h 15 HYPERLINK \l "_Toc122491009" 4.1.3. Estimacin Good-Turing PAGEREF _Toc122491009 \h 16 HYPERLINK \l "_Toc122491010" 4.1.4. Notas breves PAGEREF _Toc122491010 \h 17 HYPERLINK \l "_Toc122491011" 4.2. Combinando estimadores PAGEREF _Toc122491011 \h 18 HYPERLINK \l "_Toc122491012" 4.2.1. Interpolacin lineal general PAGEREF _Toc122491012 \h 18 HYPERLINK \l "_Toc122491013" 5. Corpus Paralelos PAGEREF _Toc122491013 \h 19 HYPERLINK \l "_Toc122491014" 5.1. Descripcin de Textos Paralelos PAGEREF _Toc122491014 \h 19 HYPERLINK \l "_Toc122491015" 5.2. Caso de Uso: CLUVI Parallel Corpus PAGEREF _Toc122491015 \h 22 HYPERLINK \l "_Toc122491016" 6. Corpus Paralelo Alineado PAGEREF _Toc122491016 \h 27 HYPERLINK \l "_Toc122491017" 6.1. Descripcin de Textos Paralelos Alineados PAGEREF _Toc122491017 \h 27 HYPERLINK \l "_Toc122491018" 7. Niveles de Alineacin de Textos Paralelos PAGEREF _Toc122491018 \h 29 HYPERLINK \l "_Toc122491019" 8. Mtodos de Alineacin 30 HYPERLINK \l "_Toc122491020" 8.1. Mtodo Estadstico 30 HYPERLINK \l "_Toc122491021" 8.2. Mtodo Lingstico PAGEREF _Toc122491021 \h 33 HYPERLINK \l "_Toc122491022" 9. Marcacin de Textos Paralelos PAGEREF _Toc122491022 \h 36 HYPERLINK \l "_Toc122491023" 9.1. Programas de Marcacin PAGEREF _Toc122491023 \h 37 HYPERLINK \l "_Toc122491024" Bibliografa PAGEREF _Toc122491024 \h 39 Introduccin Un enfoque emprico del procesamiento del lenguaje natural (PLN), sugiere que podemos aprender la estructura complicada y extensa del lenguaje especificando un modelo general y apropiado del lenguaje e inducir los valores de los parmetros aplicando estadstica, reconocimiento de patrones y mtodos de aprendizaje de mquina hacia una larga cantidad de uso de lenguaje. Generalmente en la estadstica en el PLN, las personas actualmente no pueden trabajar observando una larga cantidad de uso de lenguaje situado dentro de su contexto en el mundo. En lugar de eso las personas simplemente usan textos y consideran el contexto textual como un sustituto, situando al lenguaje en un contexto del mundo real. La estadstica en PLN usa mtodos estocsticos, probabilsticos y estadsticos [Manning and Shutze, 1999], para resolver algunas dificultades, especialmente aquellos que surgen cuando las largas oraciones son altamente ambiguas, cuando se procesan con gramtica realista, produciendo miles o millones de anlisis posibles. La probabilidad es la rama de las matemticas que estudia los posibles resultados de eventos realizados, unidos con resultados relativos de distribuciones. La a palabra probabilidad, se usa para la posibilidad de un evento particular (o conjunto de eventos) que ocurrir, expresado en una escala lineal de 0 (imposible) a 1 (seguro), tambin expresado como porcentaje entre 0 y 100%. El anlisis de eventos regidos por probabilidad es llamado estadstica. Estocstico es sinnimo de aleatorio. La palabra griega significa pertenencia al cambio. Se usa para indicar que una materia particular es vista desde un punto de vista aleatorio. Los mtodos estadsticos son solo un avance en ingeniera prctica, una aproximacin hacia problemas difciles del lenguaje, que la ciencia aun no ha sido capaz de resolver. La estadstica es un enfoque del estudio del lenguaje. El enfoque de datos intensivos del lenguaje es conocido como anlisis de texto, tomando un enfoque pragmtico, apropiado para encontrarse con el nfasis reciente de evaluaciones numricas y expresiones concretas. Una parte del entendimiento del lenguaje es que la percepcin humana es probabilsticas por lo que el lenguaje es probabilistico tambin. El argumento del enfoque probabilistico es que vivimos en un mundo lleno de incertidumbre e informacin incompleta, para ser capaces de interactuar exitosamente con el mundo, necesitamos ser capaces de convivir con este tipo de informacin. Los hechos de que un lenguaje a menudo se ven un poco diferente dependiendo de si o no, uno es compresivo a un papel importante de mtodos cuantitativos en lingstica. En el presente informe presentamos varios mtodos estadsticos que se usan en el procesamiento de lenguaje natural y discutimos su uso para alineacin de los textos paralelos. Conceptos fundamentales de estadstica para PLN Una funcin probabilstica distribuye una masa de probabilidad de 1 a travs del espacio de muestra . P : f - [ 0 , 1 ] , t a l q u e : P ( ) = 1 . A d i t i v i d a d c o n t a b l e : S e a A j e f c o n j u n t o s d i s j u n t o s P E M B E D E q u a t i o n . 3 = E M B E D E q u a t i o n . 3 D o n d e P ( A ) e s l a p r o b a b i l i d a d d e l e v e n t o A . U n e s p a c i o p r o b a b i l i s t i c o c o n s i s t e d e u n e s p a c i o m u e s t r a l , u n c a m p o de eventos f y una funcin de probabilidad P. La probabilidad condicional es la probabilidad de un evento dado algn conocimiento. P(A|B) = EMBED Equation.3 Si P(B) = 0 tenemos que: EMBED Equation.3 = P(B)P(A|B) = P(A)P(B|A) y generalizando esta regla, tenemos la regla de la cadena: P(A1 EMBED Equation.3 ...... EMBED Equation.3 An) = P(A1)P(A2|A1)P(A3|A1 EMBED Equation.3 A2)...P(An | EMBED Equation.3 ) La probabilidad de un evento antes de que consideremos un conocimiento adicional es llamado probabilidad a priori, mientras que la nueva probabilidad que resulta de usar conocimiento adicional se llama probabilidad a posteriori. Teorema de Bayes El teorema de Bayes nos permite cambiar el orden de dependencia entre eventos. Esto es nos permite calcular P(B|A) en trminos de P(A|B). P(B|A)= EMBED Equation.3 = EMBED Equation.3 el denominador P(A) se puede ver como una constante de normalizacin. Teorema de Bayes: Si A EMBED Equation.3 , P(A)>0 y Bi EMBED Equation.3 Bj = EMBED Equation.3 para i EMBED Equation.3 j entonces: P(Bj|A) = EMBED Equation.3 = EMBED Equation.3 Esperanza y varianza La esperanza es el promedio de una variable aleatoria. Si X es una variable aleatoria con una funcin de probabilidad de masa (fpm) p(x), tal que EMBED Equation.3 < EMBED Equation.3 , entonces la esperanza es: E(X) = EMBED Equation.3 La varianza de una variable aleatoria es una medida, de si los valores de la variable aleatoria tienden a ser consistentes o varia mucho. Var(X) = EMBED Equation.3 = EMBED Equation.3 Distribucin condicional y compartida La funcin de probabilidad de masa compartida para dos variables aleatorias discretas X,Y es: p(x,y) = P(X = x , Y = y) Relacionado a una (fpm) compartida, de la cual la probabilidad de masas para los valores de cada variable separadamente es: EMBED Equation.3 EMBED Equation.3 Podemos definir una (fpm) condicional en trminos de la distribucin compartida: EMBED Equation.3 para y tal que EMBED Equation.3 Distribuciones Estndar Se refieren a la familia de funciones como una distribucin y el nmero que define los distintos miembros de la familia como parmetros. Distribucin discreta: Distribucin binomial La familia de distribuciones binomiales da el nmero r de sucesos exitosos de n ensayos, dado que la probabilidad de sucesos en algn ensayo es p: b(r; n,p) = EMBED Equation.3 EMBED Microsoft Equation 3.0 pr (1-p)n-r donde EMBED Microsoft Equation 3.0 = EMBED Equation.3 El trmino EMBED Microsoft Equation 3.0 cuenta el nmero de diferentes posibilidades para escoger r objetos de n, no considerando el orden en que son escogidos. Distribucin continua: Distribucin normal La distribucin normal tiene dos parmetros para el promedio m y la desviacin Estndar s, la curva es dada por: EMBED Equation.3 La curva donde m = 0 y s = 1, se denomina distribucin normal estndar. Usando estadstica para ajustar modelos probabilsticos a los datos Los modelos probabilsticos provn una abstraccin terica del lenguaje, parecido al modelo de competencia de Chomsky. Ellos son diseados para capturar los aspectos ms importantes del lenguaje e ignoran los menos importantes, donde lo que cuenta como importante, depende de la aplicacin. Estadstica se usa a menudo para estimar los valores de los parmetros en estos modelos probabilsticos. Estadstica Bayesiana Una funcin de densidad probabilstica (fdp) es cualquier funcin f(x) que describe la densidad de probabilidad en trminos de la variable de entrada x en la siguiente manera: f(x) es mayor o igual que cero, para todos los valores de x El rea total bajo la grfica es 1. EMBED Equation.3 La probabilidad puede entonces ser calculada, tomando la integral de la funcin f(x) por el intervalo de integracin de la variable x. Estimacin Maximum Likelihood (EML) Si x es una variable continua aleatoria con una (fdp) EMBED Equation.3 donde son k parmetros constantes desconocidos, que necesitan ser estimados, realizando un experimento y obtiene N observaciones independientes, , los cuales corresponden a veces de fallo de anlisis. La funcin likelihood esta dada por: EMBED Equation.3 La funcin logartmica es: EMBED Equation.3 El estimador maximum likelihood (EML) de es obtenido por maximizar L o . Al maximizar , es ms fcil trabajar con L, el (EML) de son las soluciones simultaneas de k ecuaciones tal que: EMBED Equation.3 El mtodo de EML es independiente de cualquier tipo de rango. El mtodo EML usando distribucin normal Para obtener la EML para la media y la desviacin estndar, , para la distribucin normal, empezamos con la fdp de la distribucin normal que es dada por: EMBED Equation.3 Si son las veces fallo conocidas, entonces la funcin likelihood esta dada por: EMBED Equation.3 EMBED Equation.3 entonces EMBED Equation.3 Tomando las derivadas parciales de con respecto a cada uno de los parmetros con respecto a cada uno de los parmetros y ajustndolos todos iguales cero obtenemos EMBED Equation.3 EMBED Equation.3 EMBED Equation.3 Y EMBED Equation.3 Resolviendo las ecuaciones anteriores simultneamente obtenemos EMBED Equation.3 Y EMBED Equation.3 EMBED Equation.3 Probabilidad Marginal Sea S particionado en conjuntos disjuntos en EMBED Equation.3 , sean los conjuntos disjuntos Ei y Fj donde el subconjunto general es denotado por EMBED Equation.3 . Entonces la probabilidad marginal de es: Teora de decisin Bayesiana La teora m, es una familia de modelos con un parmetro que representa el peso. Ahora intentemos resolver que teora es mas parecida dado, los datos vistos. Usando el teorema de Bayes obtenemos: EMBED Equation.3 EMBED Equation.3 La teora mm fue verdadera y slo tratamos de determinar m, mientras que P(s) es la probabilidad anterior de s, desconociendo si m es verdadero o falso. Podemos calcular la razn de likelihood entre estos dos modelos: EMBED Equation.3 Teora de informacin Cmo podemos decidir si un modelo de lenguaje es mejor que otro? En 1940 Claude Shannon, defini entropa como una medida del contenido de informacin en una fuente probabilstica usada para cuantificar los conceptos como ruido, redundancia, capacidad de un canal de informacin y la eficiencia de un cdigo. Entropa La entropa es el promedio de incertidumbre de una simple variable aleatoria: H(p) = H(x)= EMBED Equation.3 La unidad estndar de la entropa es el bit o dgito binario. Note que: EMBED Microsoft Equation 3.0 EMBED Microsoft Equation 3.0 slo cuando el valor de X es determinado. La entropa incrementa con la longitud del mensaje. Entropa compartida y entropa condicional La entropa compartida de un par de variables discretas aleatorias X,Y ~ p(x,y) es la cantidad de informacin necesaria en promedio para especificar ambos valores. Es definida como: H(X,Y) = EMBED Microsoft Equation 3.0 La entropa condicional de una variable aleatoria discreta Y dado X, para X,Y~p(x,y), expresa cuanta informacin extra es necesaria para suministrar un promedio para comunicar Y, dado la parte conocida X. H(Y|X) = EMBED Microsoft Equation 3.0 H(Y|X) = EMBED Microsoft Equation 3.0 = EMBED Microsoft Equation 3.0 Existe una regla de la cadena para entropa H(X|Y) = H(X) + H(Y|X) H(X1,.....,Xn) = H(X1) + H(X1|X2) + ...+ H(Xn| X1,.....,Xn-1) Informacin mutua Por la regla de la cadena para entropa H(X|Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) por lo tanto H(X) - H(X|Y) = H(Y) - H(Y|X) Esta diferencia es llamada la informacin mutua entre X e Y. Esta es reduccin de incertidumbre de una variable aleatoria debido al conocimiento de otra. Esta es 0 solo cuando dos variables son independientes. Para dos variables independientes, informacin mutua crece no solo con el grado de dependencia, si no de acuerdo a la entropa de las variables. El uso simple aritmtica nos da, las siguientes frmulas de informacin mutua I(X;Y): I(X;Y) = H(X)-H(X|Y) = H(X)+H(Y)-H(X,Y) = EMBED Microsoft Equation 3.0 = EMBED Microsoft Equation 3.0 El modelo del canal ruidoso El propsito es optimizar en trminos de rendimiento y exactitud en la comunicacin de mensajes, en presencia de un canal ruidoso. En general hay una dualidad entre compresin, la cual es llevada a cabo al sumar redundancia controlada, por lo que la entrada puede ser recuperada en presencia de ruido. El concepto central que caracteriza un canal, en la teora de la informacin es su capacidad. La capacidad del canal puede ser determinada en trminos de informacin mutua de la siguiente manera: C = EMBED Microsoft Equation 3.0 (X;Y) El modelo de canal ruidoso es importante en estadstica de PLN, por que una versin simplificada fue el meollo del renacimiento del PLN cuantitativo. Entropa relativa o divergencia Kullback-Leibler Para dos fmp p(x),q(x), su relativa entropa tambin llamada divergencia Kullbac-Leibler (KL) esta dada por: D(p||q) = EMBED Microsoft Equation 3.0 Expresada como una esperanza, tenemos: D(p||q) = Ep EMBED Microsoft Equation 3.0 entonces la divergencia KL entre p y q es el nmero promedio de bits desaprovechados al codificar eventos desde una distribucin p con un cdigo basado en una mala distribucin q. Relacin al lenguaje: Entropa cruzada La entropa cruzada es un criterio para medir la capacidad de un modelo de lenguaje, para predecir una fuente de datos. No importa que tan bueno sea el modelo del lenguaje, la entropa cruzada no puede ser reducida por debajo de un lmite inferior, conocida como entropa de la fuente. Tambin se puede pensar en la entropa cruzada entre un modelo de lenguaje y una fuente probabilstica, como el nmero de bits necesarios en promedio para codificar un smbolo de la fuente cuando se asume errneo, esto hace que el modelo de lenguaje, sea una caracterizacin probabilstica perfecta de la fuente. Por lo que existe una conexin cerrada entre un modelo de lenguaje y un esquema de codificacin. La entropa cruzada H, de un cdigo y una fuente esta dada por: H(fuente,cdigo) = EMBED Microsoft Equation 3.0 donde p(f,h | fuente) es la probabilidad compartida de un smbolo s, seguido de una historia h dada la fuente y p(s | h,cdigo) es la probabilidad condicional de s dada la historia (contexto) h y el cdigo. En casos ms difciles, la entropa cruzada es estimada por un procedimiento de muestreo. Dos muestras independientes de la fuente son completadas: S1 y S2. La primera muestra S1, es usada para ajustar los valores de los parmetros del cdigo y la segunda muestra es usada para probar el ajuste. Podemos definir la entropa cruzada de un lenguaje L = (Xi)~p(x) de acuerdo a un modelo m : H(L,m) = EMBED Microsoft Equation 3.0 Colocaciones Un caso muy importante e interesante desde punto de vista estadstico son colocaciones. Una colocacin es una expresin que consiste de dos o ms palabras que corresponden a alguna manera convencional de decir las cosas. Las colocaciones estn caracterizadas por una composicionalidad limitada. Existe un traslape entre los conceptos de colocacin y nociones como trmino, trmino tcnico y frase terminolgica. Los ltimos tres trminos son utilizados cuando las colocaciones son extradas de dominios tcnicos. Frecuencia El mtodo mas simple para encontrar colocaciones en un corpus de texto es contando. Si dos palabras ocurren unidas, entonces existe una evidencia que tienen una funcin especial. Existe sin embargo una heurstica simple que mejora estos resultados, se trata de pasar las frases candidatas a travs de filtros de parte del habla los cuales slo pasan los patrones parecidos a frases. Media y varianza Una manera de descubrir la relacin entre palabras es calcular la media y la varianza de los desplazamientos entre las palabras del corpus. La varianza mide que tan alejados estn de la media. Estimamos de la forma siguiente: EMBED Equation.3 Donde n es el nmero de veces que las dos palabras co-ocurren, EMBED Equation.3 es el desplazamiento de la ocurrencia EMBED Equation.3 y EMBED Equation.3 es la muestra media de los desplazamientos. Si el desplazamiento es el mismo en todas las clases, entonces la varianza es 0. La media y la desviacin caracterizan la distribucin de distancia entre dos palabras en un corpus. Podemos usar esta informacin para descubrir colocaciones mirando pares con baja desviacin. Una alta desviacin indica que dos palabras no estn en una relacin interesante. Prueba de hiptesis Valoracin si o no algo es un evento oportuno, es uno de los problemas clsicos de la estadstica. Esto usualmente tiende en trminos de prueba de hiptesis. Formulamos una hiptesis nula EMBED Equation.3 , sin asociacin entre las palabras ms all de las oportunidades de ocurrencias, calculamos la probabilidad p de que el evento pudiera ocurrir si EMBED Equation.3 es verdadero y entonces rechazar EMBED Equation.3 si p es demasiado bajo y retener EMBED Equation.3 como sea posible. Para aplicar la metodologa de prueba de hiptesis necesitamos formular una hiptesis nula que sus estados puedan ser verdaderos si dos palabras no forman una colocacin. Para tales combinaciones de palabras libres, asumimos que las palabras EMBED Equation.3 y EMBED Equation.3 es generada completamente independiente de los otros y la oportunidad de que vengan juntos es simplemente dada por: EMBED Equation.3 El modelo implica que la probabilidad de co-ocurrencias es solo el producto de probabilidades de palabras individuales. La prueba t La prueba t mira la media y la varianza de una muestra de medidas. La prueba busca la diferencia entre la varianza esperada y la observada a escala por la varianza de los datos y dice que tan parecido es al obtener una muestra de media y de varianza asumiendo que la muestra es extrada de una distribucin con media EMBED Equation.3 (hiptesis nula). Calculamos la estadstica t: EMBED Equation.3 donde EMBED Equation.3 es la media de la muestra, EMBED Equation.3 es la varianza de la muestra, N es el tamao de las muestra y EMBED Equation.3 es la media de la distribucin. Prueba de Pearson chi-cuadrada La prueba EMBED Equation.3 es aplicada a tablas 2 por 2. La esencia de la prueba es comparar las frecuencias observadas en la tabla con las frecuencias esperadas por independencia. La estadstica EMBED Equation.3 suma las diferencias entre valores observados y esperados en todos los cuadrados de la tabla, escalados por la magnitud de los valores esperados: EMBED Equation.3 donde i oscila entre los renglones de la tabla, j oscila entre las columnas, Oij son los valores de la clula (i,j) observados y Eij es el valor esperado. Si los nmeros son extensos, entonces X2 tiene una distribucin EMBED Equation.3 . La frecuencia esperada Eij es calculada desde la probabilidad marginal. La prueba EMBED Equation.3 es apropiada para largas probabilidades, para cual la suposicin de normalidad de la prueba t falla. Esta es quiz la razn que la prueba EMBED Equation.3 sea aplicada a un amplio rango de problemas en el descubrimiento de colocaciones. Una aplicacin interesante de EMBED Equation.3 es una mtrica para similaridades entre corpus. Likelihood ratios Likelihood ratio es mas interpretable que la estadstica EMBED Equation.3 . Este es un simple nmero que dice que tan parecido es una hiptesis de otra. En aplicaciones de likelihood ratio prueba el descubrimiento de colocaciones. En aplicacin de prueba de likelihood ratio probamos el descubrimiento de colocaciones, examinando las siguientes dos alternativas de explicaciones para la frecuencia de ocurrencias de un bigrama w1w2 (Dunning 1993): Hiptesis 1. EMBED Equation.3 Hiptesis 2. EMBED Equation.3 Hiptesis 1 es una formalizacin de independencia, hiptesis 2 es una formalizacin de dependencia, que es evidencia de una colocacin interesante. Informacin mutua La informacin mutua entre eventos particulares x e y, es la siguiente: EMBED Equation.3 En teora de informacin, informacin mutua es definida como la participacin entre variables aleatorias. Podemos decir que la informacin mutua es una buena medida de independencia. Valores cercanos a 0 indican independencia. Pero es una mala medida de dependencia, debido a que la dependencia marca dependencia en las frecuencias de palabras individuales. Modelos sobre datos escasos En general la inferencia estadstica consiste en tomar algunos datos y hacer unas inferencias acerca de la distribucin. La tarea de modelacin de lenguaje es predecir la siguiente palabra dada la palabra previa. Estimadores estadsticos Estimacin likelihood mxima (ELM) ELM desde frecuencias relativas A pesar de cmo formamos las clases de equivalencia, terminaremos sujetando aquellos que contienen un cierto nmero de instancias de entrenamiento. La pregunta es que estimacin de probabilidad debemos usar para estimar la siguiente palabra. La primera repuesta obvia sera sugerir el uso de frecuencia relativa como una probabilidad estimada. Esta estimacin es llamada la estimacin likelihood mxima (ELM): EMBED Equation.3 EMBED Equation.3 Si uno fija los datos observados y considera el espacio de toda la asignacin de parmetros posibles dentro de una cierta distribucin dado los datos, los estadsticos se refieren a esto como funcin likelihood. La estimacin likelihood mxima es llamada as por que se escoge el valor del parmetro con la probabilidad ms alta del corpus entrenado. La ELM asigna una probabilidad 0 a eventos ocultos y desde que la probabilidad de una cadena larga es generalmente calculada al multiplicar las probabilidades de subpartes, estos ceros se propagarn y nos darn malas estimaciones para la probabilidad de oraciones. Ley de Laplace, ley Lidstone y ley Jeffreys-Perks Ley de Laplace Este proceso es a menudo referido como la suma uno y tiene el efecto de dar un pequeo bit del espacio de probabilidad para eventos ocultos. Sin embargo, note esta estimacin que da la ley de Laplace, es dependiente del tamao del vocabulario. EMBED Equation.3 Ley Lidstone y ley Jeffreys-Perks Una solucin adoptada al problema de estimacin multinomial dentro de la prctica estadstica es la ley Lidstone de sucesin, donde no aumentamos un 1, pero algunos valores positivos pequeos EMBED Equation.3 : EMBED Equation.3 Este mtodo se puede ver como una interpolacin lineal entre la estimacin ELM y el anterior uniforme. Esto puede ser visto asignando EMBED Equation.3 : EMBED Equation.3 En prctica esto ayuda. Por ejemplo, podramos evitar la objecin acerca, de dos mas de lo que fue el espacio de probabilidad, dado a eventos ocultos, escogiendo un pequeo EMBED Equation.3 . Pero sobran dos objeciones: (i) necesitamos una buena manera de adivinar un valor apropiado para EMBED Equation.3 y (ii) descontar usando la ley de Lidstone, siempre da una probabilidad de estimacin lineal en la frecuencia ELM y esto no es una buena combinacin, para la distribucin emprica en bajas frecuencias. Estimacin Good-Turing El estimador Good-Turing Good (1953) atribuye a Turing un mtodo, para determinar la frecuencia o estimacin de la probabilidad de artculos, con la suposicin de que su distribucin es binomial. Este mtodo es conveniente para un nmero grande de observaciones de datos obtenidos desde un vocabulario grande. La probabilidad estimada Good-Turing es de la forma EMBED Equation.3 donde EMBED Equation.3 , puede ser una frecuencia ajustada. El teorema esencial Good-Turing, da los mtodos para artculos observados previamente: EMBED Equation.3 Donde E denota la esperanza de una variable aleatoria, La masa de probabilidad total reservada para objetos ocultos es: EMBED Equation.3 . Usando nuestra estimacin emprica, podemos desear sustituir los observados Nr, por E(Nr). Sin embargo, no podemos hacer esto uniformemente, desde que estas estimaciones empricas sern poco fiables, para valores altos de r. Palabras de baja frecuencias son numerosas, entonces la sustitucin de las frecuencias observadas en frecuencias para esperanza es bastante acertada, mientras que la estimacin LME de palabras de frecuencias altas ser tambin bastante acertada y entonces no es necesario descontar ellos. La otra es ajustar alguna funcin S a travs de los valores observados de (r,Nr) y usar los valores suaves S(r) para la esperanza. La masa de probabilidad EMBED Equation.3 dado a artculos ocultos, puede ser cualquiera dividida uniformemente entre ellos o por un mtodo ms sofisticado. Entonces usando este mtodo con una estimacin uniforme, para eventos ocultos, tenemos: Estimador Good-Turimg: Si EMBED Equation.3 EMBED Equation.3 donde EMBED Equation.3 Si EMBED Equation.3 EMBED Equation.3 Gale y Sampson (1995) presenta un simple y efectivo enfoque, simple Good-Turing, con una efectiva combinacin de estos dos enfoques. Como una curva suave, ellos simplemente usan una curva EMBED Equation.3 (con EMBED Equation.3 para dar la relacin hiperblica apropiada), y estimar A y b con una simple regresin lineal en forma logartmica de esta ecuacin EMBED Equation.3 . Sin embargo ellos sugieren que tales curvas simples, son probablemente apropiadas para altos valores de r. Para valores bajos de r ellos usan la medida Nr directamente. Bajo alguno de estos enfoques, es necesario renormalizar todas las estimaciones para asegurar un resultado correcto en distribucin de probabilidad. Notas breves Ney y Essen (1993), propusieron dos modelos rebajados, en el modelo de rebaja absoluta, todas las frecuencias ELM son rebajadas por una constante pequea EMBED Equation.3 y la frecuencia obtenida es uniformemente distribuida sobre eventos ocultos: Rebaja absoluta: Si EMBED Equation.3 EMBED Equation.3 En el mtodo de rebaja lineal, las frecuencias ELM no cero, son escaladas por una constante menor que uno y la masa de probabilidad restante es otra vez distribuida a travs de eventos novedosos: Rebaja lineal: Si EMBED Equation.3 EMBED Equation.3 Estas estimaciones son equivalentes al frecuente traslado de ingeniera de hacer la probabilidad de eventos ocultos de algn nmero pequeo EMBED Equation.3 en vez de 0 y entonces volver a escalar las otras posibilidades que an suman 1, la eleccin entre ellos dependen de si las otras posibilidades son escaladas al sustraer o multiplicar por una constante. Combinando estimadores En esta seccin consideramos el problema ms general de cmo combinar mltiples probabilidades estimadas de diferentes modelos. Si tenemos varios modelos de cmo la historia predice el siguiente, entonces deseamos, combinarlos para producir un mejor modelo. Una idea deficiente para hacer esto sera suavizar o simplemente combinar diferentes fuentes de informacin. Interpolacin lineal general En la interpolacin lineal simple, los pesos son slo un nmero, pero uno puede definir un modelo ms general y poderoso, donde los pesos son funcin de la historia. Para k funciones de probabilidad Pk la forma general para el modelo de interpolacin lineal es: EMBED Equation.3 donde EMBED Equation.3 Interpolacin lineal es comnmente usada por que es una manera muy general de combinar modelos. Aleatoriamente sumando en modelos dudosos para una interpolacin lineal necesaria, no haciendo dao siempre que uno encuentre un buen peso para el modelo usando el algoritmo ME. Pero la interpolacin lineal puede hacer un mal uso de los componentes del modelo, especialmente si no hay un particionamiento de las historias con diferentes pesos usados para diferentes tipos de historias. En general los pesos no son asignados de acuerdo a historias individuales. Entrenando un distinto EMBED Equation.3 para cada EMBED Equation.3 no es en general afortunado, por que empeorar el problema de datos poco densos. Ms bien uno quiere usar algn tipo de clase de equivalencia de estas historias. Corpus Paralelos Descripcin de Textos Paralelos Aun cuando gran parte de las investigaciones en PLN tiene que ver con corpus monolinges, otras investigaciones hacen uso de textos en diversas lenguas, los que en conjunto reciben el nombre de corpus multilinges. Cuando dichos corpus se conforman de textos que solamente consideran dos lenguas se habla de corpus bilinges. Y cuando los textos que conforman al corpus son parejas de textos tales que uno es una traduccin del otro, se dice entonces que los textos son paralelos y el corpus formado recibe el nombre de corpus paralelo. La REF _Ref116076466 \h Tabla 1 muestra un ejemplo de lo que debera ser un par de textos paralelos. Tabla SEQ "Tabla" \*ARABIC 1. Ejemplo de textos paralelos Texto en espaolTexto en inglsAlicia empezaba ya a cansarse de estar sentada con su hermana a la orilla del ro, sin tener nada que hacer: haba echado un par de ojeadas al libro que su hermana estaba leyendo, pero no tena dibujos ni dilogos. Y de qu sirve un libro sin dibujos ni dilogos?, se preguntaba Alicia.Alice was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do: once or twice she had peeped into the book her sister was reading, but it had no pictures or conversations in it, `and what is the use of a book,' thought Alice `without pictures or conversation?' Estos corpus pueden ser una herramienta muy til para estudios de traduccin y comparacin, para la lexicografa bilinge y hasta para propsitos educativos. Un par de textos paralelos puede permitirle a un usuario saber como puede ser traducida una palabra o expresin dentro de un contexto dado al revisar ambos textos. En ocasiones, se puede observar que una palabra no es traducida a otra de acuerdo a como lo indicara un diccionario, sino que puede ser traducida a otra palabra que pareciera no tener relacin pero que, dentro del contexto de la traduccin, es la ms conveniente. Mediante el uso de algunas herramientas enfocadas a la bsqueda de concordancias en los textos, tales como ParaConc REF Barlow_1995 \h [Barlow, 1995] y MultiConcord (http://artsweb.bham.ac.uk/pking/multiconc/l_text.htm), y procesando pares de textos paralelos, es posible encontrar ejemplos de uso de algunas formas gramaticales, estilos de traduccin, traducciones entre expresiones idiomticas o colocaciones (Alicia ech a correr como el viento vs away went Alice like the wind) y otros aspectos ms. Una concordancia es el o los empates encontrados, en uno de los textos paralelos, de un patrn de bsqueda determinado. Adems de indicar en el texto el patrn encontrado, presenta el otro texto paralelo tratando de sealar la traduccin correspondiente al patrn de bsqueda. Por ejemplo, dados los textos paralelos mostrados en la REF _Ref116076466 \h Tabla 1, al usuario le podra interesar conocer la traduccin de la frase sin tener nada que hacer, al dar este patrn de bsqueda, obtendra un resultado como el presentado en la REF _Ref117680927 \h Tabla 2. El texto anterior y posterior a la concordancia recibe el nombre de contexto. Tabla SEQ Tabla \* ARABIC 2. Ejemplo de concordancia Alicia empezaba ya a cansarse de estar sentada con su hermana a la orilla del roAlice was beginning to get very tired of sitting by her sister on the bank, and ofSin tener nada que hacerhaving nothing to do: haba echado un par de ojeadas al libro que su hermana estaba leyendo: once or twice she had peeped into the book her sister was reading Para que un programa como ParaConc REF Barlow_1995 \h [Barlow, 1995] tenga xito en la bsqueda y anlisis es fundamental que los textos estn alineados. De acuerdo a REF Barlow_1995 \h [Barlow, 1995], la nica informacin que el software tiene sobre las relaciones entre los elementos de los diferentes lenguajes es la alineacin, esto quiere decir que no hace uso de diccionarios bilinges o alguna otra ayuda lingstica. Los textos paralelos alineados generalmente estn etiquetados, de manera que la informacin del alineado mismo est contenida en las etiquetas. Los programas que manipulan estos textos toman la informacin referente a la alineacin de estas etiquetas. En la REF _Ref117741804 \h Tabla 3 mostramos un ejemplo de un texto paralelo alineado y etiquetado, obsrvese que la informacin de la alineacin se almacena en un campo denominado Ali. Tabla SEQ Tabla \* ARABIC 3. Texto paralelo alineado etiquetado Texto en espaolTexto en ingls
< s id_SRC = SRCs1.1 Ali = TRGs1.1> Lewis Carroll
< p id_SRC = SRCp2 Ali = TRGp2> < s id_SRC = SRCs2.1 Ali = TRGs2.1> Alicia en el pas de la maravillas < p id_SRC = SRCp3 Ali = TRGp3> < s id_SRC = SRCs3.1 Ali = TRGs3.1> CAPTULO I EN LA MADRIGUERA DEL CONEJO < p id_SRC = SRCp4 Ali = TRGp4> < s id_SRC = SRCs4.1 Ali = TRGs4.1> Alicia empezaba ya a cansarse de estar sentada con su hermana a la orilla del ro , sin tener nada que hacer : < s id_SRC = SRCs4.2 Ali = TRGs4.1> Haba echado un par de ojeadas al libro que su hermana estaba leyendo , pero no tena dibujos ni dilogos . < s id_SRC = SRCs4.3 Ali = TRGs4.1> Y de qu sirve un libro sin dibujos ni dilogos ? , se preguntaba Alicia . < p id_TRG = TRGp1 Ali = SRCp1>. Existen diversos proyectos enfocados a investigar y desarrollar herramientas utilizadas para la marcacin de textos. Algunos de estos proyectos son: Penn Treebank (HYPERLINK "http://www.cis.upenn.edu/~treebank/home.html"http://www.cis.upenn.edu/~treebank/home.html) AMALGAM (HYPERLINK "http://www.scs.leeds.ac.uk/amalgam/amalgam/amalghome.htm"http://www.scs.leeds.ac.uk/amalgam/amalgam/amalghome.htm) MITRE (HYPERLINK "http://www.mitre.org/"http://www.mitre.org/) Annotation.org (HYPERLINK "http://www.annotation.org/"http://www.annotation.org/) Tambin han surgido algunas herramientas de marcacin de textos, entre las cuales tenemos: WordFreak (HYPERLINK "http://www.annotation.org/"http://www.annotation.org/). ACE tools. Automatic Content Extraction (ACE): Annotation Tools (HYPERLINK "http://www.ldc.upenn.edu/Projects/ACE/Tools/"http://www.ldc.upenn.edu/Projects/ACE/Tools/). Alembic Workbench (HYPERLINK "http://www.mitre.org/tech/alembic-workbench/"http://www.mitre.org/tech/alembic-workbench/). Programas de Marcacin Actualmente podemos encontrar algunos proyectos en los que se han implementado herramientas para la marcacin de textos. Estas herramientas pueden ser obtenidas para diferentes plataformas, como Windows y Linux. Se presenta una lista de algunas de las herramientas encontradas. WordFreak. WordFreak es una herramienta de anotacin lingstica basada en java, provista por el grupo annotation.org. Esta empresa desarrolla herramientas para la anotacin, manual y automtica, de textos (HYPERLINK "http://www.annotation.org/"http://www.annotation.org/). ACE tools. Automatic Content Extraction (ACE): Annotation Tools, herramienta desarrollada por el Consorcio de Datos Lingsticos (LDC, Linguistic Data Consortium) (HYPERLINK "http://www.ldc.upenn.edu/Projects/ACE/Tools/"http://www.ldc.upenn.edu/Projects/ACE/Tools/). Alembic Workbench. Esta herramienta, desarrollada por la empresa MITRE, se enfoca al desarrollo de corpus etiquetados. El sistema Alembic, que ser revisado en este trabajo, habilita la adquisicin automtica de heursticas de etiquetado especficas al dominio del texto (HYPERLINK "http://www.mitre.org/tech/alembic-workbench/"http://www.mitre.org/tech/alembic-workbench/). Estas herramientas fueron revisadas para conocer la manera en la que llevan a cabo el procesamiento de los textos. Nuestro principal inters es conocer el tratamiento que reciben los textos enfocados a corpus paralelos para su posterior alineacin. En la fase de desarrollo de nuestro sistema implementamos un software enfocado al etiquetado de las oraciones y prrafos de los textos de nuestro corpus. Bibliografa [Barlow, 1995]: Barlow, M. 1995. ParaConc: A Concordancer for Parallel Texts. In Computers & Texts, 10. pp. 14 16. [Bolshakov & Galicia, 2002]: Bolshakov, I. O. & Galicia, H. S. N. 2002. Frasemas con como en espaol. 8th Iberoamerican Conference on Artificial Intelligence, Multilingual Information Access and Natural Language Processing, (Sevilla, Espaa). [Brown et al, 1990]: Brown, P. F., Cocke, J., Pietra, S.D., Pietra, V. J. D., Jelinek, F., Lafferty, J. D., Mercer, R. L., and Roossin, P. S. 1990. A statistical approach to machine translation. Computational Linguistics, 16:2, pp. 79 85. [Brown et al, 1991]: Brown, P. F., Lai, J. C. & Mercer, R. L. 1991. Aligning Sentences in Parallel Corpora. In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, (Berkeley, California), pp 169 176. [Castro et al, 2004A]: Castro, S. N. A., Vera, F. J. A., Bolshakov, I. A. 2004. Descripcin formal de Secuencias Nominales Hispanas. Recientes Avances en la Ciencia de la Computacin. pp. 105 116. [Castro et al, 2004B]: Castro, S. N. A., Vera, F. J. A., Bolshakov, I. A. & Sidorov, G. 2004. Representation of Names Sequences in Spanish using Context Free Grammar. Advances in: Artificial Intelligence, Computing Science and Computer Engineering. pp. 157 164. [Chen, 1993]: Chen, S. F. Aligning Sentences in Bilingual Corpora Using Lexical Information. 1993. Proceedings of the 31st Annual Meeting of the Association for Computational Linguistics, (Columbus, Ohio). pp. 9-16. [Fuentes, 2003]: Fuentes, J. L. Gramtica Moderna de la Lengua Espaola. 2003. Editorial Limusa. [Gale & Church, 1991]: Gale, W. A. & Church, K. W. 1991. A program for Aligning Sentences in Bilingual Corpora. In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, (Berkeley, California), pp. 177 184. [Gelbukh et al, 2004]: Gelbukh A., Sidorov G., Han S. Y., Hernandez-Rubio E. 2004. Automatic syntactic analysis for detection of word combinations. Computational Linguistics and Intelligent Text Processing (CICLing-2004), Lecture Notes in Computer Science, N 2945, Springer-Verlag, pp. 240 244. [Hassel, 2001]: Hassel, M. 2001. Internet as Corpus Automatic Constuccion of a Swedish News Corpus. Technical report TRITA-NA-P0117. [McEnery & Oakes, 1996]: McEnery, A. M. & Oakes, M. P. 1996. Sentence and word alignment in the CRATER project. in J. Thomas & M. Short (eds), Using Corpora for Language Research, (London). pp. 211 231. [Melcuk, 2001]: Melcuk, Igor. 2001. Fraseologa y diccionario en la lingstica moderna. En: Isabel Uzcanga Vivar et al. (eds.) Presencia y renovacin de la lingstica francesa. Salamanca. pp. 267 310. [Mikhailov, 2001]: Mikhailov, M. 2001. Two A p p r o a c h e s t o A u t o m a t e d T e x t A l l i g n i n g o f P a r a l l e l F i c t i o n T e x t s . A c r o s s L a n g u a g e s a n d C u l t u r e s , 2 : 1 , p p . 8 7 9 6 . [ M i k h a i l o v , 2 0 0 3 ] : M i k h a i l o v , M . 2 0 0 3 . P a r a l l e l C o r p u s A l i g n i n g : I l l u s i o n s a n d P e r s p e c t i v e s . { S t y k o v k a p a r a l l e l n y h t e k s t o v v a v t o m a t i e s k o m r e ~i m e : i l l j u z i i i p e r s p e k t i v y ( T e x t a l i g n m e n t - - i l l u s i o n s a n d p e r s p e c t i v e s ) . N a u n o - t e h n i e s k a j a i n f o r m a c i j a , S e r j i a 2 , v y p . 1 0 . M o s k v a : V I N I T I , 2 0 0 3 . } [ M a n n i n g a n d S h u t z e , 1 9 9 9 ] M a n n i n g , A . a n d H . S h u t z e . S t a t i s t i c a l N a t u r a l L a n g u a g e P r o c e s s i n g , 1 9 9 9 . [Mikheev, 2000]: Mikheev, A. Tagging sentence boundaries. 2000. In Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics NAACL'2000. [Palmer & Hearst, 1997]: Palmer, D. D. and Hearst, M. A. 1997 Adaptative Multilingual Sentence Boundary Disambiguation. In Computational Linguistics, 23:2, pp. 241 267. [Reynar & Ratnaparkhi, 1997]: Reynar, J. C. & Ratnaparkhi, A. 1997. A Maximum Entropy Approach to Identifying Sentence Boundaries. In Proceedings of the 5th ACL Conference on Applied Natural Language Processing, (Washington, D. C.). [Simard et al, 1992]: Simard, M. Foster, G. & Isabelle, P. 1992. Using Cognates to Align Sentences in Bilingual Corpora. In Proceedings of the 4th International Conference on Theoretical and Methodological Issues in Machine Translation, (Montreal, Canada). [Sporleder & Mirilla, 2004]: Sporleder, C. & Mirella, L. 2004. Automatic Paragraph Identification: A Study across Languages and Domains. In Proceedings of the Con " # $ % A B C D F G S T U o p q r s t u v w |wɖc 'j hbA h% >*B*Uph hP j} h Uj h% U h% #h% 5;OJ PJ QJ \^J aJ 'j hbA h% >*B*Uph h% hbA h% 0J j hbA h% 0J Uhj` CJ aJ j hj` CJ UaJ hj` 5CJ aJ hj` hj` 5CJ aJ # u B T " V s F ] p .! .! $gds@ ` a ! " < = > ƳlaRaAR jq h UmH nH u j h% UmH nH uh% mH nH u +h% 5CJ PJ \aJ mH nH sH tH u2j hbA h% >*B*UmH nH ph u h% mH nH uhbA h% 0J mH nH u$j hbA h% 0J UmH nH u #h% 5;OJ PJ QJ \^J aJ j hbA h% 0J U hP j h% U jw h U > ? @ A B C D ` a b c g h } ~ ӽӯӯpӽcZVZ h% hbA h% 0J j hbA h% 0J U jk h UmH nH u h% mH nH u 2j hbA h% >*B*UmH nH ph u h% mH nH uhbA h% 0J mH nH u+h% 5CJ PJ \aJ mH nH sH tH u$j hbA h% 0J UmH nH u j h% UmH nH uhP mH nH u 1 2 3 M N O Q R S T U V վՠՌվn` hbA h% 0J mH nH u$j hbA h% 0J UmH nH u j_ h U'j hbA h% >*B*Uph h% hP je h Uj h% U h% #h% 5;OJ PJ QJ \^J aJ hbA h% 0J j hbA h% 0J U'j hbA h% >*B*Uph "V r s t u y z λ蚋zoUB %h% CJ PJ aJ mH nH sH tH u2j hbA h% >*B*UmH nH ph u hP mH nH u jY h UmH nH u j h% UmH nH uh% mH nH u +h% 5CJ PJ \aJ mH nH sH tH u$j hbA h% 0J UmH nH u 2j hbA h% >*B*UmH nH ph u hbA h% 0J mH nH uh% mH nH u ! " # $ @ A B C I J { | } 淤sb淤 jM h UmH nH u 2j hbA h% >*B*UmH nH ph u h% mH nH uhbA h% 0J mH nH u%h% CJ PJ aJ mH nH sH tH u$j hbA h% 0J UmH nH u hP mH nH u jS h UmH nH u j h% UmH nH uh% mH nH u & ' 3 4 5 O P Q Ųŧ|ӲsYŲŧH jA h UmH nH u 2j hbA h% >*B*UmH nH ph u h% mH nH uhP mH nH u jG h UmH nH u j h% UmH nH uh% mH nH u %h% CJ PJ aJ mH nH sH tH uhbA h% 0J mH nH u$j hbA h% 0J UmH nH u 2j hbA h% >*B*UmH nH ph uQ S T U V W X t u v w { | ӲӲynn]yӲ j; h UmH nH u h% mH nH u +h% 5CJ PJ \aJ mH nH sH tH u2j hbA h% >*B*UmH nH ph u h% mH nH uhbA h% 0J mH nH u%h% CJ PJ aJ mH nH sH tH u$j hbA h% 0J UmH nH u j h% UmH nH uhP mH nH u : ; < = ? @ P Ųŧ|ӲofbfNof