martes, 19 de julio de 2016

Evaluación de los sistemas

Los progresos realizados en un sistema deben ser medidos o evaluados para conocer las deficiencias y problemas que éste presenta. Aunque una evaluación cualitativa puede resultar útil en las etapas iniciales del desarrollo del sistema, medidas cuantitativas bajo unas mismas condiciones resultan de vital importancia para ver el progreso real del sistema y compararlo consigo mismo o con otros. Los números no aportan información si se desconoce de dónde proceden, es decir, qué representan. La evaluación de cualquier tecnología debe ir acompañada de un conjunto de medidas estándar propuestas para tal fin. La disponibilidad de bases de datos y de protocolos o procedimientos para la evaluación de estos sistemas ha sido un componente muy importante, casi fundamental, en el progreso alcanzado en este campo y ha permitido compartir nuevas ideas, e incluso compararlas con otras ya consolidadas. Los progresos en la evaluación de sistemas de comprensión del lenguaje hablado están comenzando. Así vamos a mencionar a continuación diferentes acuerdos alcanzados [PRI90] en la evaluación de sistemas:
  • Conjuntos de Datos de Entrenamiento y de Prueba Independientes. La importancia de disponer de conjuntos de datos independientes para el entrenamiento/desarrollo y para la evaluación de sistemas de reconocimiento de habla viene siendo aceptada desde hace bastante tiempo por la comunidad científica. Sigue siendo igual de importante para el desarrollo y evaluación de los sistemas de comprensión de habla, aunque para estos últimos nos interesará tener datos de prueba dónde aparezcan el mayor número de fenómenos del habla posibles (son importantes las construcciones gramaticales, los efectos propios del habla espontánea, etc.), para colocar al sistema en el mayor número de situaciones (léxicas, sintácticas y semánticas) posible. Sin embargo, es conveniente resaltar que el proceso de evaluación no deja de ser parte del proceso de entrenamiento, pues en muchos casos los resultados de la misma sirven para depurar o mejorar el comportamiento final del sistema. Por tanto, es importante que exista un conjunto de datos independiente y realista, tan grande como sea posible, con el que se evalúe definitivamente un sistema y con cuyos resultados no se intente seguir desarrollando (mejorando) el sistema.
  • Evaluación del Sistema como Caja Negra. La evaluación de los componentes de un sistema es una tarea importante durante el desarrollo del mismo, aunque no es especialmente útil para comparar sistemas entre sí, al menos que los sistemas a comparar sean muy similares, lo que no suele ser el caso. La motivación para evaluar los componentes de un sistema es puramente interna, por tanto, no es absolutamente necesario llegar a acuerdos en la comunidad internacional sobre la metodología de evaluación de los mismos. Las medidas de evaluación de los componentes internos de un sistema pueden utilizarse para evaluar las tecnologías empleadas en cada componente como una función de sus parámetros de diseño; por ejemplo, el funcionamiento de un módulo de reconocimiento acústico puede ser evaluado como una función de la perplejidad alofónica y sintáctica, el funcionamiento de un analizador sintáctico (parser) como una función de la calidad (errores) de la secuencia de palabras (frase) de entrada. Además, estas medidas son útiles para evaluar el progreso conseguido, y cómo los cambios en varios componentes afectan al resto de los mismos.
  • Evaluación Cuantitativa vs. Cualitativa. Una evaluación cualitativa de un sistema (p. ej. lo que parece gustar a los usuarios del sistema) puede ser animador, pero mucho más convincente para aquellos que no pueden observar el sistema son las medidas cuantitativas llevadas a cabo de forma automática. Las medidas deberían ser estandarizadas en la medida de lo posible, y ser reproducibles, para considerarlas significativas. El proceso automatizado evita errores humanos debido a fatiga, falta de atención, malas intenciones, etc. y además, permite capturar muchos más datos que en un caso manual, y sacar conclusiones sobre el funcionamiento de ciertos procesos o hechos que ocurren, con una mayor fiabilidad.
  • Captura de Datos para Evaluación. Para capturar los datos que necesitamos para evaluar los sistemas de lenguaje hablado, se han desarrollado técnicas y sistemas especiales conocidos como PNAMBIC (“Pay NoAttention to the Man Behind the Curtain”) o Mago de Oz (Wizard of Oz), que implica la existencia de un experto cooperando con un sistema más o menos automático y completo, pero del que no es consciente el usuario, quién piensa que interacciona sólo con un sistema completamente automático. Realmente, el “mago” introduce las peticiones del usuario transcribiendo la frase hablada a texto y enviándosela a la pantalla del usuario, así como interaccionando con un sistema de información (p.e. de gestión de bases de datos), para conseguir las respuesta a la pregunta o petición del usuario y poder mandársela. No se permite que el “mago” realice tareas complejas, sólo puede enviar los datos obtenidos de la base de datos, o frases que indiquen ciertos problemas, indicaciones al usuario, como “su pregunta requiere un proceso que sobrepasa las posibilidades del sistema”. En general, la actuación del “mago” viene condicionada por el hecho de que comprenda o no la pregunta del usuario y sobre su conocimiento sobre las posibilidades de la base de datos. Los datos deben ser analizados a posteriori para determinar si la actuación del “mago” fue o no correcta.
  • Convenios sobre las Transcripciones. La transcripción de las sesiones, es decir, las frases que se muestran al usuario, representan el habla natural de ese locutor. Para llevar a cabo evaluaciones automáticas, debemos llegar a un cierto acuerdo sobre los convenios a utilizar para representar lo que el usuario ha dicho, y se deben implementar procedimientos que aseguren que estos convenios son realmente utilizados.
  • Respuestas Canónicas y Obtención de Medidas. Las respuestas canónicas son, en general, las respuestas enviadas al usuario bajo el control del “mago”. Estas respuestas deberán ser modificadas si el “mago” comete un error, o si la respuesta depende del contexto en que fue generada debido a la posible cooperación (diálogo) entre el “mago” y el usuario. La obtención de medidas se lleva a cabo con programas estándar y convenios para las entradas y salidas.

    CLASIFICACIÓN DE LOS MODELOS Existen múltiples tipos de modelos para representar la realidad. Algunos de ellos son:
    • Dinámicos: Utilizados para representar sistemas cuyo estado varía con el tiempo. • Estáticos: Utilizados para representar sistemas cuyo estado es invariable a través del tiempo.

    • Matemáticos: Representan la realidad en forma abstracta de muy diversas maneras.
    • Físicos: Son aquellos en que la realidad es representada por algo tangible, construido en escala o que por lo menos se comporta en forma análoga a esa realidad (maquetas, prototipos, modelos analógicos, etc.).
     • Analíticos: La realidad se representa por fórmulas matemáticas. Estudiar el sistema consiste en operar con esas fórmulas matemáticas (resolución de ecuaciones).
    • Numéricos: Se tiene el comportamiento numérico de las variables intervinientes. No se obtiene ninguna solución analítica.
    • Continuos: Representan sistemas cuyos cambios de estado son graduales. Las variables intervinientes son continuas.
    • Discretos: Representan sistemas cuyos cambios de estado son de a saltos. Las variables varían en forma discontinua.
    • Determinísticos: Son modelos cuya solución para determinadas condiciones es única y siempre la misma.
    • Estocásticos: Representan sistemas donde los hechos suceden al azar, lo cual no es repetitivo. No se puede asegurar cuáles acciones ocurren en un determinado instante. Se conoce la probabilidad de ocurrencia y su distribución probabilística. (Por ejemplo, llega una persona cada 20 ± 10 segundos, con una distribución equiprobable dentro del intervalo).

    Simulación
    Construido el modelo, se ensaya una alternativa en él con el fin de aplicar las conclusiones al sistema. Los resultados obtenidos no tienen valor si no son aplicables al sistema.
    La simulación tiene como principal objetivo la predicción, es decir, puede mostrar lo que sucederá en un sistema real cuando se realicen determinados cambios bajo determinadas condiciones. La simulación se emplea sólo cuando no existe otra técnica que permita encarar la resolución de un problema. Siempre es preferible emplear una alternativa analítica antes que simular. Lo anterior no implica que una opción sea superior a otra, sino que los campos de acción no son los mismos. Mediante la simulación se han podido estudiar problemas y alcanzar soluciones que de otra manera hubieran resultado inaccesibles.
    La simulación involucra dos facetas:
    1) Construir el modelo
    2) Ensayar diversas alternativas con el fin de elegir y adoptar la mejor en el sistema real, procurando que sea la óptima o que por lo menos sea lo suficientemente aproximada. 

No hay comentarios:

Publicar un comentario