Clasificador de documentos, HTML no estructurados utilizando metadatos

Por favor, use este identificador para citar o enlazar este ítem: http://repositoriodigital.ipn.mx/handle/123456789/6896

Título :	Clasificador de documentos, HTML no estructurados utilizando metadatos
Autor :	Sosa Iglesias, José de Jesús Emilio Dávalos Rodríguez, Felipe
Palabras clave :	HTML (Document markup language)
Fecha de publicación :	2002
Editorial :	Instituto Politécnico Nacional. Centro de Investigación en Computación
Resumen :	En este trabajo de tesis se diseña y construye una herramienta de software en plataforma Microsoft Windows, para adicionar Meta Datos a documentos de formato HTML(Hyper Text Markup Language). Se utilizan los estándares internacionales para la inclusión de los nombres de Meta Datos típicos según la propuesta de Dublin-Core. La herramienta adicionalmente permite la construcción de Temáticas jerárquicas o Taxonomías para cualquier dominio de aplicación y la clasificación de documentos remotos accesibles por un URL (Universal Resource Locator), dentro de una temática particular de la jerarquía, siendo posible también, exportar las jerarquías construidas junto con las referencias a los documentos clasificados dentro de ellas, en un formato HTML, para ser publicadas en un servidor Web y ser utilizadas desde los navegadores como sistema de navegación jerárquico a través de la temática correspondiente, permitiendo accesar directamente desde el navegador los documentos clasificados, teniendo esto aplicabilidad directa en la construcción de portales con navegación por temas. La metodología utilizada para el análisis, diseño y construcción de esta herramienta fué la metodología “Objectory Process de Rational Rose”, con la cual se logró desarrollar la herramienta de una manera sistemática, partiendo del análisis del dominio del problema, para la definición de requerimientos, siguiendo con el análisis y diseño orientado a Objetos, en función de un modelo basado en Componentes de Software, utilizando casos de uso como unidades ejecutables construidas por objetos, para posteriormente implementar la aplicación utilizando el lenguaje de programación "C++" siguiendo una metodología de pruebas iterativas a lo largo del desarrollo para garantizar una alta calidad en el desarrollo del software. La herramienta fue construida en 3 módulos: El primer módulo, "Generación de Meta Datos" permite agregar Meta Datos genéricos y de clasificación de acuerdo a una taxonomía especifica que pueda ser utilizada por los robots de indexamiento del Web tales como “Altavista”, “Google” por ejemplo. El segundo módulo "Clasificador de Documentos Remotos" permite crear y cargar taxonomías de clasificación jerárquicas compatibles con el formato RDM (Resource Descriptor Message), donde es posible clasificar documentos los cuales se pueden accesar a través de un URL. Y finalmente el tercer módulo "Navegación Web" permite navegar por los documentos del WWW (World Wide Web) utilizando el componente de Software ActiveX de Internet Explorer. // In this Thesis work the main goal is to help document managers to classify and to structure web documents for the Web, so a Microsoft Windows software tool it is designed and developed to add standard Meta Data names to unstructured HTML(Hyper Text Markup Language) documents. International standard was used for the inclusion of typical Meta Data names as the Dublin-Core proposal. In addition, the tool can build hierarchical Taxonomies for any application domain, also a document manager can interactively to classify remote documents using the URL (Universal Resource Locator) to put documents under a classification name in the taxonomy. It is also possible to export hierarchies of classified documents in HTML format to be published in Web servers to access documents through direct taxonomy browsing. Having direct application to the building of Portals for user browsing through a navigational taxonomy. The Objectory Process methodology from Rational Rose was used in the building of this tool for the analysis, design, implementation and test. Using this methodology, a systematic development process was possible, starting with the analysis domain to define requirements, then an Object Oriented analysis and design based on Software Components was done and the use cases model was applied too. Finally the implementation was done using the C++ programming language, applying a methodology of iterative testing through the development cycle to guarantee high quality in the developed software. The tool was built in 3 modules: The first module “Metadata Generator” allows to generate generic and classification metadata against a specific taxonomy, so this Meta Data can be useful by web crawlers like Altavista, Google or some others to build indexes for search machines. The second module “Remote document classification” can load and build hierarchic taxonomies compatible with the RDM (Resource Descriptor Message) format and to classify documents by reference to URLs and finally the “Browser Module” which allow navigating through WWW (World Wide Web) documents using the Internet Explorer Activex component.
Descripción :	Maestría en Ciencias de la Computación
URI :	http://www.repositoriodigital.ipn.mx/handle/123456789/6896
Aparece en las colecciones:	Maestría

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
Tesis 9147.pdf		4.2 MB	Adobe PDF	Visualizar/Abrir

Mostrar el registro Dublin Core completo del ítem

El Instituto Politécnico Nacional

Contribuye al desarrollo económico y social de la nación, a través de la formación integral de personas competentes; de la investigación, el desarrollo tecnológico y la innovación. Además tiene reconocimiento internacional por su calidad e impacto social.

Aviso de privacidad