Mi DSpace
Usuario
Contraseña
Please use this identifier to cite or link to this item: http://hdl.handle.net/20.500.12590/15372
Title: Búsqueda por similitud semántica y estructural del contenido aplicada en documentos XML
Authors: Dongo Escalante, Irvin Franco
metadata.dc.contributor.advisor: Ticona Herrera, Regina Paola
Keywords: Bases de datos;Recuperación de la información;Semántica
Issue Date: 2014
Publisher: Universidad Católica San Pablo
Abstract: En estos últimos años la gran cantidad de información que se encuentra sobre internet requiere una nueva manera de estructurarla, para facilitar su representación, manipulación y recuperación; es así como aparece Extensible Mark-up Language (XML) como un estándar para la representación de datos en la Web. Su flexibilidad y la gran demanda que tiene, han permitido que se desarrollen un conjunto de técnicas para la comparación, consulta, clasificación, entre otras. La adopción de dicho estándar permite un mejor manejo y estructura de la información, así como una gran variedad de aplicaciones en diversas áreas del conocimiento. Tal es así como el área de Derecho que se ha elegido como caso de prueba dentro de la presente Tesis. Dicha área está sufriendo una transformación en el manejo y administración de su información (leyes, decretos, contratos, etc.) hacia estándares que tienen como base al XML. Esta transformación toma cada día más fuerza, debido a la necesidad de manejar gran cantidad de documentos heterogéneos donde el análisis de los datos para su recuperación debe realizarse de forma muy especializada. Para ello es necesario un análisis no solo de la estructura del documento sino un estudio del contenido, no por coincidencia de palabras como se está´ haciendo actualmente, sino por el significado real que la palabra representa en el documento, trabajando la parte de sinonimia, polisemia y la relación entre los términos. La presente investigación desarrolla un algoritmo basado en Indexación Semántica Latente (LSI) para la recuperación de información, donde la relación entre palabras esta´ afectada por la ubicación de las mismas dentro del documento; esto quiere decir, que el valor se verá influenciado de acuerdo a la posición en la que se presente (título, descripción, comentarios, etc.). Con este análisis semántico se mejora los resultados de las consultas en cuanto a su precisión debido a que no se descuida la parte estructural de los documentos, lo que proporciona información adicional en cuanto al contexto de la búsqueda. Finalmente, el trabajo se enfoca en la recuperación de información en dos bases de datos Initiative for the Evaluation of XML retrieval (INEX) y Derecho Ambiental como área de aplicación, midiendo su eficiencia mediante un cluster para posteriormente utilizar un ejecutor de consultas.
URI: http://repositorio.ucsp.edu.pe/handle/UCSP/15372
Appears in Collections:Tesis Pregrado - Ciencia de la computación

Files in This Item:
File Description SizeFormat 
DONGO_ESCALANTE_IRV_BUS.pdf5.98 MBAdobe PDFView/Open    Request a copy


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.