Tesis - Maestría en Ciencias de la Computación

Permanent URI for this collection


Recent Submissions

Now showing 1 - 20 of 43
  • Item
    Detección automática personalizada de la intensidad del dolor de expresiones faciales en video usando multitask learning
    (Universidad Católica San Pablo, 2023) Quispe Pinares, Jefferson; Camara Chavez, Guillermo
    Los métodos de Aprendizaje Profundo han logrado resultados impresionantes en varias tareas complejas como la estimación del dolor a partir de expresiones faciales en videos (secuencias de frames). La estimación de dolor es difícil de medir, debido a que es subjetiva y a las características propias de cada persona. Sin embargo, su estimaci´on es importante para procesos de evaluación clínica. Este trabajo de investigación propone la estimación de la intensidad del dolor automático a través de dos etapas: 1) mediante un enfoque de frame-level usando Convolutional Neural Network, (CNN) con Transferencia de Aprendizaje de un modelo preentrenado de rostros con un módulo de Atención Espacial y modelos secuenciales usando Recurrent Neural Network (RNN) para obtener una estimación más precisa del dolor; 2) estimación de la medida del dolor usando Visual Analog Score (VAS) y las otras escalas de dolor mediante Multitask Learning (MTL) personalizado con frame-level obtenido de la primera etapa con características personales de un individuo; lo que nos permite lograr resultados importantes de dolor por sequence-level. El uso del enfoque de MTL para personalizar las estimaciones mediante la realización de múltiples tareas en grupos de personas similares junto a semejantes tareas, proporciona mejoras importantes en el rendimiento de la predicción del VAS. La mejora en la precisión es notable con respecto a los modelos no personalizados obteniendo 2.25 usando la métrica MAE y 0.47 en ICC usando el modelo denominado PSPI+PF Personalized Multitask. Por otro lado tenemos los datos obtenidos de la base de datos reales para entrenar, el cual es de 2.17 usando la m´etrica MAE y 0.51 de ICC según el modelo PSPI (GT) Personalized Multitask.
  • Item
    Polyp image segmentation with polyp2seg
    (Universidad Católica San Pablo, 2023) Mandujano Cornejo, Vittorino; Montoya Zegarra, Javier Alexander
    Colorectal cancer (CRC) is the third most common type of cancer worldwide. It can be prevented by screening the colon and detecting polyps which might become malign. Therefore, an accurate diagnosis of polyps in colonoscopy images is crucial for CRC prevention. The introduction of computational techniques, well known as Computed Aided Diagnosis, facilitates diffusion and improves early recognition of potentially cancerous tissues. In this work, we propose a novel hybrid deep learning architecture for polyp image segmentation named Polyp2Seg. The model adopts a transformer architecture as its encoder to extract multi-hierarchical features. Additionally, a novel Feature Aggregation Module (FAM) merges progressively the multilevel features from the encoder to better localise polyps by adding semantic information. Next, a Multi-Context Attention Module (MCAM) removes noise and other artifacts, while incorporating a multi-scale attention mechanism to further improve polyp detection. Quantitative and qualitative experiments on five challenging datasets and over 5 different SOTAs demonstrate that our method significantly improves the segmentation accuracy of Polyps under different evaluation metrics. Our model achieves a new state-of the-art over most of the datasets.
  • Item
    Deep learning models for spatial prediction of fine particulate matter
    (Universidad Católica San Pablo, 2023) Colchado Soncco, Luis Ernesto; Ochoa Luna, Jose Eduardo
    Studies indicate that air pollutant concentrations affect human health. Especially, Fine Particulate Matter (PM2.5) is the most dangerous pollutant because this is related to cardiovascular and respiratory diseases, among others. Therefore, governments must monitor and control pollutant concentrations. To this end, many of them have implemented Air quality monitoring (AQM) networks. However, AQM stations are usually spatially sparse due to their high costs in implementation and maintenance, leaving large áreas without a measure of pollution. Numerical models based on the simulation of diffusion and reaction process of air pollutants have been proposed to infer their spatial distribution. However, these models often require an extensive inventory of data and variables, as well as high-end computing hardware. In this research, we propose two deep learning models. The first is a generative model called Conditional Generative adversarial Network (cGAN). Additionally, we add a loss based on the predicted observation and the k nearest neighbor stations to smooth the randomness of adversarial learning. This variation is called Spatial-learning cGAN (cGANSL), which got better performance for spatial prediction. To interpolate PM2.5 on a location, cGANSL and classical methods like Inverse Distance Weighting (IDW) need to select the k nearest neighbor stations based on straight distance. However, this selection may leave out data from more distant neighbors that could provide valuable information. In this sense, the second proposed model in this study is a Neural Network with an attention-based layer. This model uses a recently proposed attention layer to build a structured graph of the AQM stations, where each station is a graph node to weight the k nearest neighbors for nodes based on attention kernels. The learned attention layer can generate a transformed feature representation for unobserved location, which is further processed by a neural network to infer the pollutant concentration. Based on data from AQM network in Beijing, meteorological conditions, and information from satellite products such as vegetation index (NDVI) and human activity or population-based on Nighttime Light producto (NTL). The cGANSL had a better performance than IDW, Ordinary Kriging (OK), and Neural Network with an attention mechanism. In this experiment, spatial prediction models that selected the k nearest neighbors had a good performance. That may be AQM station Beijing’s high correlation between them. However, using data from the AQM network of Sao Paulo, where AQM stations have a low correlation, the Neural network with an attention-based layer have better performance than IDW, OK, and cGANSL. Besides, the normalized attention weights computed by our attention model showed that in some cases, the attention given to the nearest nodes is independent of their spatial distances. Therefore, the attention model is more flexible since it can learn to interpolate PM2.5 concentration levels based on the available data of the AQM network and some context information. Finally, we found that NDVI and NTL are high related to air pollutant concentration predicted by the attention model.
  • Item
    Multimodal unconstrained people recognition with face and ear images using deep learning
    (Universidad Católica San pablo, 2023) Ramos Cooper, Solange Griselly; Camara Chavez, Guillermo
    Multibiometric systems rely on the idea of combining multiple biometric methods into one single process that leads to a more reliable and accurate system. The combination of two different biometric traits such as face and ear results in an advantageous and complementary process when using 2D images taken under uncontrolled conditions. In this work, we investigate several approaches to fuse information from the face and ear images to recognize people in a more accurate manner than using each method separately. We leverage the research maturity level of the face recognition field to build, first a truly multimodal database of ear and face images called VGGFace-Ear dataset, second a model that can describe ear images with high generalization called VGGEar model, and finally explore fusion strategies at two different levels in a common recognition pipeline, feature and score levels. Experiments on the UERC dataset have shown, first of all, an improvement of around 7% compared to the state-of-the-art methods in the ear recognition field. Second, fusing information from the face and ear images increases recognition rates from 79% and 82%, in the unimodal face and ear recognition respectively, to 94% recognition rate using the Rank-1 metric.
  • Item
    Priority sampling and visual attention for self-driving car
    (Universidad Católica San pablo, 2023) Flores Benites, Victor; Mora Colque, Rensso Victor Hugo
    End-to-end methods facilitate the development of self-driving models by employing a single network that learns the human driving style from examples. However, these models face problems such as distributional shift, causal confusion, and high variance. To address these problems we propose two techniques. First, we propose the priority sampling algorithm, which biases a training sampling towards unknown observations for the model. Priority sampling employs a trade-off strategy that incentivizes the training algorithm to explore the whole dataset. Our results show a reduction of the error in the control signals in all the models studied. Moreover, we show evidence that our algorithm limits overtraining on noisy training samples. As a second approach, we propose a model based on the theory of visual attention (Bundesen, 1990) by which selecting relevant visual information to build an optimal environment representation. Our model employs two visual information selection mechanisms: spatial and feature-based attention. Spatial attention selects regions with visual encoding similar to contextual encoding, while feature-based attention selects features disentangled with useful information for routine driving. Furthermore, we encourage the model to recognize new sources of visual information by adding a bottom-up input. Results in the CoRL-2017 dataset (Dosovitskiy et al., 2017) show that our spatial attention mechanism recognizes regions relevant to the driving task. Our model builds disentangled features with low cosine similarity, but with high representation similarity. Finally, we report performance improvements over traditional end-to-end models.
  • Item
    Weakly supervised spatiotemporal violence detection in surveillance video
    (Universidad Católica San pablo, 2023) Choqueluque Roman, David Gabriel; Camara Chavez, Guillermo
    Violence Detection in surveillance video is an important task to prevent social and personal security issues. Usually, traditional surveillance systems need a human operator to monitor a large number of cameras, leading to problems such as miss detections and false positive detections. To address this problem, in last years, researchers have been proposing computer vision-based methods to detect violent actions. The violence detection task could be considered a sub-task of the action recognition task but violence detection has been less investigated. Although a lot of action recognition works were proposed for human behavior analysis, there are just a few CCTV-based surveillance methods for analyzing violent actions. In the literature of violence detection, most of the methods tackle the problem as a classication task, where a short video is labeled as violent or non-violent. Just a few methods tackle the problem as a spatiotemporal detection task, where the method should detect spatially and temporally violent actions. We assume that the lack of such methods is due the exorbitant cost of annotating, at frame-level, current violence datasets. In this work, we propose a spatiotemporal violence detection method using a weakly supervised approach to train the model using only video-level labels. Our proposal uses a Deep Learning model following a Fast-RCNN (Girshick, 2015) style architecture extended temporally. Our method starts by generating spatiotemporal proposals leveraging a pre-trained person detector and motion appearance to build such proposals called action tubes. An action tube is dened as a set of temporally related bounding boxes that enclose and track a person doing an action. Then, a video with the action tubes is fed to the model to extract spatiotemporal features, and nally, we train a tube classier based on Multiple-instance learning (Liu et al., 2012). The spatial localization relies on the pre-trained person detector and motion regions extracted from dynamic images (Bilen et al., 2017). A dynamic image summarizes the movement of a set of frames to an image. Meanwhile, temporal localization is done by the action tubes by grouping spatial regions over time. We evaluate the proposed method on four publicly available datasets such as Hockey Fight, RWF-2000, RLVSD and UCFCrime2Local. Our proposal achieves an accuracy score of 97:3%, 88:71%, and 92:88% for violence detection in the Hockey Fight, RWF-2000, and RLVSD datasets, respectively; which are very close to the state-of-the-art methods. Besides, our method is able to detect spatial locations in video frames. To validate our spatiotemporal violence detection results, we use the UCFCrime2Local dataset. The proposed approach reduces the spatiotemporal localization error to 31:92%, which demonstrates the feasibility of the approach to detect and track violent actions.
  • Item
    Análisis del dolor crónico en pacientes adultos mediante la exploración espacio-temporal de las expresiones faciales
    (Universidad Católica San Pablo, 2021) Mauricio Condori, Manasses Antoni; Camara Chavez, Guillermo
    La tesis se centra en cuantificar del dolor de pacientes adultos (entre 25 y 65 años) mediante el aprendizaje de las expresiones faciales utilizando técnicas de aprendizaje profundo. El principal aporte del trabajo es considerar el ciclo de respuesta ante un estímulo sobre la zona de dolor. De esta manera, se pueden evaluar los picos de dolor a lo largo de una secuencia, no solo a nivel de fotogramas. Se emplea la base de datos shoulder-pain-expression de la Universidad de McMaster, debido a que es la predilecta por el estado del arte. La base de datos presenta varios retos, como el desbalance de las categorías o errores en la recolección de datos. Las secuencias de vídeos se dividen en fragmentos, para luego aplicar políticas de balance de datos. El pre-procesamiento incluye cambio de tamaño, normalización de la iluminación y el tratamiento de rostros (detección, segmentación y frontalización). Una CNN extrae características por fotograma (espacial) y una RNN las procesa (temporal) para inferir el nivel de dolor del paciente. Los resultados superan el estado del arte en el análisis por fotograma (MAE: 0.4798, MSE: 0.5801, PCC: 0.7076, ICC: 0.5829 y ACC: 0.8921) y en secuencias (MAE: 0.4772, MSE: 0.6030, PCC: 0.8281, ICC: 0.7542, ACC: 0,8777).
  • Item
    Una propuesta de interpolación cíclica cruzada para el problema de la traducción image-a-image con datos no emparejados
    (Universidad Católica San pablo, 2021) Lopez Caceres, Jorge Roberto; Camara Chavez, Guillermo
    La transferencia de estilos de imagen a imagen no emparejadas es un problema desafiante que consiste en la extracción y correspondencia de mapas de características entre un conjunto de datos origen A y un conjunto de datos destino B. Ambos mapas de características se combinan e interpolan mediante una función de correspondencia bidireccional: GB de A → B y GA de B → A. Los métodos actuales apuntan a los modelos basados en redes adversas generativas (GAN) porque sintetizan nuevas muestras bastante realistas en diferentes dominios al aprender las características más importantes de cualquier conjunto de datos. No obstante, el entrenamiento de la función de correspondencia es no-supervisada (datos no emparejados); por lo tanto, la mayoría de los modelos basados en la arquitecturas GAN y CycleGAN no logran aprender las características más importantes de ningún dominio. En consecuencia, la función de transferencia funciona bien solo en una dirección (A → B), y falla en la otra (B → A). En este documento, proponemos un modelo basado en las arquitecturas CycleGAN para resolver el problema de la transferencia de estilos de imagen-a-imagen no emparejadas. Para mejorar la representación del mapa de características (Z) utilizamos un ´único codificador para ambos dominios de datos. De esta forma se logra que las características más importantes de ambos dominios sean más cercanas, y que la función de correspondencia sea más fácil de entrenar. Además consideramos a Z como un dominio intermedio que guía el proceso de aprendizaje y reduce el error inducido de los ciclos. Por otro lado, desarrollamos bloques de entrenamiento por cada ciclo, donde cada bloque consiste en una iteración del generador y 5 iteraciones del discriminador, con el fin de acelerar la convergencia. Para los experimentos se consideraron varios conjuntos de datos, incluidos los conjuntos de datos Cityscapes, Horse2zebra y Monet2photo. Los resultados mostraron una mejora cualitativa (visual), y cuantitativa (calculo por segmentación semántica) respecto a los resultados del CycleGAN.
  • Item
    Un método de correspondencia de imágenes basado en superpixeles
    (Universidad Católica San pablo, 2019) Mendoza Villafane, Pavel Angel; Loaiza Fernández, Manuel Eduardo
    El problema de detección de correspondencias entre imágenes es clásico en el área de Visión por Computador debido a su alta aplicabilidad en otros múltiples problemas como: Tracking, SfM, NRSfT, SLAM, Image Registration, segmentación, entre otros. En la actualidad, no existe un método universal que funcione en todo tipo de aplicaciones, sino que cada enfoque es direccionado a una aplicación específica y suele fallar en contextos diferentes para los que fueron diseñados. Enfoques basados en características o bloques permiten resaltar uno o varios (pero no todos) de las siguientes características: precisión, cantidad y costo computacional. La mayor diferencia entre un método y otro es posiblemente la invarianza a factores como cambios de iluminación y transformaciones geométricas (rotación, escala, afines). En esta tesis se propone y desarrolla un método de correspondencias entre pares de imágenes que busca incrementar el número total de puntos resultantes. Para ello, se desarrolla un enfoque basado en tres etapas. Primero, se reduce el espacio de búsqueda empleando superpíxeles, se calcula una nueva pseudo-imagen y su descripción. Luego, basado en un enfoque de superpíxel multinivel basado, se define un conjunto escalado de pseudo-imágenes y sus descripciones, los cuales son empleados para aproximar iterativamente la ubicación de las correspondencias sobre un espacio de búsqueda reducido. Finalmente, los puntos detectados son refinados en una búsqueda local a nivel de píxel para determinar las correspondencias a en este nivel. También proponemos un enfoque de coherencia geométrica a nivel de píxel y superpíxel para el control de correspondencias erróneas. Nuestra propuesta aplicada a problemas como reconstrucción de imágenes y transferencia de color obtuvo similares resultados en el número de correspondencias comparado con otros trabajos afines dentro del estado del arte; sin embargo, nuestro enfoque obtuvo un menor tiempo de ejecución. También, mostramos como caso de uso la reconstrucción 3D basada en imágenes la cual obtuvo un mayor de detalle en la nube de puntos resultante comparado con un enfoque tradicional.
  • Item
    Unsupervised anomaly detection in 2D radiographs using generative models
    (Universidad Católica San Pablo, 2022) Estacio Cerquin, Laura Jovani; Mora Colque, Rensso
    We present a method based on a generative model for detection of anomalies such as prosthesis, implants, screws, zippers, and metals in Two-dimensional (2D) radiographs. The generative model is trained following an unsupervised fashion using clinical radiographs as well as simulated data, neither of them containing anomalies. Our approach employs a reconstruction loss and a latent space consistency loss which have the benefit of identifying similarities which are forced to reconstruct X-rays without anomalies. In order to detect images with anomalies, an anomaly score is also computed employing the reconstruction loss and the latent space consistency loss. Additionally, the Frechet distance is introduced as part of the reconstruction loss. These losses are computed between an input X-ray and the one reconstructed by the proposed generative model. Validation was performed using clinical pelvis radiographs. We achieved an Area Under the Curve (AUC) of 0.77 and 0.83 with clinical and synthetic data, respectively. The results demonstrated a good accuracy of the proposed method for detecting outliers as well as the advantage of utilizing synthetic data for the training stage.
  • Item
    Técnicas de aprendizaje profundo para el análisis de la percepción de la seguridad urbana
    (Universidad Católica San Pablo, 2022) Moreno Vera, Felipe Adrian; Poco Medina, Jorge Luis
    La percepción es la forma en que los humanos interpretan y comprenden la información captada después de la interacción con el entorno que les rodea, aprendiendo nuevas experiencias o reforzando otras ya vividas. La percepción de la seguridad urbana se puede describir en cómo los humanos presentan una reacción ante un determinado estímulo proveniente de la apariencia visual o conocimiento previo sobre un cierto lugar (calles, zonas urbanas, etc). A partir de esta idea, diversos estudios buscaron describir dicho fenómeno teniendo como ejemplo más notable la teoría denominada \The Broken Window", la cual estudiaba el comportamiento de las personas frente a ambientes cuya apariencia visual era caótica. Así mismo, recientemente este estudio está siendo implementado utilizando diversos tipos de datos, no solo limitándose a encuestas o experimentos sociales, con el objetivo de determinar la relación entre la percepción urbana y características intrínsecas de los ciudades; de los cuales, uno de los conjuntos de datos más resaltables es Place Pulse. En este trabajo, se propone una metodología que permita analizar y explorar los datos de Place Pulse 2.0. Como resultados principales, presentamos un análisis exploratorio de los datos, resaltando la organización y comportamiento de los datos. Además, presentamos una comparación entre diferentes técnicas de aprendizaje supervisado y semi-supervisado. Mostrando que un modelo Generative Adversarial Networks (GAN) presenta mejores resultados que técnicas convencionales.
  • Item
    Query co-planning for shared execution in key-value stores
    (Universidad Católica San Pablo, 2022) Ttito Amezquita, Josue Joel; Marroquin Mogrovejo, Renato Javier
    Large amounts of data are being stored and queried using different data models. For each of these models, there are specialized data stores which are then accessed concurrently by many different applications. For instance, key-value stores provide a simple data model of key and value pairs. Thus, the simplicity of their read and write interface. Additionally, they provide other operations such as full and range scans. However, along with its simplicity, key-value stores impose some limitations when trying to optimize data access. In this work, we study how to minimize the data movement when executing a large number of range queries on key-value stores. This is based on the observation that when accessing a common dataset, there is usually a (possibly large) overlap among queries accessing it. Thus, to accomplish this, we use shared-workload optimization techniques to execute a group of queries together. We analyze different data structures suitable for co-planning multiple range queries together in order to reduce the total amount of data transferred. Our results show that by co-planning a group of range queries we reduce the total execution time of a query workload
  • Item
    An adversarial model for paraphrase generation
    (Universidad Católica San Pablo, 2020) Vizcarra Aguilar, Gerson Waldyr; Ochoa Luna, Jose Eduardo
    Paraphrasing is the action of expressing the idea of a sentence using different words. Paraphrase generation is an interesting and challenging task due mainly to three reasons: (1) The nature of the text is discrete, (2) it is difficult to modify a sentence slightly without changing the meaning, and (3) there are no accurate automatic metrics to evaluate the quality of a paraphrase. This problem has been addressed with several methods. Even so, neural network-based approaches have been tackling this task recently. This thesis presents a novel framework to solve the paraphrase generation problem in English. To do so, this work focuses and evaluates three aspects of a model, as the teaser figure shows. (a) Static input representations extracted from pre-trained language models. (b) Convolutional sequence to sequence models as our main architecture. (c) Hybrid loss function between maximum likelihood and adversarial REINFORCE, avoiding the computationally expensive Monte-Carlo search. We compare our best models with some baselines in the Quora question pairs dataset. The results show that our framework is competitive against the previous benchmarks.
  • Item
    3D medical image segmentation based on 3D convolutional neural networks
    (Universidad Católica San Pablo, 2021) Marquez Herrera, Alejandra; Cuadros Vargas, Alex Jesús
    A neural network is a mathematical model that is able to perform a task automatically or semi-automatically after learning the human knowledge that we provided. Moreover, a Convolutional Neural Network (CNN) is a type of sophisticated neural network that has shown to efficiently learn tasks related to the area of image analysis (among other areas). One example of these tasks is image segmentation, which aims to find regions or separable objects within an image. A more specific type of segmentation called semantic segmentation, makes sure that each region has a semantic meaning by giving it a label or class. Since neural networks can automate the task of semantic segmentation of images, they have been very useful for the medical area, applying them to the segmentation of organs or abnormalities (tumors). Therefore, this thesis project seeks to address the task of semantic segmentation of volumetric medical images obtained by Magnetic Resonance Imaging (MRI). Volumetric images are composed of a set of 2D images that altogether represent a volume. We will use a pre-existing Three-dimensional Convolutional Neural Network (3D CNN) architecture, for the binary semantic segmentation of organs in volumetric images. We will talk about the data preprocessing process, as well as specific aspects of the 3D CNN architecture. Finally, we propose a variation in the formulation of the loss function used for training the 3D CNN, also called objective function, for the improvement of pixel-wise segmentation results. We will present the comparisons in performance we made between the proposed loss function and other pre-existing loss functions using two medical image segmentation datasets.
  • Item
    Segmentation of multi-structures in cardiac MRI using deep learning
    (Universidad Católica San Pablo, 2020) Gutierrez Castilla, Nicolas; Montoya Zegarra, Javier Alexander
    The heart is one of the most important organs in our body and many critical diseases are associated with its malfunctioning. To assess the risk for heart diseases, Magnetic Resonance Imaging (MRI) has become the golden standard imaging technique, as it provides to the clinicians stacks of images for analyzing the heart structures, such as the ventricles, and thus to make a diagnosis of the patient’s health. However, the examination of these stacks, often based on the delineation of the heart structures, is a tedious and an error prone task due to inter- and intra-variability in the manual delineations. For this reason, the investigation of fully automated methods to support heart segmentation is paramount. Most of the successful methods proposed to solve this problem are based on deep-learning solutions. Especially, encoder-decoder architectures, such as the U-Net (Ronneberger et al., 2015), have demonstrated to be very effective and robust architectures for medical image segmentation. In this work, we propose to use long-range skip connections on the decoder-part of the architecture to incorporate multi-context information onto the predicted segmentation masks and to improve the generalization of the models (see Figure 1). This new module is named Dense-Decoder module and can be easily added to state-of-the-art encoder-decoder architectures, such as the U-Net, with almost no extra additional parameters allowing the model’s size to remain constant. To evaluate the benefits of our module, we performed experiments on two challenging cardiac segmentation datasets, namely the ACDC (Bernard et al., 2018) and the LVSC (Radau et al., 2009) heart segmentation challenges. Experiments performed on both datasets demonstrate that our method leads to an improvement on both the total Average Dice score and the Ejection Fraction Correlation, when combined with state-of-the-art encoder-decoder architectures.
  • Item
    Descriptor 3D para reconocimiento de objetos con cámaras RGB-D
    (Universidad Católica San Pablo, 2020) Istaña Chipana, Luis Ronald; Loaiza Fernández, Manuel Eduardo
    En la actualidad, el reconocimiento de objetos en el campo de visión por ordenador, es un reto constante con la finalidad de alcanzar una mayor precisión en el menor tiempo posible. En esta investigación, se propone un nuevo descriptor tridimensional para el aprovechamiento de las cámaras de profundidad de nombre Color Point Pair Feature Light (CPPFL), basado en el descriptor Point Pair Feature (PPF) de Drost et al. (2010). El descriptor propuesto aprovecha la información de color y lo agrupa de un modo más eficaz y ligero que el descriptor Color Point Pair Feature (CPPF) de Choi y Christensen (2016), el cual también usa el color. También se propone una versión alterna llamada Color Point Pair Feature Light Plus (CPPFL+), que se diferencia en el método de creación aprovechando del mismo concepto de agrupación de colores, por lo que gana un "Plus"de velocidad. Este cambio hace que el descriptor sea más eficiente en comparación con anterior, optimizando el proceso de reconocimiento de objetos, esta mejora permite reconocer objetos en tiempo real de 10 fotogramas por segundo o más dependiendo del tamaño del objeto.
  • Item
    Flash image enhancement via ratio-log image translation to ambient images
    (Universidad Católica San Pablo, 2021) Chavez Alvarez, Jose Armando; Cayllahua Cahuina, Edward Jorge Yuri
    To illuminate low-light scenarios in photography, photographers usually use the camera flash, this produces flash images. Nevertheless, this external light may produce non-uniform illumination and unnatural color of objects, especially in low-light conditions. On the other hand, in an ambient image, an image captured with the available light in the ambient, the illumination is evenly distributed. We therefore consider ambient images as the enhanced version of flash images. Thus, with a fully convolutional network, and a flash image as input, we first estimate the ratio-log image. Then, our model produces the ambient image by using the estimated ratio-log image and ash image. Hence, high-quality information is recovered with the flash image. Our model generates suitable natural and uniform illumination on the FAID dataset with SSIM = 0:662, and PSNR = 15:77, and achieves better performance than state-of-the-art methods. We also analyze the components of our model and how they affect the overall performance. Finally, we introduce a metric to measure the similarity of naturalness of illumination between target and predicted images.
  • Item
    Un nuevo mecanismo de regularización para algoritmos de aprendizaje con pocas muestras
    (Universidad Católica San Pablo, 2021) Llerena Paricahua, Marcell; Ochoa Luna, José Eduardo
    El gran éxito de las redes neuronales profundas (DNN) incide sobre su capacidad de aprender características automáticamente aminorando la supervisión humana. No obstante, dicho éxito viene acompañado de la gran cantidad de datos necesarios para entrenar los modelos profundos. Por ejemplo, para que un modelo profundo aprenda a distinguir gatos de perros se necesitan cientos de miles de imágenes. Recientemente, una área del aprendizaje automático denominada meta aprendizaje ha recibido especial atención, cuyo principal objetivo es conseguir que los modelos profundos sean capaces de reutilizar experiencia aprendida en diferentes tareas para aplicarla en el aprendizaje de una nueva tarea, lo que en consecuencia debería otorgarle al modelo profundo la habilidad de aprender nuevas tareas a partir de pocas muestras. En respuesta a ello, en la literatura se han planteado algoritmos que son capaces de generalizar diferentes tareas con una sola muestra de entrenamiento. Sin embargo, aún adolecen de una baja tasa de exactitud. Motivo por el cual, en este proyecto de tesis se introduce un mecanismo de regularización con el objetivo que ayude a maximizar la generalización de las tareas. Nuestros experimentos han mostrado que nuestro método de regularización propuesto alcanza resultados competitivos respecto al estado del arte.
  • Item
    Estimación de la incertidumbre en redes neuronales profundas
    (Universidad Católica San Pablo, 2020) Jaita Aguilar, Jose Hugo; Mora Colque, Rensso Victor Hugo
    Hoy en día, los modelos de aprendizaje profundo representan el estado del arte en muchas tareas, lo que ha motivado a utilizarse en distintas aplicaciones reales. Varias de ellas se encuentran en campos como: la medicina, seguridad, finanzas, etc. en donde una predicción errónea puede llegar a ser fatal. Por lo tanto, necesitamos que los modelos no solo den una predicción, sino que además un grado de certeza acerca de ella, es decir, la incertidumbre en la predicción. En esta tesis se estudian dos tipos de incertidumbre: la epistémica (la cual captura la falta de certeza del modelo) y la aleatoria (generada por el ruido en los datos). La estimación de la incertidumbre epistémica es un desafío, siendo el enfoque bayesiano el más utilizado para abordarla (debido a las herramientas que nos ofrece), pero este viene con un costo computacional prohibitivo, evidenciado aún más en modelos de aprendizaje profundo. Nosotros proponemos el método SVGD-A, utilizando como base al método SVGD, para realizar la inferencia bayesiana. Nuestra propuesta se enfoca en acelerar el proceso de convergencia de SVGD, permitiendo el escalamiento a modelos profundos. En cuanto a la incertidumbre aleatoria, nosotros proponemos un método basado en la extracción de características de bajo nivel en modelos ya entrenados, para luego aplicarles (a las características) una reducción de dimensionalidad con t-SNE, volviendo as ́ı el problema en una tarea de cauterización. Además, proponemos un segundo método el cual utiliza el mismo esquema descrito anteriormente, pero con la novedad que se le agrega un Autoencoder Variacional. Y por último, aportamos con un novedoso enfoque para realizar inferencia usando t-SNE. Finalmente, mostramos la eficiencia de nuestros métodos en la tarea de detectar muestras out-of-distribution en distintas bases de datos, logrando resultados muy superiores al estado del arte.
  • Item
    Generación interactiva de ensambles de métodos de agrupamiento para análisis de datos multidimensionales
    (Universidad Católica San Pablo, 2020) Castro Ochante, Jose Melchor; Gomez Nieto, Erick Mauricio
    El aprendizaje de maquina se ha aplicado con éxito a una gran variedad de campos que va desde la recuperación de información, extracción de datos, reconocimiento de voz y gráficos por computadora, visualización e interacción humano-computador. Los métodos de agrupación son los algo- ritmos más utilizados para el aprendizaje no supervisado. Sin embargo, no existe un único agrupamiento óptimo para todos los conjuntos de datos, ya que diferentes algoritmos de agrupamiento pueden producir diferentes particiones porque imponen una estructura diferente en los datos. Para superar este dilema de seleccionar una técnica apropiada y los parámetros correspondientes, se utilizan ensamble de agrupamientos para mejorar la precisión y la solidez mediante una combinación ponderada de dos o más enfoques. Sin embargo, muchas veces este proceso se lleva a cabo casi a ciegas, ya que probamos posibles combinaciones de métodos de forma secuencial y evaluamos si su desempeño es beneficioso para nuestros propósitos. Luego, realizamos muchas veces este procedimiento con la esperanza de encontrar un patrón que apoye nuestra próxima decisión para elegir una combinación. En este trabajo presentamos una metodología novedosa para la generación de ensamble de agrupamientos, basada en métricas cuantitativas y recursos visuales interactivos. Nuestro enfoque permite que los analistas muestren diferentes resultados de los métodos de agrupación del estado del arte, analicen su rendimiento en métricas específicas e inspección visual, asignen ponderaciones interactivas para establecer sus contribuciones en conjunto basadas en los requisitos del analista y gestionen (crear, almacenar, comparar, fusionar) ensamble de agrupamiento. Para probar esta metodología, implementaremos un prototipo, capaz de presentar mediante una vista gráfica, el resultado de aplicar un modelo de agrupamiento a un conjunto de datos.