Reconocimiento de entidades nombradas para el idioma español utilizando Conditional Random Fields con características no supervisadas

Loading...
Thumbnail Image
Date
2017
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Católica San Pablo
Abstract
El reconocimiento de entidades nombradas es una tarea relevante en el área de Procesamiento de Lenguaje Natural, su función es identificar entidades en textos para un idioma dado. El estudio de esta tarea se ha enfocado principalmente en el idioma inglés. Recientes estudios en el idioma inglés han mostrado que utilizar características no supervisadas tales como word embeddings mejoran el reconocimiento de entidades nombradas. En este trabajo se investiga si características no supervisadas pueden mejorar la tarea de NER supervisado en el idioma español. Para esto, se propone utilizar características no supervisadas mediante word representations y colocaciones, así como características adicionales en un clasificador Conditional Random Field (CRF). Resultados experimentales (82.44% de F-score en el corpus CoNLL-2002) muestran que el enfoque propuesto, en particular cuando se utiliza cross-lingual word representations, es comparable a abordajes de aprendizaje profundo, actualmente el estado del arte para NER en español.
Description
Keywords
Procesamiento de lenguaje natural, NER para español, Conditional Random Fields, Word embeddings
Citation