Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español
Keywords:
Limpieza de datos, calidad de datos, detección de duplicados, funciones de similitud, algoritmos fonéticos.Abstract
Con frecuencia datos que deberÃan estar escritos de forma idéntica no lo están debido a errores ortográficos y tipográficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las técnicas fonéticas para detección de duplicados no están orientadas al idioma español, lo que dificulta la identificación y corrección de problemas como errores ortográficos en textos escritos en este idioma. En este artÃculo de investigación se propone un algoritmo denominado PhoneticSpanish parala detección de cadenas de texto duplicadas el cual considera la presencia de errores ortográficos en el idioma español. El algoritmo propuesto se comparó con nueve técnicas para la detección de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras técnicas y evidencian oportunidades para mejorar el análisis de información en el idioma español.Downloads
Download data is not yet available.
Downloads
How to Cite
Amón, I., Moreno, F., & Echeverri, J. (2014). Algoritmo fonético para detección de cadenas de texto duplicadas en el idioma español. Revista IngenierÃas Universidad De MedellÃn, 11(20), 127–138. Retrieved from http://udem.scimago.es/index.php/ingenierias/article/view/671
Issue
Section
Articles
License
The total or partial reproduction of the contents of the journal for educational, research, or academic purposes is authorized as long as the source is cited. For reproduction for other purposes, express authorization from the Sello Editorial Universidad de MedellÃn is required.