Algoritmo fonÃ©tico para detecciÃ³n de cadenas de texto duplicadas en el idioma espaÃ±ol

IvÃ¡n AmÃ³n; Francisco Moreno; Jaime Echeverri

Authors

IvÃ¡n AmÃ³n Universidad Pontificia Bolivariana
Francisco Moreno Universidad Nacional de Colombia
Jaime Echeverri Universidad de MedellÃn

Keywords:

Limpieza de datos, calidad de datos, detecciÃ³n de duplicados, funciones de similitud, algoritmos fonÃ©ticos.

Abstract

Con frecuencia datos que deberÃan estar escritos de forma idÃ©ntica no lo estÃ¡n debido a errores ortogrÃ¡ficos y tipogrÃ¡ficos, variaciones en el orden de las palabras, uso de prefijos y sufijos, entre otros. Las tÃ©cnicas fonÃ©ticas para detecciÃ³n de duplicados no estÃ¡n orientadas al idioma espaÃ±ol, lo que dificulta la identificaciÃ³n y correcciÃ³n de problemas como errores ortogrÃ¡ficos en textos escritos en este idioma. En este artÃculo de investigaciÃ³n se propone un algoritmo denominado PhoneticSpanish parala detecciÃ³n de cadenas de texto duplicadas el cual considera la presencia de errores ortogrÃ¡ficos en el idioma espaÃ±ol. El algoritmo propuesto se comparÃ³ con nueve tÃ©cnicas para la detecciÃ³n de duplicados. Los resultados del algoritmo fueron satisfactorios ya que se obtuvieron mejores resultados que las otras tÃ©cnicas y evidencian oportunidades para mejorar el anÃ¡lisis de informaciÃ³n en el idioma espaÃ±ol.

Downloads

Download data is not yet available.

Author Biographies

IvÃ¡n AmÃ³n, Universidad Pontificia Bolivariana

Facultad de IngenierÃa InformÃ¡tica y Telecomunicaciones; Grupo de InvestigaciÃ³n GIDATI; Universidad Pontificia Bolivarianaâ€“MedellÃn Colombia; MSc Ingeniero de Sistemas, docente titular UPB.

Francisco Moreno, Universidad Nacional de Colombia

Escuela de Sistemas; Universidad Nacional de Colombiaâ€“MedellÃn; PhD Ingeniero de sistemas, docente investigador, UN.

Jaime Echeverri, Universidad de MedellÃn

Facultad de IngenierÃa; IngenierÃa de Sistemas, Universidad de MedellÃn; PhD( c ) IngenierÃa de Sistemas, docente investigador, UN.

Algoritmo fonÃ©tico para detecciÃ³n de cadenas de texto duplicadas en el idioma espaÃ±ol

Authors

Keywords:

Abstract

Downloads

Author Biographies

IvÃ¡n AmÃ³n, Universidad Pontificia Bolivariana

Francisco Moreno, Universidad Nacional de Colombia

Jaime Echeverri, Universidad de MedellÃn

Downloads

How to Cite

Issue

Section

License

Most read articles by the same author(s)

Make a Submission

Algoritmo fonÃ©tico para detecciÃ³n de cadenas de texto duplicadas en el idioma espaÃ±ol

Authors

Keywords:

Abstract

Downloads

Author Biographies

IvÃ¡n AmÃ³n, Universidad Pontificia Bolivariana

Francisco Moreno, Universidad Nacional de Colombia

Jaime Echeverri, Universidad de MedellÃ­n

Downloads

How to Cite

Issue

Section

License

Most read articles by the same author(s)

Make a Submission

Jaime Echeverri, Universidad de MedellÃn