Determinación del umbral inferior de coincidencia aplicando medidas de edición a términos jurídicos
Resumen
Aplicar técnicas que ayuden a reducir el espacio de búsqueda en tareas de consultas a corpus jurídicos documentales es sumamente importante debido al volumen y diversidad de datos involucrados. Utilizando medidas de similitud léxica, en particular, aquellas basadas en cadenas de caracteres, es posible encontrar el umbral que determine el límite inferior aceptable del porcentaje de coincidencia de los términos que representan el mismo concepto. De este modo se minimiza la tarea manual de los expertos de dominio, ayudándolos a focalizarse en la revisión/validación de la similitud de aquellos términos que estén dentro de ese umbral de coincidencia. Seleccionando el término más representativo de cada concepto es posible reducir la matriz término-documento, punto de entrada para la búsqueda de información dentro del corpus.
En este artículo se explica el procedimiento para encontrar el umbral de coincidencia que surge al aplicar medidas de similitud léxica a ciertos grupos de términos que representan distintos escenarios jurídicos. Estas medidas son las distancias de edición de Hamming y de Levenshtein.
Los resultados muestran que el umbral puede variar según cada escenario o medida, ayudando a los expertos a centrarse en el análisis de aquellos términos cuyo porcentaje de similitud esté dentro del umbral propuesto.
Citas
'[1] O. Spositto, J. Bossero, E. Moreno, V. Ledesma, & L. Matteo. “Lexical Analysis Using Regular Expressions for Information Retrieval from a Legal Corpus”, en Computer Science – CACIC 2021. Springer International Publishing, 2022.
'[2] G. Kowalski. “Information Retrieval Systems: Theory and Implementation”, 1st ed. Norwell, MA, USA: Kluwer Academic Publishers, 1997.
'[3] C. Lorenzetti. “Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto”. Tesis Doctoral en Ciencias de la Computación - Universidad Nacional del Sur. Buenos Aires, Argentina, 2011.
'[4] G. Salton & M. Lesk. “Computer Evaluation of Indexing and Text Processing”. J. ACM, 15(1): 8–36, 1968.
'[5] P. Castells, M. Fernandez & D. Vallet. “An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval”. IEEE Transactions on Knowledge and Data Engineering. 19(2): 261 – 272, 2007.
'[6] J. Robredo. “Otimização dos processos de indexação dos documentos e de recuperação da informação mediante o uso de instrumentos de controle terminológico”. Ciência Da Informação, 47(1). 2019. Disponible en: http://revista.ibict.br/ciinf/article/view/4431. Fecha de consulta: 07/02/22.
'[7] G. Tolosa & F. Bordignon. “Introducción a la Recuperación de Información: Conceptos, modelos y algoritmos básicos”. Universidad Nacional de Luján, Argentina, 2008. Disponible en:
http://eprints.rclis.org/12243/1/Introduccion-RI-v9f.pdf. Fecha de consulta: 07/02/22.
'[8] B. Harish & S. Guru & M. Shantharamu. “Representation and Classification of Text Documents: A Brief Review”. International Journal of Computer Applications, Special Issue on RTIPPR. 1. 110 – 119, 2010.
'[9] C. Sánchez Pérez. “Clasificación de Entidades Nombradas utilizando Información Global”. Tesis de Maestría. Instituto Nacional de Astrofísica, Óptica y Electrónica. 2008. Disponible en: https://inaoe.repositorioinstitucional.mx/jspui/bitstream/1009/564/1 /SanchezPCR.pdf. Fecha de consulta: 06/03/2022.
'[10] W. Gomaa & A. Fahmy. “A Survey of Text Similarity Approaches”. International Journal of Computer Applications. 68(13), 2013.
'[11] I. Amón, C. Jiménez. “Funciones de Similitud sobre Cadenas de Texto: Una Comparación Basada en la Naturaleza de los Datos”, Disponible en: https://repositorio.unal.edu.co/bitstream/handle/unal/69915/71644758.20104.pdf?sequence=3&isAllowed=y. Fecha de consulta: 21/09/2022.
'[12] A. Elmagarmid, P. Ipeirotis, & V. Verykios. “Duplicate Record Detection: A Survey”. IEEE Transactions on Knowledge and Data Engineering, 19 (1): 1-16, 2007.
'[13] R. Hamming. “Error detecting and error correcting codes”. The Bell System Technical Journal; Vol. XXVI, No. 2, pp. 147-160, 1950.
'[14] E. Gómez Ballester, “Aportaciones a la mejora de la eficiencia de la búsqueda del vecino más cercano”, pp.5,19,137, [en línea], Fecha de consulta: 7/11/2022,
https://rua.ua.es/dspace/bitstream/10045/28363/1/tesis_%20evagomezballester.pdf
'[15] I. Amón, C. Jiménez, “Funciones de Similitud sobre Cadenas de Texto: Una Comparación Basada en la Naturaleza de los Datos”, [en línea], Fecha de consulta:21/09/2022, https://repositorio.unal.edu.co/bitstream/handle/unal/69915/71644758.20104.pdf?sequence=3&isAllowed=y
'[16] I.G. Albeniz, J.R. González de Mendivil, “Estudio sobre la detección de duplicados en orígenes de datos heterogéneos”, [en línea], Fecha de consulta: 22/09/2022, https://academica-e.unavarra.es/xmlui/bitstream/handle/2454/16765/TFG_Gorostizu_Albeniz_Ion.pdf;jsessionid=6C646114AECD758F433EF12200A60A92?sequence=1