¿Qué son los Datos Sintéticos?
Se presenta el uso e importancia de los datos sintéticos que preservan la privacidad, en una época donde la intimidad se ve mermada cada vez más.
¿Qué son los Datos Sintéticos?
Por Daniel Mavilo Calderon Nieto
Se plantea el uso que de los datos sintéticos (en inglés, Synthetic Data) en las diferentes problemáticas y en específico la importancia en la protección de la privacidad de datos, porque debido a los últimos años la difusión de información es mayor y la intimidad de todas las personas ha sido mermada; en consecuencia, se investigan soluciones frente a ello y un camino son los datos sintéticos. Además, los datos reales en general tienden a ser fijos, esto quiere decir que normalmente la cantidad de datos reales no es la necesaria para entrenar algún determinado modelo, por ende, el modelo brindaría resultados poco confiables, una solución es generar datos sintéticos que puedan ser tan grandes como se requieran [1]. En el desarrollo se extenderá lo mencionado y haré mención de otras aplicaciones de los datos sintéticos.
Los datos sintéticos vienen de los datos reales y generados a través de la computadora o algoritmos, no son recopilados del mundo real. La experiencia resalta que los datos sintéticos tienden a ser mejores que los datos reales al momento de ser entrenados diversos modelos, en pocas palabras los datos sintéticos es una representación de los datos reales [2].
Origen
En 1993, en un artículo que es considerado como el surgimiento de datos sintéticos realizado por Donald B. Rubin, un profesor de estadística de Harvard, utiliza este término para referirse a múltiples conjuntos de datos simulados [2].
La importancia de los datos sintéticos
Para que un modelo sea más preciso es necesario un volumen de datos considerable, en estas circunstancias se introducen los datos sintéticos en casos donde los datos reales son escasos; por último, los datos sintéticos son ideales para enfrentar los problemas de privacidad, además de ser más económicos [2]. En la Figura 1, apreciamos la creciente participación de los datos sintéticos en los siguientes años.

Aplicación
Los datos sintéticos son usados en todos los campos por su estrecha relación con los datos reales, por ejemplo, en la detección de texto en imágenes naturales [3], estimación de áreas pequeñas [4], el aprendizaje de reglas de clasificación [1], recuperar variaciones laterales de las curvas de dispersión de ondas superficiales [5], preservar la privacidad [6]. Esta última es una de las problemáticas que se busca resolver puesto que en la actualidad la privacidad de todas las personas suele ser en varios momentos amenazadas por diferentes personas o entidades cibernéticas.
Una alternativa generalmente eficaz es compensar las preocupaciones por la privacidad con el anonimato, pero aún así esto no lo garantiza pues los datos anónimos se pueden correlacionar y quedar expuestos a violaciones de seguridad [9].
Cómo se generan
Surgen a través de un modelo de Machine Learning entrenado en base a los datos originales, con el objetivo de que los datos sintéticos y los datos reales contengan propiedades iguales [7]. El SVM (por sus siglas en inglés, Support Vector Machines) o máquinas de vectores de soporte es uno de los modelos usados para generar conjuntos de datos sintéticos [8].
Conclusión
La problemática de tener escasos datos para entrenar que generan resultados poco precisos se va resolviendo con la llegada de los datos sintéticos o artificiales, de esta forma beneficia a todos los campos de investigación que han implementado la inteligencia artificial. Los datos sintéticos es un aporte innovador que se está desarrollando y a la vez genera nuevas leyes más estrictas debido a que se trata de datos generados por algoritmos a partir de los datos reales.
Referencias
[1] Liu, R., Fang, B., Tang, Y. Y., and Chan, P. P. K., “Synthetic Data Generator for Classification Rules Learning,” 7th International Conference on Cloud Computing and Big Data (CCBD), 2016.
[2] Gerard Andrews, “¿Qué son los Datos Sintéticos,” Disponible: https://la.blogs.nvidia.com/2021/07/20/que-son-los-datos-sinteticos/, Jul. 20, 2021.
[3] Gupta, A., Vedaldi, A., and Zisserman, A., “Synthetic Data for Text Localisation in Natural Images,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[4] Sakshaug, J. W., and Raghunathan, T. E., “Synthetic Data for Small Area Estimation,” Lecture Notes in Computer Science, pp. 162–173, 2010.
[5] Boiero, D., and Socco, L. V., “Retrieving lateral variations from surface wave dispersion curves,” Geophysical Prospecting, 2010.
[6] Ping, H., Stoyanovich, J., and Howe, B., “DataSynthesizer,” Proceedings of the 29th International Conference on Scientific and Statistical Database Management - SSDBM ’17, 2017.
[7] Manuel Delgado, T., “Qué son los Datos Sintéticos,” Disponible: https://manueldelgado.com/que-son-los-datos-sinteticos/, Dic. 20, 2021.
[8] Drechsler, J., “Using Support Vector Machines for Generating Synthetic Datasets,” Lecture Notes in Computer Science, pp. 148–161, 2010.
[9] Mauricio Arancibia, “Cómo los datos sintéticos podrían salvar la AI,” Disponible: https://simgular.com/2021/03/24/como-los-datos-sinteticos-podrian-salvar-la-ia/, Mar. 24, 2021.