[:es]
Emilio Carrizosa impartiendo un seminario en el CIO el pasado 27 de mayo. | Foto: Irene Moreno
Puedes leer la primera parte de la entrevista a Emilio Carrizosa aquí.
Pregunta. La mayoría de técnicas estadísticas llevan décadas desarrolladas, pero no se han podido utilizar hasta que no se ha desarrollado la tecnología computacional necesaria. ¿Cómo compensa, en este sentido, la inversión necesaria en tecnología?
Respuesta. No hace falta una gran inversión. La tecnología está ahí y los datos están ahí. La Estadística, el Análisis de Datos del siglo XX y el previo al siglo XX era un Análisis de Datos que respondía a una realidad: que había pocos datos porque era muy costoso acceder a esos datos. Ahora mismo los datos están ahí porque estamos todos monitorizados. Y no hablemos ya si tenemos un reloj de estos modernos, o a través de nuestro teléfono móvil. Si hacemos uso de las redes sociales con más motivo todavía. Los datos están ya ahí. Si tenemos una base de datos con una cantidad ingente, sobre todo cuando estás movilizando imágenes o vídeo, el tamaño de los conjuntos de datos crece enormemente, pero ahí no está el problema. Para poder hacer un análisis sofisticado con las nuevas técnicas de ciencia de los datos, uno no necesita grandes máquinas. Ese no es el problema. Lo que necesita es conocimiento. Lo que necesita es que cada persona haya pensado y ahí es donde hay que poner una gran parte de la inversión. Las máquinas son baratas, la capacidad de cálculo se puede comprar, se pueden alquilar horas de procesamiento en máquinas que estén en la nube, o en EEUU, o dónde estén. Y ahí no está el problema, porque las máquinas ya están. Solo hace falta una pequeña inversión para adquirirlas y traerlas aquí o para alquilar espacio y tiempo de cómputo. Lo que hace falta es gente que sea capaz de transformar los datos que también están ahí en conocimiento. Y para eso, a parte de las máquinas, lo que hace falta son personas. Las estadísticas y la ciencia de los datos que tenemos hoy en día difieren fundamentalmente de la de tiempos anteriores en que antes había pocos datos. Entonces todo estaba optimizado para sacarle el máximo jugo a esos pocos datos que existían. Ahora el reto es que tenemos una cantidad ingente de datos y tengo que ver cuál es la manera de sacarle el conocimiento para que sea comprensible. Es una información útil para el que tenga que tomar las decisiones en cada momento.
P. El Big Data analiza cantidades ingentes de datos. ¿Son todos esos datos igualmente útiles? ¿Cómo podemos discriminar correctamente?
R. El reto no está en el Big Data. Este término tan sexy ha tenido mucho éxito mediático, pero más que big el adjetivo que hay que usar es complex. El problema no es que haya muchos datos, sino que hay datos complejos. Y son datos complejos cuando, de una misma persona, si estamos hablando de ciudadanos para saber a quién votarían o dónde comprarían, vamos a tener una información que pueden ser características propias del individuo relativa a su sexo, a su edad, a su trabajo o a su nivel de estudios. Luego vamos a tener otras variables que son la evolución de su cuenta corriente en el banco: si tiene o no tiene un crédito o si tiene dos. Si tiene coche o no; si alquila un coche y cada cuánto lo alquila. Eso hace que los datos, aparte de ser muchos, sean datos complejos. El que sean muchos datos es un problema menor, siempre que haya personas con una formación estadística suficiente, porque si el Big Data se reduce a meter muchos números en una máquina muy gorda y sumarlo o hacer una operación aritmética más sencilla, podremos estar orgullosos de que hemos hecho una operación aritmética sencilla con muchos números, pero es difícil que de ahí podamos extraer un conocimiento útil. Para obtener un conocimiento útil tenemos que ser capaces de discernir lo que es la paja del grano y para eso hace falta un conocimiento de formalización matemática y estadística profundo. Con el conocimiento de todos los datos que hay, posiblemente sea razonable quedarse con un conjunto mucho más pequeño. El problema no está en el tamaño, lo crítico es la complejidad que tiene, la cantidad de información que se recibe de diversas fuentes que pueden venir afectadas de ruido, que hay muchas dependencias entre ellas y que son modelos que no han estado validados previamente, lo cual supone un desafío nuevo, ya que no puedo utilizar los modelos de siempre porque las circunstancias que se dan no son las de siempre. Y tenemos un ejemplo bien sencillo cuando estamos hablando en estos días de elecciones y de predicción de resultados electorales. ¿Por qué las empresas demoscópicas unas veces aciertan y otras veces fallan estrepitosamente? ¿Por qué unas veces son capaces de detectar que un determinado partido político se va a hundir y otras no? Pues sencillamente porque estamos en una situación de inestabilidad política tremenda en la que nada se parece a lo que ha ocurrido antes. Entonces, los modelos previos no sirven. Hay que construir un modelo nuevo. No se trata de entrevistar a muchas personas. No es un problema del big, de tener una muestra de mucha gente. Se trata de coger una muestra de gente suficiente para hacer el análisis. Tampoco puedes entrevistar a poca gente, pero al mismo tiempo hacer un análisis profundo donde intervengan muchas variables y se puedan sacar variables de distintas fuentes. También hay que estudiar la evolución temporal de los análisis que se están realizando para poder hacer predicciones fiables. Entonces, hay que estar creando modelos continuamente y como son modelos no validados pues ocurre que alguna vez aciertas y otras veces te estrellas.
“El término Big Data ha tenido mucho éxito mediático, pero más que big el adjetivo que hay que usar es complex”
P. ¿Crees que los líderes políticos han aprovechado este auge del Big Data para movilizar a la población?
R. Bueno, lo intentan cuando están dándonos mensajes personalizados. Yo he jugado con mi hijo, que es universitario, a contrastar la información que él recibía y que yo recibía del mismo partido político. A él le hablaban de becas Erasmus y a mí me hablaban de pensiones. Entonces, evidentemente están sacándole un partido bastante importante a la hora de mandar los mensajes adecuados o que ellos consideran adecuados a los potenciales votantes. Ahora bien, se les está olvidando otra vez el hecho de que hay que invertir y formar a la ciudadanía en Ciencia, en Análisis de Datos… que no tienen que convertirse en unos expertos o estadísticos que compitan con los colegas del CIO o del Instituto de Matemáticas de la Universidad de Sevilla, pero sí que sepan lo suficiente para que entiendan, cuando les hablan de un valor medio o cuando están agregando cifras, qué consecuencias tiene esa manera de presentar la información que les están dando.
P. Hoy en día, existen algoritmos que parece que saben más de nosotros que nosotros mismos. Incluso también se han creado chatbots con los que puedes mantener una conversación. ¿Cómo va a afectar esto en nuestra relación con las máquinas?
R. Todo lo estamos haciendo de una manera aparentemente muy natural. Ya no nos sorprende intentar hacer una reserva de un restaurante a través del móvil. Y no solo eso, sino estar hablando con un operador virtual que cada vez es más inteligente y cada vez es más difícil que no nos responda de forma adecuada. Evidentemente hay un proceso imparable porque entre otras cosas el sistema de libre mercado en el que nos encontramos es una oportunidad de negocio enorme para las grandes compañías. De todas formas, yo no sé hasta qué punto la ciudadanía es consciente de lo que ese cambio está suponiendo en particular para un país como España, con un sistema productivo como el que tenemos. Sin entrar personalmente en la valoración del conflicto que hay en el gremio del taxi y las WTC, no debemos perder de vista que el valor añadido en uno de los casos se lo están llevando, en parte, empresas que están ubicadas en California o fuera de aquí. Empresas que están tributando fuera y que aquí están simplemente haciendo un servicio, pero que los ingenieros, los científicos y la gente que está trabajando no están aquí, sino que están trabajando fuera de aquí. Entonces, de nuevo, la relación con las máquinas cada vez va a ser mucho más amigable porque hay un interés por parte de los que venden en que así sea. Por otro lado, las autoridades públicas deberían reflexionar si podemos permitirnos un sistema en el que todo esté automatizado y la relación con el sistema productivo se base en un sistema automatizado cuyo cordón umbilical pasa por Estados Unidos o por China y cuyo valor añadido de esa producción no se queda aquí, sino que está en otro sitio. Luego, cuando a mi hijo le tengan que pagar la Erasmus o a mí me tengan que pagar la pensión, se va a hacer con las cotizaciones y con la plusvalía que haya quedado aquí, no con la que se haya ido a China o a EEUU. Y no sé hasta qué punto los ciudadanos tienen conciencia de ese problema que, a mi modo de ver, es un problema muy preocupante y sobre el que no estoy escuchando a nuestras autoridades públicas ni a nuestros gobernantes hablar de inversión en ciencia.
“Para poder hacer un análisis sofisticado con las nuevas técnicas de ciencia de los datos uno no necesita grandes máquinas, lo que necesita es conocimiento y ahí es donde hay que poner una gran parte de la inversión”
P. ¿Cómo cree que cambiará el acceso a la tecnología del Big Data en los próximos años?
R. Creo que tiene que haber un punto de ruptura en algún momento, y este punto de ruptura tiene que estar relacionado con que, de alguna manera, tiene que haber una regulación por parte de las autoridades públicas. Y ahí confío en que la Unión Europea, que en algunas ocasiones se ha preocupado por proteger los derechos individuales de los ciudadanos, necesariamente tome medidas de esta manera. No es razonable que estemos monitorizados por empresas que no tienen su sede en la Unión Europea y que no acatan las leyes de la UE. Podemos decir que nosotros hemos dado el clic y hemos aceptado las condiciones por las que mi teléfono móvil puede estar grabando ahora mismo esta conversación, pero también acepta uno el timo del tocomocho cuando le dan billetes falsos y eso se llama estafa. Y al que cae en la estafa seguramente se queda sin indemnización, sin ningún resarcimiento, pero el estafador puede acabar en la cárcel. Yo no estoy hablando ahora mismo de estafa, pero sí estoy hablando de que hay un abuso por parte de los sectores de las nuevas tecnologías en cuanto a la cantidad de información que adquieren sobre nosotros. Es verdad que nosotros hemos dado el clic en aceptar y cuando encendemos el móvil o cuando entramos en determinadas páginas web estamos aceptando el uso de cookies que van a estar haciendo la traza y que, si yo intento buscar un hotel de Elche, durante el próximo mes me van a estar saliendo en mi ordenador publicidad de hoteles de Elche, de apartamentos en Elche y de restaurantes en Elche sin pedirlo. Ahí hay un abuso que del mismo modo está ocurriendo en todo lo relacionado con la protección de datos personales, y yo creo que eso debe tener una regulación normativa. Si entramos en sectores que se están automatizando de una manera brutal, como puede ser los coches sin conductor, vamos a tener pronto coches circulando sin conductor y voy a poder pagar a la compañía para que mi coche se salte los atascos y que, en caso de una posible colisión, si hay que sacrificar a alguien, no me sacrifiquen a mí y sacrifiquen al de enfrente porque pagó menos. Eso necesita una regulación. Necesariamente tiene que haber una regulación. Esa regulación simplemente hará que este horizonte, que vemos ahora trepidante, en el que cada vez más estamos más vinculados con la tecnología, tenga que adquirir necesariamente un matiz distinto. Quizás más rígido; quizás no tan espectacular como podría ser, pero bueno es recordar que en la investigación no vale todo. Si estamos hablando de investigación con animales, no vale todo. Hacen falta unos protocolos éticos. La medicina iría mucho más rápida si pudiéramos hacer pruebas con humanos, pero eso es éticamente inaceptable. Entonces, del mismo modo, la tecnología y nuestra relación con la tecnología podría ser mucho más potente. Hay cosas éticamente reprobables y estoy convencido de que tiene que haber un cambio que nos proteja de los múltiples inconvenientes que tiene el Big Data sin mermarnos en demasía de los muchos beneficios que tiene también.
P. Antes de finalizar, ¿le gustaría añadir algo más?
R. Pues simplemente recalcar cuál es el futuro que le espera a la Estadística y a la Investigación Operativa en España. Como he dicho antes, necesitamos que nuestras autoridades públicas se vean en la necesidad de que, igual que se invierte y es absolutamente necesario que se invierta en promover, por ejemplo, la incorporación de la mujer al mundo de las STEM, de la Ciencia y la Tecnología, la Ingeniería y las Matemáticas, igualmente es necesario que toda la ciudadanía tenga una relación más amable con las STEM. En particular, con las Matemáticas y con el Análisis de Datos porque de ello depende nuestra libertad.