Jordi Vitrià

Resources for Data Scientists

2020-03-23T00:00:00-07:00

Looking for resources to understand the math behind data science and machine learning? This is my advice.

Mathematics for Machine Learning, by Marc Peter Deisenroth, A. Aldo Faisal, and Cheng Soon Ong. Published by Cambridge University Press.
Probability Course EDX.
Immersive linear algebra by J. Ström, K. Åström, and T. Akenine-Möller
Basic Linear Algebra for Deep Learning and Machine Learning Python Tutorial

If you are not proficient in Python:

Què hi ha més enllà de les dades massives?

2017-11-09T00:00:00-08:00

Published in .ambiental (La revista del Col·legi d’Ambientòlegs de Catalunya).

Author: Jordi Vitrià

El món de la tecnologia es procliu a generar paraules que, en els millors dels casos, actuen com a paraigües de conceptes complexes però difusos. Si bé durant els primers anys d’aquest segle el concepte “mòbil” era el líder mediàtic indiscutible (aplicacions mòbils, plataformes mòbils, computació mòbil, etc.), durant els darrers anys el “Big Data” i més recentment la “Data Science” li han pres el protagonisme. Què hi ha darrera d’aquests conceptes?

Dades massives

El processament de dades massives (Big Data) és un concepte molt usat en el món de l’empresa que en la seva versió més estricte no denota res més que una sèrie de tecnologies informàtiques que ens permeten, mitjançant l’ús de xarxes d’ordinadors, abordar el processament de gran volums d’informació. Aquesta necessitat s’ha generat a causa d’un fenomen d’abast global que s’ha anomenat datificació: la capacitat de guardar en format digital una sèrie d’elements informatius que fa uns quants anys eren impensables. Qui podia pensar fa uns anys que pràcticament totes les fotografies que es fan al món estarien en format digital i moltes d’elles accessibles en línia? O que es podrien capturar els patrons de consum de música a partir de les plataformes digitals? O que les ciutats intel·ligents ens donarien informació en temps real sobre el seu funcionament? Però la capacitat de procés no justifica el ressò mediàtic del terme, ni explica les posicions polaritzades que genera. Aquests factors estan principalment lligats a dos aspectes. El primer és que en molts casos les dades massives són dades personals que defineixen les característiques, els gustos, els desitjos o el comportament de les persones. És evident que el mal ús d’aquestes dades és un tema greu i per tant requereixen un tractament específic i fins i tot una legislació més avançada que l’actual. El segon factor és més subtil i té relació amb les possibilitats que s’obren quan les dades, personals o no, assoleixen una certa massa crítica. Aquestes possibilitats plantegen canvis en els models de gestió i presa de decisions a l’empresa, canvis en els models de planificació i rendiment de comptes als governs, canvis en el sistema econòmic, que passa per tenir un sector estratègic basat en la indústria del coneixement, i fins i tot canvis en el model de generació de coneixement basat en el mètode científic.

Ciència de dades

La disposició de grans quantitats de dades i de la capacitat de processar-la no implica necessàriament que les conclusions que generem a partir d’elles siguin correctes. Per assegurar aquest aspecte ens cal un enfocament metodològic, no molt diferent del mètode científic que fa segles que estem usant, que sigui aplicable a gran escala i en àmbits molt diversos. Aquesta és la tasca de la Ciència de Dades, un nou àmbit professional centrat en aquests aspectes. El científic de dades serà en poc temps una figura ubiqua a empreses i administracions que avaluarà la qualitat de les dades en el seu origen, definirà polítiques de governança de les dades que assegurin el seu cicle de vida, proposarà models analítics que responguin preguntes rellevants i validarà les respostes tant des del punt de vista del problema com des del punt de vista ètic o legal.

Intel·ligència artificial

El binomi format per les dades massives i la ciència de dades s’ha vist impulsat darrerament per un tercer concepte: la intel·ligència artificial. Lluny de representar un concepte d’intel·ligència assimilable a un humà, aquest terme s’ha fet servir per representar un seguit de resultats científics recents que permeten a les màquines aprendre a partir de l’experiència i extreure informació útil de fonts d’informació complexes (imatges, senyals d’àudio, etc.). Aquests avanços faran viable en pocs anys el cotxe autònom però també altres aplicacions menys visibles com l’anàlisi massiva d’imatges de satèl·lit d’alta resolució o la interpretació de les imatges mèdiques.

El futur que ens espera

Les aplicacions futures en el camp de les ciències ambientals quan pensem en la combinació de dades massives, ciència de dades i intel·ligència artificial són moltes. Aquesta combinació ens obre la porta a pensar en la comprensió de la dinàmica de sistemes acoblats en els que interaccionen humans i sistemes naturals. Fins i tot podem pensar en models de simulació que ens permetin avaluar intervencions en aquests sistemes. Problemes com el canvi climàtic, l’extinció de la fauna i l’anàlisi de xarxes ecològiques prenen una altra dimensió quan són considerats des d’aquesta perspectiva, que ens permet integrar milions de sensors ambientals, la monitorització a partir de drons (aeris o marins) i constel·lacions de centenars de microsatèl·lits.

What is Data Science?

2017-09-27T00:00:00-07:00

Excerpt from “Introduction to Data Science. A Python Approach to Concepts, Techniques and Applications”, Springer International Publishing, 2017.

Author: Jordi Vitrià

Abstract: In this era, where a huge amount of information from different fields is gathered and stored, its analysis and the extraction of value have become one of the most attractive tasks for companies and society in general. The design of solutions for the new questions emerged from data has required multidisciplinary teams. Computer scientists, statisticians, mathematicians, biologists, journalists and sociologists, as well as many others are now working together in order to provide knowledge from data. This new interdisciplinary field is called data science.

You have no doubt already experienced data science inseveral forms. When you are looking for information onthe web by using a search engine or asking your mobilephone for directions, you are interacting with data science products. Data science has been behind resolving some of our most common daily tasks for several years. Most of the scientific methods that power data science are not new and they have been out there, waiting for applications to be developed, for a long time. Statistics is an old science that stands on the shoulders of eighteenth century giants such as Pierre Simon Laplace (1749-1827) and Thomas Bayes (1701-1761). Machine learning is younger, but it has already moved beyond its infancy and can be considered a well-established discipline. Computer science changed our lives several decades ago and continues to do so; but it cannot be considered new. So, why is data science seen as a novel trend within business reviews, in technology blogs and at academic conferences?

The novelty of data science is not rooted in the latest scientific knowledge, but in a disruptive change in our society that has been caused by the evolution of technology: datification. Datification is the process of rendering into data aspects of the world that have never been quantified before. At the personal level, the list of datified concepts is very long and still growing: business networks, the lists of books we are reading, the films we enjoy, the food we eat, our physical activity, our purchases, our driving behavior, and so on. Even our thoughts are datified when we publish them on our favorite social network; and in a not so distant future, your gaze could be datified by wearable vision registering devices. At the business level, companies are datifying semi-structured data tha twere previously discarded: web activity logs, computer network activity, machinery signals, etc. Non-structured data, such as written reports, e-mails or voice recordings, are now being stored not only for archive purposes but also to be analyzed.

However, datification is not the only ingredient of the data science revolution. The other ingredient is the democratization of data analysis. Large companies suchas Google, Yahoo, IBM or SAS were the only players inthis field when data science had no name. At the beginning of the century, the huge computational resources of those companies allowed them to take advantage of datification by using analytical techniques to develop innovative products and even to take decisions about their own business. Today, the analytical gap between those companies and the rest of the world (companies and people) is shrinking. Access to cloud computing allows any individual to analyze huge amounts of data in short periods of time. Analytical knowledge is free and most of the crucial algorithms that are needed to create a solution can be found, because open source development is the norm in this field. As a result, the possibility of using rich data to take evidence-based decisions is open to virtually any person or company.

Data science is commonly defined as a methodologyby which to infer actionable insights from data. This is a subtle but important difference with respect to previous approaches to data analysis, such as business intelligence or exploratory statistics. Performing data science is a tas kwith an ambitious objective: the production of beliefs informed by data and to be used as the basis of decision making. In the absence of data, beliefs are uninformed and decisions, in the best of cases, are based on best practices or intuition. The representation of complex environments by rich data opens up the possibility of applying all the scientific knowledge we have regarding how to infer knowledge from data.

In general, data science allows us to adopt four different strategies to explore the world using data:

Probing reality. Data can be gathered by passive or by active methods. In the latter case, data represents the response of the world to our actions. Analysis of those responses can be extremely valuable when it comes to taking decisions about our subsequent actions. One of the best examples of this strategy is the use of A/B testing for web development: What is the best button size and color? The best answer can only be found byprobing the world.
Pattern discovery. Divide and conquer is an old heuristic used to solve complex problems; but it is not always easy to decide how to apply this common sense to problems. Datified problems can be analyzed automatically to discover useful patterns and natural clusters that can greatly simplify their solutions. The use of this technique to profile users is a critical ingredient today in such important fields as programmatic advertising or digital marketing.
Predicting future events. Since the early days of statistics, one of the most important scientific questions has been how to build robust data models that are capable of predicting future data samples. Predictive analytics allows decisions to be taken in response to future events; not only reactively. Of course, it is not possible to predict the future in any environment and there will always be unpredictable events; but the identification of predictable events represents valuable knowledge. For example, predictive analytics can be used to optimize the tasks planned for retail store staff during thefollowing week, by analyzing data such as weather, historic sales, traffic conditions, etc.
Understanding people and the world. This is an objective that at the moment is beyond the scope of most companies and people, but large companies and governments are investing considerable amounts of money in research areas such as understanding natural language, computer vision, psychology and neuroscience. Scientific understanding of these areas is important for data science because in the end, in order to take optimal decisions, it is necessary to know the real processes that drive people’s decisions and behavior. The development of deep learning methods for natural language understanding and for visual object recognition is agood example of this kind of research.

¿Qué leer sobre Data Science & Big Data?

2017-09-27T00:00:00-07:00

Sección “¿Qué leer?” aparecida en Vanguardia Dossier nº63, El imperio de Silicon Valley y su nuevo orden mundial.

Autor: Jordi Vitrià

La señal y el ruido

NATE SILVER. PENÍNSULA (MADRID), 2014. 656 PÁGINAS.

Detrás de cada gran análisis de datos hay un gran analista, y Nate Silver es uno de los más conocidos mundialmente. Su fama como analista empieza con el desarrollo de un modelo predictivo a partir de datos sobre el rendimiento y la carrera deportiva de los jugadores de béisbol americanos. Esta fama llega a su punto álgido en el año 2008 cuando sus modelos predicen correctamente el resultado de las elecciones presidenciales americanas en 49 de los 50 estados. El libro hace un repaso de su vida profesional y constituye una profunda reflexión de los límites de los modelos predictivos que se usan en el mundo de los macrodatos. No ahorra críticas a colegas poco escrupulosos y describe magistralmente una realidad que debería ser conocida por todo el mundo: los datos pueden servir tanto para descubrir y entender la realidad como para mentir sobre ella. Una de las conclusiones más interesantes del libro es que los analistas que elaboran buenas predicciones deben más su éxito a la selección del problema que a la técnica usada. Una conclusión lógica dado el personaje.

The Master Algorithm

PEDRO DOMINGOS. PENGUIN BOOKS (LONDRES), 2015. 352 PÁGINAS.

Si hay algún concepto que está intentado quitar el liderazgo mediático al término big data es la inteligencia artificial. ¿Nos robarán los puestos de trabajo los robots? ¿Puede un robot sustituir a un directivo? ¿Debemos preocuparnos por nuestro futuro como especie? Estas preguntas han aparecido en los medios recientemente y hasta han sido debatidas en el foro de Davos de 2016. La inteligencia artificial es científicamente una meta aún muy lejana, pero algunas de las técnicas que se han desarrollado en esta lar-ga travesía han irrumpido con fuerza en varios negocios, cambiando radicalmen-te su cadena de valor y también redefiniendo los puestos de trabajo. Pedro Domingos, un investigador de larga tra-yectoria en el campo del aprendizaje automático o Machine Learning, repasa las formas posibles en que un ordenador puede mejorar su rendimiento a partir de la experiencia y señala las limitaciones actuales. El valor de este libro es la desmitificación de un campo científico puntero por la vía de una explicación clara y al alcance de un público amplio. Después de leerlo, el temor sobre el futuro de nuestra especie que pueda tener el lector se situará en cotas de razonable tranquilidad.

Data and Goliath

BRUCE SCHNEIER. W. W. NORTON & COMPANY (Nueva York), 2016. 426 PÁGINAS.

Bruce Schneier es un experto mundial en temas de seguridad cibernética que conoce desde dentro los peligros del uso sin escrúpulos de la tecnología. Este libro nos ilustra sobre uno de estos peligros: la recolección indiscriminada de datos personales por parte de empresas y gobiernos, muchas veces con la ingenua complacencia del usuario/ciudadano. El libro se divide en tres grandes apartados. En el primero de ellos se hace un repaso exhaustivo de la situación actual y de los intereses que hay detrás de la trivialización del concepto privacidad. En el segundo se repasan los efectos nocivos sobre nuestras vidas, sobre el sano desarrollo de un tejido empresarial competitivo y hasta sobre nuestro sistema de libertades políticas. El último apartado, el de más valor desde mi punto de vista, tiene un carácter propositivo y plantea un gran listado de acciones a emprender si queremos corregir esta deriva.

Naked Diplomacy

TOM FLETCHER. HARPER COLLINS (NUEVA YORK), 2016. 320 PÁGINAS.

¿Quien es más poderoso hoy en día, el embajador del Reino Unido en Estados Unidos o el empleado de Google encargado de las relaciones con la Unión Europea? ¿Tiene aún la diplomacia algún rol destacado en un mundo hiperconectado? ¿Cual es la esencia del poder en la actualidad? Estas preguntas no tienen una respuesta clara ni evidente, pero este libro de Tom Fletcher, un joven “genio diplomático” según Gordon Brown, es un elemento imprescindible para construir una respuesta. El autor, con una amplísima experiencia como diplomático británico, nos presenta su visión sobre los aspectos transformativos de la tecnología en el mundo de las relaciones entre países. La conclusión más importante es que la diplomacia del futuro es demasiado importante para ser dejada en manos de los políticos y los diplomáticos y que la tecnología presenta una oportunidad de oro a los ciudadanos para incorporarse a esta importante tarea.

Weapons of Math Destruction

CATHY O’NEIL. HARVARD UNIVERSITY PRESS (CAMBRIDGE, ESTADOS UNIDOS), 2016. 272 PÁGINAS.

Este es un libro escrito desde la trinchera del activismo social por una persona que conoce, a causa de su carrera profesional, el lado oscuro del procesamiento masivo de datos aplicado a los negocios. Cathy O’Neil ha seleccionado para este libro ocho aspectos concretos en los que los abusos tecnológicos han tenido efectos nocivos sobre la vida de personas concretas. Ya sea la búsqueda de un trabajo en una gran empresa, la aplicación a una institución educativa para entrar como alumno o la demanda de un crédito a una entidad financiera, estas acciones pueden convertirse en una actividad de riesgo si formas parte de algún segmento social marginado. El contenido es duro y no puede dejar impasible a ningún lector sensible pero también tiene grandes momentos de humor corrosivo, empezando por el título, que lo convierten en un gran libro.

¿Quién controla el futuro?

JARON LANIER. DEBATE (BARCELONA), 2015. 464 PÁGINAS.

Jaron Lanier es un clásico entre los críticos del rumbo que ha tomado la industria tecnológica en los últimos años. Su idea central es que la irrupción de las grandes plataformas de recolección, distribución y control de contenidos usan un bien común producido por todos nosotros para desarrollar grandes monopolios que son dañinos para la sociedad en general. Su solución: retomar el control de la información por parte de quien la genera en detrimento de quien la distribuye. Su visión del futuro: una sociedad, con una economía basada en la información, en la que la gente es remunerada por lo que hace y comparte en la red.

The Black Box Society

FRANK PASQUALE. HARVARD UNIVERSITY PRESS (CAMBRIDGE, ESTADOS UNIDOS), 2016. 260 PÁGINAS.

Google, Facebook, Apple, Twitter, Amazon, los bancos, las agencias de crédito, tienen la capacidad de incidir en el de-venir de nuestras vidas a un nivel hasta ahora desconocido. Esta capacidad se ve incrementada a cotas aún superio-res cuando los gobiernos, impulsados por fenómenos como el terrorismo, y estas empresas trabajan de forma concertada para obtener y procesar datos de los ciudadanos. El autor nos ilustra con múltiples ejemplos sobre estos peligros, basados en lo que llama la tecnología de la vigilancia, para acabar llevando la discusión al terreno que le corresponde: la política. Si en la actualidad vivimos en una sociedad asimilable a una caja negra en la que muchas decisiones se basan en criterios e intereses ocultos, la política debe llevarnos a una sociedad inteligible en la que los mecanismos de toma de decisiones que afectan nuestras vidas sean conocidos y auditables.

To Save Everything,Click Here

EVGENY MOROZOV. PENGUIN (LONDRES), 2014. 432 PÁGINAS.

Evgeny Morozov es el pensador que mejor ha divulgado la visión escéptica, desde un punto de vista cultural, sobre la sociedad conectada y sobre la visión del mundo que emana del complejo tecnológico-industrial de Silicon Valley. En este libro ataca frontalmente internet como concepto susceptible de vehicular cualquier cambio social positivo y pone en duda de forma muy vehemente sus potenciales virtudes. De hecho, ¡hasta llega a poner en duda la misma existencia de internet! Aunque el libro pueda ser visto como un exponente de una visión radical antitecnológica, su lectura es intelectualmente estimulante desde cualquier otro punto de vista.

Machines of Loving Grace

JOHN MARKOFF. HARPER COLLINS (NUEVA YORK), 2016. 378 PÁGINAS.

Coches autónomos, asistentes robóticos personales, entornos sensorizados, etcétera. ¿Controlaremos nosotros el futuro o seremos nosotros controlados? El libro de John Markoff, famoso periodista científico del New York Times con un premio Pulitzer a sus espaldas, se centra en uno de los grandes debates de la humanidad: la relación entre lo humano y lo artificial. El libro hace un repaso histórico de esta cambiante relación que se inicia en la era de la automatización industrial en los años 50 y termina en la actualidad. Markoff defiende una visión no determinista del futuro tecnológico en el que las decisiones que se tomen hoy determinarán el rumbo hacia una sociedad mejor o hacia una distopía en la que lo humano pase a un segundo plano. También señala acertadamente un ingrediente crítico para esta toma de decisiones: la ética de lo artificial.