Michal Collemiche, VP at AT&T Mexico, awarded by Mexican Government for his work on the AMBER Alert. Michael has developed an intelligent SMS-based system that identifies relevant people to send an AMBERT alert to based on location and demographics powered by Grandata's Social Universe. Very proud to be helping society to fight crime with data!
Grandata's Scientific Advisor MIT Prof. Marta González: 'Somos 93% previsíveis' - http://oglobo.globo.com/sociedade/conte-algo-que-nao-sei/marta-gonzalez-fisica-professora-somos-93-previsiveis-17178081#ixzz3iuX0FP5C
Fecha y hora: miércoles 19 de agosto de 2015 a las 8:30 hs.
Lugar: Aula Magna, Pabellón 1 de Ciudad Universitaria
Vení al primer Workshop de Data Science y enterate de los principales casos del sector público y de la industria.
El primer Workshop Argentino en Ciencia de Datos (Data Science) es una actividad intensiva, enfocada en temáticas de Big Data aplicadas a los sectores productivos y públicos. Cuenta con la presencia de los principales especialistas en el análisis y gestión de grandes volúmenes de datos a nivel local.
En este evento encontrarás las mejores oportunidades para vincularte con representantes del sector público y gerentes de empresas de tecnología. Cada presentación de caso tendrá un espacio de networking con los expositores.
Inscripción gratuita. Para inscribirse por favor completar el formulario:
http://bit.ly/1SHBphf
PROGRAMA PRELIMINAR
8:30hs. Acreditación
9:00 hs. Acto de Apertura
9:15 hs. Charla Inaugural sobre Desafíos y oportunidades de Big Data en Argentina
CIECTI, Ministerio de Ciencia, Tecnología e Innovación Productiva. Proyecto “Big Data para el desarrollo”.
9:45 hs. 1º Eje temático: Sector Público & Datos
Casos del Ministerio de Modernización, Gobierno de la Ciudad de Buenos Aires.
10:15 hs. Coffee Break
10:30 hs. 2º Eje temático: Software & Business Intelligence
Presentaciones de Casos
Caso BeSmart
Caso Globant
Caso BluePatagon
11:30 hs. 3º Eje temático: Internet & Marketing Online
Analysis of mobile phone data to model flows of people within a city
by Carolina Lang, Grandata Labs.
Cell phone technology generates massive amounts of data. Although this data has been gathered for billing and logging purposes, today it gains a much higher value, because its volume makes it very useful to big data analyses.
In this project in particular, we analyze the viability of using cell phone records to lower the cost of urban planning, in particular, to find out how people travel in a particular city (in this case, Buenos Aires, our hometown).
We use cell phone data to make an estimation of the distribution of the population of the city and then compare it with more standard methods, such as urban polling (e.g. origin-destination surveys). These methods have a lower reach, as the number of people that can be interviewed at a reasonable cost is in the order of ten thousands (in the case of Buenos Aires). Moreover, these polling methods are held once in a decade in the cities that carry them on more frequently.
On the other hand, new methods based on cell phone data, although less profound in relation to the kind of data they provide, can be used (if they are proved reliable) to keep a real-time track of the flow of people among the different parts of the city. The objective, then, is to effectively prove them reliable enough, and then to explore the new possibilities that this methodology offers.
We have a dataset with approx. 2,1 million mobile phone users (1000 times the number of people in the Buenos Aires polls), and after filtering part of them, we keep 600K “valid” users. We consider that a user is valid if it provides us enough information about its mobility pattern (that is, the places where she/he has been). Here we can see the distribution of people among the communes, and their geographic disposition:
We listed all the calls of every user in a given timespan, in our case 5 months, and built with that information the “appearance map” for every person in our dataset.
We differentiated four types of days:
Weekday (Monday to Thursday)
Friday
Saturday
Sunday
and four periods of the day:
Morning (5am to 11am)
Afternoon (11am to 3pm)
Evening (3pm to 8pm)
Night (8pm to 5am of the next day)
This division generates 16 “time cells”. Later we mapped each call to a commune, and aggregated the calls in each of them, grouping by commune, and normalized them to get, for each time cell, a probability distribution of that user over the communes.
We analyzed the user’s probability maps and kept those who appeared at least once in each time cell (so the total quantity of people seen in each time cell remains constant). After that filtering, we determined the home of the person (based on the predominant value, at night, of the location of the call records) and using that information we extrapolated our sample to the total of the population of the city (using each commune’s population, given by an official census, and the number of users of each commune according to our database after filtering). The sum of these values, over all the users, is the final estimate of people in each commune, for each time cell.
The first experiment was to compare with the urban poll’s data to verify the reliability of the method. In the following graph, we show the comparison for two very different kind of communes: commune 1 (there are lots of offices), and commune 14 (there are houses, and lots of bars):
We observed that our method’s estimations and the poll’s are similar, which validates the reliability of our method. So the next step is to wonder what happens when we observe the weekends (there aren’t urban polls for non-working days).
Here’s a graphic that shows the quantity of people for each time cell, for commune 14:
We can see that this figure makes sense, given that this commune is mostly known for its nightlife, and density of bars and clubs.
Last but not least, we have plotted the distribution of the origin of the people for a typical working day, for each neighborhood.
Here we can see some patterns. The dark diagonal shows that in most neighborhoods, a big percentage of the people there during the day are inhabitants of the neighborhood. Also, we can see more exchange of people among communes 12, 13, 14 and 15, so there’s many people moving inside that cluster of communes. Commune 1 is lighter in the diagonal than the others, meaning that it isn’t a residential area (the interesting thing is that this matches our insight of the city).
We think that this method to estimate the population can be very useful as a complement of the traditional methods, as it allows to have a real time analysis at a considerably lower cost. To continue working on this we will consider other regions of interest, or try to have more level of detail in the mapping, but there are lots of possible expansions of this methodology.
A very useful improvement would be to add the suburbs of the city to the analysis, because there’s a lot of traffic between Buenos Aires and the suburbs (many people live there and work in the city, and for that reason have different mobility patterns than the people who live in the city).
Fiesta de fin de año del equipo de analytics de IUSACELL compartida con Grandata. Gracias a todos por una noche divertida entre colegas. Feliz Navidad!! El 2015 sera nuestro.
On October 6 and 7, 2014, I participated in the UCOOL workshop in Paris. The UCOOL project is about understanding and predicting human demanded content and mobility, and gathers participants from France, Brazil, Chile and Argentina.
During the workshop we had very interesting presentations. Artur Ziviani (from LNCC, Brazil) talked about a formal framework to work with time-varying multilayer networks. Marton Karsai (from ENS Lyon) gave a great presentation on spatiotemporal correlations and information spreading in mobile phone communication networks. Eduardo Mucelli (from Ecole Polytechnique and INRIA) spoke about measurement-driven mobile data traffic modeling in a large metropolitan area. We also had presentations from Werner Creixel (USM, Valparaiso, Chile), Hakima Chaouchi (Telecom Sud Paris) and Anelise Munaretto (UTFPR, Brazil). I presented with Jorge Brea our work on the inference of users demographic attributes (such as gender and age), based on their mobile phone usage patterns, and the topology of their social network.
After the workshop, I spent more time working with the group at INRIA Saclay, in the campus of the Ecole Polytechnique, and with the group at ENS Lyon. These were very productive days, and we are advancing in a wide range of projects:
detecting socio-cultural events,
analyzing and modeling the demand of web traffic of mobile users,
understanding correlations between different layers of human behavior (e.g. their spending behavior and their mobile phone communications), using the fact that we have a dynamic view of both layers,
summarize the geographic mobility information in aggregated variables, which can be used to refine other classifications (e.g. the age and gender classification).
Also, in Lyon, I got the chance to see the Lego Turing machine made by Yannick Leo and others (link).
Many thanks to Aline Viana (from INRIA Saclay) who organized the workshop, invited me to participate and was a great host. Finally, I look forward to the next meeting of the UCOOL team, in Valparaiso in 2015!
Moderado por Alejandro Maza y con la participación de mis amigos Santi Siri y Rudi Borrmann, más uno nuevo: Marc DaCosta, este panel tuvo como objetivo pensar sobre el futuro de los #DatosAbiertos, sus desafíos y oportunidades, pero más que nada Alejandro nos dio libertad para hablar de nuestras obsesiones sobre el tema. El resultado: un compendio de ideas abiertas (y algunas explosivas) e interpelaciones a la comunidad.
Voy a recordar aquí dos cosas: mi sensación de hacia dónde está yendo la comunidad de Datos Abiertos; y una idea que me obsesiona desde hace ya bastante tiempo.
Datos Abiertos como operador de apertura
El movimiento Datos Abiertos es mucho más que datos que ya son, o deberían ser, abiertos. Es tácticamente astuto comenzar por aquellos datos, como los generados por los Gobiernos, que por su naturaleza ya son abiertos. Pero es estratégicamente necesario reconocer (y luego planear y luego actuar) que el mayor potencial está en transformarse en la fuerza brutal y creativa que empuja a los datos a abrirse. Me faltan referencias, pero estoy seguro que lo que actualmente consideramos Datos Abiertos son una proporción insignificante comparado con los datos cerrados. Allí se esconden 3 billones de oportunidades.
¿Qué mundo tendríamos si todos los datos fueran abiertos?
Me resulta productivo pensar los extremos. Podríamos decir que #DatosAbiertos surge como respuesta a un mundo donde los datos son/están cerrados. Es el extremo opuesto que me interesa: un mundo donde todos los datos son abiertos.
De más está decir que no tengo idea qué mundo sería, pero sí que esta pregunta nos confronta con ciertos problemas fundamentales que siento debemos encarar entre todos.
Usando la analogía del –ya démodé– laissez-faire, que pretendió minimizar la intrusión del gobierno en la esfera económica. Postular ese límite nos ayudó a pensar qué mundo queríamos y abonó un debate que marcó la historia.
En este mundo imaginario donde todos los datos son abiertos un fenómeno interesante es que al "liberarse" los datos, la escasez asciende un nivel en la cadena de valor. Ahora lo escaso no es el dato (o mejor dicho, su acceso), sino la capacidad de procesarlo/darle sentido: una mezcla no evidente entre algoritmos, poder de cómputo, capacidad de almacenamiento y materia gris.
Este nuevo escenario me resonó con la historia que contó Santi en el panel, que los escribas en la edad media no sabían leer; y también con la idea de Mckenzie Wark que el capitalismo actual tiene más que ver con la posesión de los medios de mediación que con los de producción (leer).
Por último, una pregunta del público (dónde trazar la línea abierto/cerrado), me hizo pensar en otra: quién traza esa línea. Creo que existe una oportunidad concreta de que cada persona tome control de sus propios datos y asuma la responsabilidad de tener una decisión consciente sobre qué quiere compartir, con quién y para qué. Acaso en ese compromiso esté el futuro de los #DatosAbiertos.
La semana pasada, entre el 1 y 2 de Octubre, tuve el agrado de ser invitado por Alejandro Maza, fundador y CEO de OPI, como ponente en dos paneles en ConDatos: La conferencia regional de Datos Abiertos en América Latina y el Caribe.
ConDatos me ha dado la oportunidad de pensar y discutir sobre #DatosAbiertos con colegas de distintas disciplinas y formaciones.
Quiero compartirles mis notas, pero debido a que me entusiasmé escribiendo lo haré en dos partes. Aquí la primera.
Productividad y Datos Abiertos
Este panel fue moderado por Joel Gurin, con participación de Jeff Kaplan de Socrata, Moís Cherem de Enova, Alex Cantú de SkyAlert, además de la mía.
Como algunos sabrán, en Grandata trabajamos principalmente con “datos cerrados” (voy a remitir a la idea intuitiva y escapar a una definición que me excede). Es por esto que en el panel expuse los tres tipos de interacciones que encuentro entre Datos Abiertos y datos cerrados:
Los Datos Abiertos como recurso complementario a datos cerrados.
Usar datos públicamente disponibles para enriquecer análisis basados en datos cerrados. Existen muchísimos ejemplos, pero uno divertido de Grandata es cómo usamos la información (pública) del cronograma futbolístico de Argentina para mejorar la predicción la localización de una persona usando la información (cerrada) de movilidad de teléfonos celulares. Leer la cobertura de MIT Technology Review.
Los datos cerrados como generadores de Datos Abiertos.
Esto es cuando usamos datos cerrados como insumo de procesos cuyo resultado son Datos Abiertos. Un ejemplo es nuestra colaboración con MIT Humnet y el Banco Mundial, la idea fue usar datos cerrados para generar información que gobiernos puedan hacer pública, sin revelar los datos (cerrados) subyacentes.
Abriendo los datos cerrados.
La gran pregunta es por qué. Por qué Google o Goldman Sachs o Walmart abrirían sus datos. No sé la respuesta, pero creo que existe gran potencial en abrir los datos para el bien social (open data for social good). Ya hay ejemplos: el gran trabajo de Nicolás de Cordes en Data for Development de Orange, la iniciativa de Big Data for Development de LIRNE en APAC, o la utilización de datos celulares para combatir la Malaria.
Estos ejemplos son importantes por que demuestran que abrir datos tiene impacto concreto y medible para el bien social.
Todas las empresas, al final del día personas, tienen la obligación moral de abrir sus datos, por lo menos, para ayudar a construir un mundo mejor.