"Os datos masivos (ou big data) son o novo ouro"

Viktor Mayer-Schönberger © El Diario

Google non tiña en mente que o seu buscador fose un corrector ortográfico. E aínda así, todos os días, miles de persoas teclean palabras na súa páxina, non para facer unha procura, senón para saber cal é a súa ortografía correcta, no canto de usar un dicionario. O que probablemente non saben (ou si), é que están a facer uso dunha das maiores bases de datos da linguaxe actualizadas ao instante. Por iso se escribes con erros o que estás a buscar, o algoritmo decátase e pregúntache se non quixeches dicir outra cousa, colocando a palabra que cre que é correcta porque moitas persoas escribírona antes ca ti.

Cando empezas a coñecer como funcionan, que posibilidades se abren e como xa se están usando, non podes deixar de velos en todas partes

Os datos masivos están presentes cada vez máis nas nosas vidas, e con todo apenas nos damos conta das súas aplicacións. Cando empezas a coñecer como funcionan, que posibilidades se abren e como xa se están usando, non podes deixar de velos en todas partes, ou mellor dito, en moitos sitios onde non imaxinabas. E pregúntaste tamén polos seus usos futuros.

Cada vez que metemos unha serie de letras nun recadro utilizando un sistema chamado reCAPTCHA para indicarlle a un computador que somos persoas, estamos a contribuír a dixitalizar textos. Dicímoslle á máquina que se le nesa palabra que un lector dixital non puido entender. O sistema presenta esa palabra a 5 persoas e se coinciden todas, dáa por válida. Desta maneira facemos útil un dato que doutra maneira sería usado só unha vez para a autenticación. Poucas persoas son conscientes de que cada vez que facemos este pequeno test de Turing estamos a contribuír a que un sistema utilizado por unhas 200.000 páxinas web, entre elas Facebook e Twitter, almacene estes datos e os utilice para escanear libros, algo que pola súa magnitude sería moi custoso producir. A idea foi do brillante Luís von Ahn, e é só unha das formas de utilizar datos masivos na era do big data.

Desta obra, o mesmo Lawrence Lessig dixo que "cada década hai un feixe de libros que cambian a forma na que ves todo. Este é un deses libros"

Viktor Mayer-Schönberger é profesor de regulación e xestión de internet na Internet Institut da Universidade de Oxford, e un dos expertos máis recoñecidos internacionalmente no mundo dos datos masivos. O seu último libro é Big data, a revolución dos datos masivos, que escribiu conxuntamente con outro experto, Kenneth Cukier, editor de datos de The Economist. Big Data, A Revolution That Will Transform How We Live, Work, and Think pode lerse online na súa versión en inglés. Neste ensaio fan unha moi boa introdución ao mundo do big data, un concepto do que se oe moito pero explícase pouco. Desta obra, o mesmo Lawrence Lessig dixo que "cada década hai un feixe de libros que cambian a forma na que ves todo. Este é un deses libros".

Big Data ilustra o que consideran o comezo dunha era, a dos datos masivos. A recolección de datos comeza a ser tan barata que xa non necesitaremos establecer unha mostra para estudar un feito de forma de atopar coñecemento, senón que poderemos analizar o conxunto total de datos, o que nos permitirá establecer resultados moito máis precisos, máis baratos e tamén máis inesperados. Pero unha correlación non é unha causalidade e estamos afeitos a buscar causas en todo, polo que esta nova era implica unha adaptación de mentalidade. Deberemos estar dispostos a aceptar resultados baseados na correlación sen entender completamente o por que (a causa).

Apenas estamos a ver o principio das súas aplicacións, coma o autocorrector que suxire palabras a medida que tecleamos, a análise de prezos que fai PriceStats, para indicar as tendencias inflacionarias e que en moitos casos é máis acertado que as estatísticas oficiais ou, Google Flu Trends, o experimento que Google puxo en marcha para monitorizar persoas con síntomas do virus H1N1 case en tempo real a través das súas procuras.

Unha correlación non é unha causalidade e estamos afeitos buscar causas en todo, polo que esta nova era implica unha adaptación de mentalidade

En Big Data tamén falan dos riscos: a obsesión cos datos e buscar causalidade onde non a hai, ou de confiar nos determinismos da predición en casos nos que se aplican castigos ou penas, sen dar lugar á posibilidade de cambio das persoas. Dalgunhas destas cousas falamos cun dos seus autores, Viktor Mayer-Schönberger.

Cal é a que poderiamos considerar a base de datos máis grande actualmente?

Iso é moi difícil de dicir, porque non podemos saber cantos datos acumularon os gobernos e as grandes corporacións, pero a miña corazonada é que a maior cantidade de datos no mundo está controlada por Google, que aparentemente ten ao redor dun millón de discos duros onde gardar datos.

Non sei se lle entendo ben, vostede menciona discos duros, pero de que capacidades falamos?

Si, estou a falar de discos duros. Entendo que teñen diferentes capacidades e de feito, tamén en Google téñenos de distintos tamaños, en tanto que son substituídos non todos dunha soa vez, senón permanentemente ao longo do tempo. Polo tanto é imposible fixar unha capacidade precisa, por iso expreseino así.

Por que os gobernos deberían ter bases de datos abertas cos datos da cidadanía? Como pode ser isto importante para o desenvolvemento dun país?

Na era dos datos masivos, os datos son o novo ouro. Pero este novo ouro só pode ser desenterrado se usamos os datos que temos. Moito valor permanece oculto porque os datos non son usados. Ter suficientes conxuntos de datos dispoñibles é esencial para que as startups que se dediquen aos datos masivos poidan prosperar, para que haxa novos produtos e servizos innovativos e para que nunha escala máis ampla poida haber crecemento económico. Aquí o goberno pode prover subsidios para estimular o emprendemento en temas de big data (e tamén para beneficiar a sociedade). Pero este subsidio non sería económico (o que é difícil de lograr nestes tempos de austeridade, doutra banda), senón que é un subsidio en forma de datos que o goberno recolleu, dos cales non se está usando todo o seu potencial e pódese pór a disposición das compañías de datos masivos e da sociedade no seu conxunto.

"Filtrar e eliminar datos irrelevantes tamén é importante na era dos datos masivos"

No seu libro anterior vostede previña sobre o perigo de non ser capaz de esquecer cada detalle, en canto o esquecemento é necesario para aprender e chegar a conclusións. Agora mostra certo optimismo polo tema dos datos masivos, pola recollida de cada pequeno detalle e a datificación de todo o posible. Cambiou a súa visión coma se isto fose un novo paradigma?

Non realmente. Eu estou moi preocupado polos datos irrelevantes que quedan gardados e non nos permiten esquecer. O que tamén trae problemas para os datos masivos -os datos irrelevantes son ruído, reducen o valor no conxunto de datos. Así é que filtrar e eliminar datos irrelevantes tamén é importante na era dos datos masivos. Pola mesma razón cheguei a crer que a protección da privacidade na era do big data require aínda máis que o que pensara en Delete [o seu libro anterior]. Agora creo que para que a nosa privacidade estea protexida nestes tempos, necesitamos facer os usuarios dos datos completamente responsables da forma na que usan os datos persoais que teñan sobre nós, como explicamos no capítulo 9 de Big Data.

En que medida foron os datos masivos a causa do éxito de compañías como Facebook, Gmail, Netflix ou Amazon?

Nunha medida moi, moi ampla. Google non existiría sen os datos masivos, tampouco Facebook. E Amazon supostamente obtivo un terzo das súas ganancias de produtos que a xente compra polo sistema de recomendacións de Amazon, que non é outra cousa que [utilización de] datos masivos.

"A min tamén me preocupa o perigo de que a análise de datos masivos sexa abusado ou usado de mala maneira buscando relacións causais, para castigar as persoas baseándose en predicións"

Supoño que a maioría de preguntas que lle fan son sobre os riscos de vivir nunha sorte de estado de determinismo dos datos. Cre que isto é porque non estamos realmente preparados para pensar nestes termos? Canto tempo queda ata que a sociedade aprenda a manexar os datos sen caer en extremismos?

A min tamén me preocupa o perigo de que a análise de datos masivos sexa abusado ou usado de mala maneira buscando relacións causais, para castigar as persoas baseándose en predicións. A lección clave que a nosa sociedade e que todas as persoas que toman decisións -especialmente os que se atopan no goberno- necesitan aprender é que os datos masivos poden mostrar correlacións, o que, pero non causalidade, o por que. Unha vez que entendamos esta lección (e por tanto a limitación inherente aos datos masivos), creo que seremos capaces de cultivar moito do tremendo potencial dos datos masivos sen expornos demasiado aos riscos do seu lado escuro.

No libro vostede indica que estamos baixo un estado de vixilancia. Cal é a súa posición persoal en temas como dar información privada ou persoal a cambio de obter mellores servizos, por exemplo como en Gmail ou Facebook? Por exemplo, vostede dá o seu código postal cando vai de compras? Algunha vez declina dar datos que son requiridos para usar servizos gratuítos na web?

Si, eu rexeito dar información persoal que sinto que é innecesaria para a outra parte. Deixei de usar un servizo de aluguer de coches porque usaban prácticas intrusivas e deixei de comprar en sitios online pola mesma razón. Creo que os consumidores debemos resistirnos ás veces, especialmente cando se nos pide dar información sen causa e sen a contraprestación dun mellor servizo.

"Deixei de usar un servizo de aluguer de coches porque usaban prácticas intrusivas e deixei de comprar en sitios online pola mesma razón. Creo que os consumidores debemos resistirnos ás veces"

Compartir información é parte da operativa habitual de servizos online, pero as persoas están a volverse máis conscientes da importancia de protexer os seus datos persoais. Cre que nun futuro teremos unha especie nova de poder colectivo nesta área, da mesma maneira en que agora temos certo poder coas nosas accións como consumidores?

Posiblemente. E pode ser que teñamos novos intermediarios que nos axuden, como un colectivo de consumidores que negocie con quen usan os nosos datos. Así poderiamos superar o que se chama o problema da acción colectiva, é dicir, que só se moitos consumidores se agrupan nun colectivo poden crear un contrapoder aos intereses de quen teñen os datos, pero esa agrupación é difícil de lograr. Quizais aquí poderían axudar como intermediarias novas plataformas operativas para a utilización de datos.

Como cre que afectará esta nova relevancia da correlación fronte á causalidade na nosa vida cotiá? A xente deixará de preguntarse polas causalidades lóxicas?

Non, como humanos estamos configurados para buscar causalidades. Pero necesitamos darnos conta de que as correlacións a miúdo ofrecen información valiosa e son moito máis fáciles de identificar comparadas coa causalidade real. A miúdo pensamos que coñecemos as causas de certas cosas pero non é así realmente, e isto é peor que non coñecer a causa en absoluto. Así é que necesitamos ter humildade cando pensamos na causalidade, e estar preparados para aceptar as correlacións.

"O big data cambia a forma en que as máquinas pensan -desde tratar de ensinarlles regras até ter estatísticas para resolver cuestións sen a necesidade de entender o porqué"

O big data cambia a maneira na que as máquinas pensan (por exemplo cando falamos de procuras semánticas ou cando comezan a dar mellores resultados) ou están as máquinas cambiando a maneira en que nós pensamos?

O big data cambia a forma en que as máquinas pensan -desde tratar de ensinarlles regras até ter estatísticas para resolver cuestións sen a necesidade de entender o porqué-. Iso cambia a forma en que deixamos os computadores facer cousas -desde traducir linguaxes até facer recomendacións de libros- pero non cambia a maneira na que nós pensamos.

"Os xornalistas non necesitan aprender a programar, pero si necesitan desenvolver mentalidade de datos masivos, de maneira en que entendan que os datos conteñen historias que poden quedar sen ser contadas"

Para os que traballamos con información parece ser necesario que saibamos como operar con datos masivos. Deberiamos aprender programación os xornalistas? Ou as competencias para manexar grandes cantidades de datos deberían ser restrinxidas a algúns expertos?

Os xornalistas non necesitan aprender a programar, pero si necesitan desenvolver mentalidade de datos masivos, de maneira en que entendan que os datos conteñen historias que poden quedar sen ser contadas; e que poidan tomar datos e unha idea e coa axuda dun experto (da mesma maneira en que traballan con fotógrafos e artistas gráficos agora) poidan contar esa historia.

Viktor Mayer-Schönberger © El Diario

Grazas ás socias e socios editamos un xornal plural

As socias e socios de Praza.gal son esenciais para editarmos cada día un xornal plural. Dende moi pouco a túa achega económica pode axudarnos a soster e ampliar a nosa redacción e, así, a contarmos máis, mellor e sen cancelas.