segunda-feira, 17 de junho de 2013

Big Data ou Admirável Gado Novo?

Voltando à ferramenta Google Correlate que eu já havia abordado em post anterior, andei fazendo mais algumas experiências, com resultados curiosos:

Por exemplo, introduzi dados temporais gerados com a função do Excel 'fração do ano' que retorna a fração de dias que resta do ano em qualquer data. Ela produz um gráfico em forma de dente-de-serra, com máximo em 1 de janeiro e mínimo em 31 de dezembro.

O termo de busca que melhor se correlacionou (com um R^2 de 0.8907) foi 'mother of the bride' (mãe da noiva), seguido de 'bride dresses' (vestidos de noiva), 'flower girl dresses' (vestidos para aia) e outros relacionados com a cerimônia de casamento, como se vê da lista abaixo.

Temos de busca no Google cujas frequências melhor se correlacionam com os dados temporais 'fração do ano'

O gráfico abaixo mostra a correlação com o termo 'mother of the bride' (mãe da noiva)

Gráfico da correlação entre dados temporais de 'fração do ano' e 'mother of the bride' no Google Correlate
Parece que nos EUA, a maior preocupação no Ano Novo é com vestidos de casamento, etc.

Quando usei os mesmo dados para o Brasil, obtive que os termos de busca que melhor se relacionam são 'emprego', 'carteirinha' (de estudante), 'queda de cabelo', 'alistamento militar', etc.

Temos de busca no Google cujas frequências melhor se correlacionam no Brasil com os dados temporais 'fração do ano'
com o correspondente gráfico

Gráfico da correlação entre dados temporais de 'fração do ano' e 'emprego' no Google Correlate no Brasil

Parece que as preocupações de Ano Novo dos brasileiros são bem diferentes das dos norte-americanos.

Outra experiência que fiz foi com os dados 'winter wave' do próprio Google Correlate, cujo gráfico é uma cossenoide com máximo no início do inverno e mínimo no início do verão.

Os termos que melhor se correlacionam são 'Nordica' e 'Dalbello' (conhecidas marcas de esquis), seguidos por 'wedding soup' (uma típica sopa italiana de natal), 'colds' (resfriado), etc.

Temos de busca no Google cujas frequências melhor se correlacionam com os dados temporais 'winter wave'
com o gráfico
Gráfico da correlação entre dados temporais de 'winter wave' e 'Nordica' no Google Correlate
O mesmo conjunto de dados aplicado ao Brasil resulta em termos associados a destinos de férias de verão, etc.

Temos de busca no Google no Brasil cujas frequências melhor se correlacionam com os dados temporais 'winter wave'
com o gráfico

Gráfico da correlação entre dados temporais de 'winter wave' e 'Punta del Este' no Google Correlate no Brasil
Aproveitando a ideia, produzi os dados inversos, isto é, 'summer wave', que inseridos no Google Correlate, resultam nos termos de busca 'golf course' (percurso de golfe), 'tent' (tenda), 'dunk tank' (jogo de parques de diversão que faz uma garota cair num tanque d'água quando se acerta) e outros relacionados a atividades de férias de verão.

Temos de busca no Google cujas frequências melhor se correlacionam com os dados temporais 'summer wave'
com o gráfico abaixo para percurso de golfe.

Gráfico da correlação entre dados temporais de 'summer wave' e 'golf course' no Google Correlate
Aplicando os mesmos dados 'summer wave' para o Brasil, obtemos termos de busca principalmente associados a 'festa do peão', etc.

Temos de busca no Google no Brasil cujas frequências melhor se correlacionam com os dados temporais 'summer wave'
com o gráfico para 'peão'

Gráfico da correlação entre dados temporais de 'summer wave' e 'peão' no Google Correlate no Brasil
Outra experiência foi uma série de dados senoidal com máximo no início da primavera do hemisfério norte (início do nosso outono) que, no Brasil, correlaciona aos termos de busca 'queda de cabelo' (!?), 'vestibular de meio de ano', 'moda outono', etc.

Temos de busca no Google no Brasil cujas frequências melhor se correlacionam com os dados temporais 'spring wave'

Finalmente, outra experiência foi com uma série de dados senoidal com máximo no início do outono do hemisfério norte (início da nossa primavera) que, no Brasil, correlaciona aos termos de busca 'moda verão', 'moda primavera', 'inscrição vestibular', etc.


Concluo, com tudo isso, que, embora tenhamos plena liberdade de escolha em nossas buscas no Google, afinal somos, em conjunto, muito previsíveis.

Eh, ôô, vida de gado

como cantava Zé Ramalho em seu Admirável Gado Novo!

Big Data e Google Trends indicam queda no interesse pelos estudos ou pelo próprio Google?

Voltando à ferramenta de Big Data Google Trends que mencionei rapidamente num post anterior, ao contrário da Google Correlate que mencionei no post passado, nesta se introduz um termo de busca e ela retorna o gráfico temporal da frequência da consulta desse termo no Google.

Assim, por exemplo, introduzindo o termo de pesquisa 'Matemática' e restringindo as buscas ao Brasil, obtive o gráfico abaixo.
Gráfico da frequência de buscas do termo 'Matemática' no Brasil no Google


Inicialmente, nota-se uma clara tendência de redução de buscas ao longo do tempo, de 2004 até hoje, não sei se resultando de menor utilização do Google para pesquisas sobre Matemática ou de menor interesse em Matemática. O trecho pontilhado no extremo direito é uma previsão para 2014 realizada pelo Google Trends por extrapolação.

Em seguida, nota-se um padrão de variação anual nas buscas:
  • um máximo de buscas em março de cada ano, talvez devido ao início do ano letivo;
  • um máximo menor em junho, talvez devido às provas de fim de semestre;
  • uma acentuada queda em julho, certamente devida às férias do meio do ano;
  • um patamar elevado em agosto-setembro, possivelmente devido ao retorno do segundo semestre;
  • uma queda em outubro;
  • um novo pico em novembro, talvez devido às provas de fim de ano e, finalmente,
  • um acentuado mínimo em janeiro, certamente devido às férias do final do ano.

Eu  havia feito uma pesquisa semelhante com o termo 'Física', obtendo o gráfico abaixo

Gráfico da frequência de buscas do termo 'Física' no Brasil no Google

mas tive dúvidas sobre o resultado, pois considerei que o gráfico poderia estar agregando resultados de outras pesquisas no Google. De fato, por exemplo,
  • o ponto marcado com 'A' inclui notícias sobre 'juros para pessoa física';
  • os pontos 'B', 'D' incluem notícias sobre 'Educação física'
  • os pontos 'E', 'G' e 'I' incluem notícias sobre 'atividade física', 'forma física', e 'integridade física';
  • etc.
enquanto o ponto 'C' fala de 'partícula mais veloz que a luz' e 'revolução na Física' e o ponto 'H' fala do 'Big Bang' e da 'Física Moderna'.

No entanto, após realizar a pesquisa acima para 'Matemática, observei o mesmo padrão de variação anual, como se vê no gráfico combinado abaixo, e concluí que, apesar de tudo, as buscas sobre 'Física' como conteúdo escolar deveriam estar predominando.

Gráfico combinado das frequências de buscas dos termo 'Física' (azul) e 'Matemática' (vermelho) no Brasil no Google

Para tirar a dúvida, realizei uma busca sobre 'língua portuguesa' e obtive o gráfico abaixo


Gráfico da frequência de buscas do termo 'língua portuguesa' no Brasil no Google

o qual é semelhante aos anteriores, tanto na tendência de redução de buscas ao longo do tempo, quanto no padrão de variação anual.

No entanto, as frequências de busca para 'língua portuguesa' são tão menores que um gráfico combinado, como o entre 'Matemática' e 'Física' acima, não é conveniente, como se vê do gráfico combinado abaixo, o qual inclui também as frequências de busca para 'Química' e 'Biologia'.
Gráfico combinado das frequências de buscas de vários termos no Brasil no Google
Contudo, continuo sem saber se o Google Trends está indicando uma queda no interesse pelos estudos ou pelo próprio Google.

Atualização (11 mar. 2014): Recentemente, encontrei uma possível explicação para essa queda no artigo: 'Just Google it! Exploring New Web-based Tools for Identifying Public Interest in Science and Pseudoscience', de Baram-Tsabari, Ayelet & Segev, Elad. Segundo os autores, "isto é provavelmente devido ao aumento geral de acesso e uso da Internet, que permite a uma ampla população menos instruída pesquisar na web via Google para fins cada vez mais diversos. Portanto, o volume de pesquisa para termos específicos diminui relativamente a todas as pesquisas realizadas utilizando o Google. [tradução minha]".

terça-feira, 11 de junho de 2013

Big Data e Google Correlate comprovam falha de resoluções de ano novo?



Como se sabe, o Google não apenas realiza alegadas cem bilhões de pesquisas mensais de termos na Web (SULLIVAN, 2012), como as armazena todas, identificadas por hora e local de origem em seus gigantescos data centers ao redor do mundo. Essas informações são utilizadas pelos programas de publicidade geridos pelo Google, tais como DoubleClick, Google Analytics, Google AdWords e Google AdSense, de onde provêm mais de 90% da renda da empresa Google (GOOGLE Inc., 2013).

Já há alguns anos, a Google disponibiliza a ferramenta Google Correlate que mencionei rapidamente no post passado. Trata-se de (mais) um projeto experimental do extinto Google Labs

Nele, introduz-se uma série de dados temporais ou regionais e se obtém uma lista das consultas no Google cujas frequências seguem padrões que melhor se correlacionam com os dados, segundo o coeficiente de determinação R^2 (MOHEBBI et al., 2011). 

Tenho brincado com essa ferramenta há algumas semanas e obtido resultados no mínimo curiosos.

Hoje, por acaso, testei a sugestão 'losing weight' (perder peso) do próprio Google Correlate.

O termo de busca que melhor se correlacionou (com um R^2 de 0.9672) foi 'workouts' (exercícios ou sessões de treinos), o que é bem razoável.

O que me chamou a atenção, no entanto, foi o gráfico dessa correlação:

Gráfico da correlação entre losing weight e workouts no Google Correlate
Observe a queda no ritmo dos treinos ao longo de cada ano, as 'quedas em tentação' a cada final de ano e as abruptas retomadas a cada início de ano!

Parece que há, realmente, uma síndrome de 'resoluções de Ano Novo', especialmente a que inclui a fatídica 'perder peso'!