A Definição do termo Big Data é relativamente recente, mas temos diversas aplicações de dados que podem se encaixar no uso do termo antes mesmo da definição dele.
O uso de grande volumes de dados remontam às décadas de 60 e 70, com a criação dos primeiros data centers e o desenvolvimento dos bancos de dados.
Nesta época surgiu o termo “Era da Informação” por Peter Druker, grande referencia na área da Administração, que tinha como interesse apontar a transformação de valores aonde o conhecimento ou informação era mais valorizado que o emprego em uma usina/indústria.
Uma das referencias mais antigas é de 1663, onde John Graunt fez a coleta de grande quantidade de informações, de diversas fontes, para estudo da Peste bubônica na Europa.
Em 1890 temos a criação dos primeiros equipamentos para coleta de grandes volumes de dados, com o Censo dos Estados Unidos.
Em 1965 foi criado, também pelos Estados Unidos um dos primeiros centros de dados, com informações de pagamentos de impostos e impressões digitais.
Na década de 80 surgiram os primeiros bancos de dados paralelos, aonde inicia-se a evolução da tecnologia para dar o próximo passo para o processamento de grandes volumes de dados em menor tempo.
No entanto, com a evolução da tecnologia, crescimento do número de dados e necessidade de uso e respostas cada vez mais rápidas, em 2005 o termo Big Data foi usado oficialmente em um artigo publicado pelo Roger Mougalas, da O’Reilly Media.
Podemos concluir que o termo BigData é um conceito de processamento de dados, mas que tem como base 3 grandes pilares: infraestrutura/tecnologia, pessoas e processos.
Portanto, estes não devem ser vistos separadamente, mas sempre em conjunto, pois para processar o grande volume de dados é necessário uma infraestrutura específica para este em que pessoas possam coletar e analisar os dados (DataMining) gerando valor aos negócios com processos que sejam rápidos e bem definidos (Machine Learning), fazendo uso de cálculos e métodos estatísticos.
Outra tecnologia que tem evoluído muito e aproveitando esta onda de grandes quantidades de dados é a Inteligência Artificial… mas este falaremos em outro momento.
Em 2004 o Google publicou um artigo que serviu como base para a evolução tecnológica do processamento em BigData no mundo todo.
Este artigo apresentou o modelo de programação MapReduce que permite processar grandes quantidades de dados em paralelo dividindo o processamento em vários computadores/cpu normalmente configurados e estruturados para trabalhar em cluster.
Foi com este artigo que o Yahoo, que já vinha buscando uma forma de melhorar o processamento de seus dados, conseguiu avançar com o desenvolvimento da tecnologia de processamento em cluster criando assim o Hadoop, em 2005.
Com a publicação desta tecnologia grandes empresas puderam contribuir para o avanço cada vez mais rápido do BigData. Estamos falando do Facebook, Google, IBM, Uber, Twitter, Cloudera e muitas outras empresas.