A Ciência da Informação usa o conceito de “pirâmide de dados” para mostrar a relação entre dados, informação e conhecimento. Um sistema tem que coletar dados brutos, e, subsequentemente, organizar e analisar aqueles dados para transformá-los em informação. Os discernimentos obtidos das informações podem, então, ser transformados em conhecimento, que é geralmente incorporado em humanos, e usados em suas ações.

O Prof. Hal Varian (Chief Economist Officer do Google) aponta (*) que há mercados bem desenvolvidos, bem como ambientes regulatórios para informação (livros, páginas web, música, vídeos) e para conhecimento (mercados de trabalho, consultores). Os mercados de dados – no sentido de coleções desorganizadas de bits – no entanto, não estão tão desenvolvidos. Talvez isso aconteça porque dados brutos são frequentemente fortemente dependentes de contexto, e não são muito úteis até que se transformem em informação.

Na realidade, há características que são peculiares aos dados. Para esclarecer, o Prof. Varian usa a máxima hoje popular de que “dados são o novo petróleo”. Certamente, eles o são em um respeito: ambos necessitam ser refinados para se tornarem úteis. Mas há uma importante distinção entre eles: petróleo é um “bem privado” e seu consumo é “rival”: se uma pessoa consome petróleo, haverá menos petróleo disponível para outra pessoa consumi-lo. Mas dados são um bem “não-rival”: o uso de dados por uma pessoa não reduz nem diminui o seu uso por outra pessoa.

Além disso, ao invés de focarmos em “propriedade de dados” – um conceito apropriado para os bens privados – nós realmente precisamos pensar em “acesso aos dados”. Dados são raramente “vendidos” da mesma forma que bens privados são vendidos; ou seja, mais que isso, eles são “licenciados” para usos específicos. Os livros que alguém “compra” na versão kindle/digital na Amazon, por exemplo, na realidade não são “comprados”; eles são “licenciados” (de outra forma o adquirente os poderia vender num mercado secundário).

Outra característica importante é que dados exibem retornos decrescentes de escala, como qualquer outro fator de produção. Varian argumenta que este mesmo princípio geral se aplica às técnicas de Machine Learning - ML (Aprendizado de Máquina) (**). O texto do Prof. Varian aponta para uma figura que mostra como a acurácia da classificação do banco de dados de raças de cachorros da Universidade de Stanford se comporta à medida que os dados de imagens treinadas aumentam. Era de se esperar que a acurácia melhorasse à medida que as imagens treinadas aumentassem, mas o processo se dá a uma taxa decrescente.

Outra dimensão de características dos dados diz respeito ao seu impacto na Economia, particularmente em Organização Industrial. Prof. Varian divide seu trabalho em duas frentes: a) uma voltada para a estrutura das indústrias que usam técnicas de ML, e, b) outra voltada para a estrutura das indústrias provedoras de técnicas de ML. Na primeira frente, Prof. Varian discute as relações entre ML e integração vertical (além de tamanho da empresa e limites; precificação; retornos de escala; e conluio de algoritmos) para responder às seguintes perguntas: como as ferramentas de ML e dados podem ser combinados para criar valor? Isto acontecerá nos limites corporativos ou através deles? Os usuários de ML desenvolverão suas próprias capacidades de ML ou comprarão soluções de ML de vendedores?

Na segunda frente, uma questão que emerge é a de quão fácil será trocar de fornecedores. Tecnologias tais como containers têm sido desenvolvidas especificamente para facilitar aplicações de um provedor de cloud para outro. Implementação open source tais como dockers e kubernetes estão disponíveis. Lock-in (aprisionamento) não será um problema para aplicações de pequeno e médio portes, mas é claro que questões envolvendo aplicações de grande porte e complexidade irão requerer trabalho customizado. Ademais, questões sobre o hardware computacional, a precificação dos serviços, bem como problemas de políticas (tais como segurança, privacidade, e aquelas relacionadas com aspectos de ética) são também ilustradas.

Há ainda um amplo conjunto de questões sobre dados que precisamos levar em consideração, tais como suas implicações para o crescimento econômico, para a equidade e para a estabilidade das economias. Mas este é um tema que deixaremos para outra oportunidade. Por ora, o que gostaríamos de reiterar é o surgimento desta nova disciplina (da Economia dos Dados), que se junta a outras áreas já desenvolvidas na Ciência Econômica, como as da Economia do Conhecimento e da Economia da Informação.

Se sua empresa, organização ou instituição deseja saber mais sobre Economia dos Dados, não hesite em nos contatar!

(*) Varian, Hal (2018). “Artificial Intelligence, Economics, and Industrial Organization”. National Bureau of Economic Research-NBER, Working Paper 24839, July.

(**) Prof. Varian usa ML em seu artigo porque nos últimos dez anos um progresso marcante tem acontecido nesta área pelo uso de redes neurais de multicamadas em áreas diversas como reconhecimento de imagens, reconhecimento de voz, e tradução de máquina.