Avanços na área de aprendizagem de máquina causaram comoção este ano entre diversas comunidades que viram seu modo de vida ameaçado pela tecnologia. Um segmento particularmente afetado foi o de artistas digitais, especialmente com o lançamento do DALL-E 2, ferramenta que gera imagens a partir de uma descrição textual lançada criada pela empresa OpenAI. A situação piorou com o lançamento do modelo aberto Stable Diffusion, que disponibilizou a tecnologia para qualquer um que saiba um pouco de programação. Rapidamente, serviços similares ao DALL-E inundaram a internet.
Artistas profissionais de todo o mundo expressaram sua indignação nas redes sociais, especialmente quando uma pintura gerada por um desses modelos ganhou um prêmio de artes visuais. A revolta não impediu a proliferação do uso dessa nova tecnologia. Semana passada, um colega meu que vive em Taipei mandou um anúncio de emprego que ele avistou por lá num grupo de WhatsApp: “procura-se curador de arte gerada por inteligência artificial.”
Antes de falar sobre o impacto dessa invenção, algumas explicações. O DALL-E e o Stable Difusion são chamados de “modelos” porque são modelos estatísticos gerados a partir da exposição a uma série de imagens e descrições textuais até que consigam estabelecer uma relação matemática entre ambos. Essa descrição grosseira tem por objetivo deixar claro que as técnicas de aprendizagem de máquina resumem-se, no limite, a estatística. O DALL-E entrega a imagem que, segundo seu julgamento, mais se aproxima daquilo que lhe foi oferecido como descrição.
O trabalho para gerar esses modelos, na realidade, está nos dados – imagens e textos – validados por pessoas que estabelecem um critério para o maquinário estatístico que produzirá o modelo. Para que o modelo produza resultados diferentes daqueles que foram usados para treiná-lo – outro jargão da área que se refere ao processo que busca estabelecer os pesos que cada variável nas entradas do modelo terão em suas saídas – é fundamental que ele tenha uma capacidade de generalização. O DALL-E impressiona justamente por isso. O número de variáveis analisadas para ele atingir esse nível de generalização está na casa das dezenas de bilhões. Algo assim não havia sido feito antes, principalmente, porque não havia poder computacional para gerar um modelo estatístico tão complexo.
Dito isso, apesar desses geradores de imagem produzirem resultados impressionantes, nada do que eles produzem, porém, é efetivamente novo, dado que tudo é derivado dos dados que o geraram. A capacidade de generalização desses modelos ainda é muito limitada e a “inteligência artificial geral”, indiferenciável da inteligência humana, ainda é um objetivo muito longe de ser alcançado. Colocado dessa forma, podemos dizer que o DALL-E e seus derivados são ferramentas de expressão muito interessantes.
Eles dão a pessoas como eu, que não entendem nada no que diz respeito a técnicas de arte visual, a capacidade de se expressarem visualmente (ainda que seja bem difícil achar uma imagem que cumpra esse papel – talvez eu precise de um curador!).
A geração de conteúdo similar àquilo que um ser humano produziria não é novidade. Alguns anos atrás, o jornal inglês The Guardian anunciou sua primeira matéria escrita com auxílio de um modelo de geração de texto, o GPT, que recentemente teve sua quarta versão disponibilizada (ela é a base do ChatGPT, outra “atração” da OpenAI). Antes disso, já estavam disponíveis ferramentas de tradução automática, que ficam a cada dia melhores, que possibilitam a comunicação entre pessoas que antes não teriam como se entender.
Esse é o lado positivo da coisa, mas e quanto ao protesto dos artistas? Bom, de fato não falta muito para que certas atividades sejam convenientemente realizadas por um modelo como o DALL-E. Os tradutores profissionais reclamaram muito quando seus empregos também foram ameaçados pelos tradutores automáticos. No âmbito da literatura e, até mesmo do jornalismo, também há diversas reclamações. No início deste mês, um usuário do Twitter escreveu e publicou um livro pela Amazon em um final de semana, para o protesto de muitos escritores profissionais.
Ainda assim, não acho que devamos encarar as coisas dessa forma. A industrialização da cultura – ou, de forma mais vulgar, do entretenimento – nos trouxe a um cenário cultural amorfo, cinza, no qual tudo tem o mesmo gosto e quase nada surpreende. Esse é o cenário perfeito para uma inteligência artificial atuar, detectar padrões e reproduzi-los a um custo muito baixo. Esse cenário cultural já vem sendo criticado há décadas. Para citar um exemplo cinematográfico, podemos nos ater às críticas de Martin Scorsese e Quentin Tarantino aos filmes do universo Marvel. Me ocorre também o livro The Manual (How to Have a Number One the Easy Way), publicado nos anos 1980 por dois artistas britânicos conhecidos como “The Timelords”, no qual descreveram como fazer para se chegar ao topo da lista de músicas mais tocadas no Reino Unido, o que fizeram apenas para depois queimar o prêmio em dinheiro.
Para quem acha que não tenho lugar de fala para fazer essa crítica, o meu trabalho de programador está muito mais ameaçado do que o de artistas pelo avanço desses geradores de texto. Afinal, como todo programador sabe, a maioria do código escrito – principalmente em ambiente corporativo – é repetitivo e não requer grandes luzes para ser produzido.
A geração automática de imagens, músicas, textos e afins nunca será uma ameaça à arte. É apenas mais um recurso, como a invenção da fotografia foi no século XIX. Um recurso ainda muito rudimentar. A tragédia é que, no sistema capitalista em decadência, não há incentivo para a produção de algo efetivamente criativo, criando uma ilusão de que máquinas conseguiriam criar arte e substituir artistas.
Estamos presos à “indústria” da cultura, a um eterno ciclo de imitação que garante o retorno perpétuo de lucros aos investidores de monopólios como a Disney e é esse ciclo que precisa ser quebrado.