Como não criar uma inteligência artificial racista

Você sabe dizer como e por quê a sua solução com inteligência artificial toma uma decisão? Ou você sabe dizer se o algoritmo de machine learning que você usa possui algum viés? Se a resposta for não, você deveria estar bastante preocupado.

Lucas Santana

22 de Julho

Artigo Como não criar uma inteligência artificial racista

"Software is eating the world".

A frase acima foi dita em 2011 pelo Marc Andressen e ecoa até hoje. Nada era mais verdade do que aquilo.

Desde então, estamos vivendo a evolução das tecnologias exponenciais, a explosão da computação em nuvem e estamos chegando em uma nova realidade em que, em breve, todos teremos um assistente virtual e pessoal para chamar de nosso.

Você já deve ter percebido que uma parte considerável dos novos hardwares e softwares que são lançados possui alguma funcionalidade AI-based. E isso gera grandes oportunidades de problemas surgirem.

Essa talvez seja a buzzword atual mais usada no marketing e mais mal-usada na tecnologia. Da mesma forma como passamos pelo boom das plataformas, aparentemente hoje toda e qualquer startup ou iniciativa nascente precisa ter algo com inteligência artificial para justificar a atenção dos clientes e dos investidores.

As empresas estão delegando decisões importantes para IAs e usando, como um dos pilares do discurso, a ausência do viés humano ao analisar informações e tomar decisões. Em breve, todas as decisões importantes sobre a nossa vida vai passar por um algoritmo.

Isso pode parecer distante demais ou até mesmo distópico, mas não estamos muito longe disso.

Se você me permite, eu diria hoje que "AI is eating the world".

Para aproximar a nossa conversa, vamos usar como cenário a compra de uma solução recrutamento e seleção para a sua empresa que utilize um modelo de inteligência artificial para indicar qual o candidato ou candidata deveria passar para as próximas fases do seu processo seletivo. Esse é um caso de uso muito sensível tanto para a empresa quanto para quem se candidata e é por isso que ele é perfeito para demonstrar como algoritmos mal-projetados podem ser muito perigosos.

Imagine o cenário em que você se candidata para a empresa dos seus sonhos, faz o processo seletivo e recebe uma resposta negativa. Querendo entender o que aconteceu, você entra em contato com a empresa pedindo um feedback e talvez até o motivo da recusa. Recebe a seguinte resposta: "Segundo nosso algoritmo de inteligência artificial, você não se encaixa no nosso perfil". Você tenta mais uma vez conseguir o feedback e ouve que não podem te dar uma informação mais profundo do que esse. Depois de mais algumas tentativas alguém te confessa: "Nós não entendemos exatamente como o algoritmo funciona, mas confiamos na sua decisão. Infelizmente não podemos te falar mais do que isso". Meio sem norte, você não sabe exatamente como proceder.

Conseguiu imaginar esse cenário?

Ele se repete em processos seletivos, na liberação de crédito ou reconhecimento facial. E por estarem cada vez mais sendo replicados e utilizados em várias aplicações, tornam-se tanto ou mais nocivos do que os vieses que os humanos possuem.

O meu objetivo com esse texto é conversar com você sobre certos dilemas e como você pode se comprometer em criar uma inteligência artificial justa.

Coletando dados

Para tomar decisões precisamos de dados. E muito dados. Por isto estamos vendo a proliferação de aplicações e produtos que trocam benefícios pela coleta dos seus dados.

É só procurar a história do FaceApp para entender como um aplicativo inofensivo pode se tornar o centro de uma grande polêmica sobre privacidade.

Mas não é esse o ponto dessa conversa.

Para melhorar a qualidade das decisões é necessário um volume grande de dados e dados com qualidade. Dados que foram curados para servirem de aprendizado para o seu modelo de IA.

É comum que essa curadoria comece reunindo dados dos melhores profissionais da empresa ou os perfis que performaram melhor nos últimos processos seletivos. Isso faz todo sentido, mas esses dados já podem refletir um certo enviesamento. Se a sua empresa focou em recrutar em certas faculdades ou certos tipos de cursos, há uma possibilidade que todos esses dados representem apenas um tipo de perfil profissional. O que vai fazer com que o modelo seja tendencioso para esse perfil.

Isso também acontece para certos tipos de filtros que podem ser proxies, leia-se indicativos, de outras características. Inglês fluente ou intercâmbio podem ser experiências de indicam a classe social e por sua vez a raça de um candidato.

Assim é importante coletar a maior quantidade de dados possíveis, mas também a maior diversidade de dados possíveis.

Se você está contratando uma empresa ou solução, precisar garantir que esse cuidado de curadoria foi tomado ao coletar os dados.

Treinamento e projeto de uma inteligência artificial

A qualidade do algoritmo de Inteligência Artificial depende em muito dos dados em que ele é treinado. E aqui está um dos maiores desafios ao criar uma IA.

É necessário ter uma curadoria criteriosa de quantidade, qualidade e diversidade de dados para treinar uma IA. Nesse ponto é comum que empresas tomem decisões que reforcem a desigualdade social que temos. Divulgar e recrutar apenas em determinadas faculdades acaba atraindo perfis muito pouco diversos de pessoas.

O segundo ponto mais crítico para a criação de uma IA é o seu treinamento. Esse é o momento em que a IA aprende em cima dos dados coletados, ou seja, entenda seus padrões e comportamentos para tomar decisões posteriormente.

Dentro do que chamados de pré-processamento de dados está uma etapa chama Feature Engineering, ou Engenharia de Características. Nesta etapa que são criadas ou escolhidas características que farão parte da base de dados que será usada para o treinamento da IA. Essas características normalmente são originadas dos dados coletados e que, possivelmente, foram enriquecidos por algum tipo de tratamento.

Nesse ponto informações importantes sobre os dados podem ser perdidas por uma decisão incorreta de adicionar ou retirar alguma característica dessa base de dados. Como essa é uma decisão arbitrária de quem está desenvolvendo a IA, esse é uma das formas de adicionar viéses à inteligência artificial.

Por exemplo, um dado que pode ser coletado é o curso do candidato ou candidata, caso o ensino superior seja um pré-requisito. Porém o time responsável pela engenharia pode decidir que isso geraria informações demais para a IA e, para diminuir a complexidade, decidem fazer uma classificação simples. Decidir se o curso da pessoa faz parte de um grupo de cursos que muitas empresas consideram como prioritários como engenharias, administração, economia e direito, por exemplo. Assim como característica ao invés de ter o curso da pessoa, a IA receberia apenas a informação de VERDADEIRO ou FALSO para uma classificação de 4 cursos.

Este é apenas um exemplo, mas decisões parecidas a essas ocorrem durante o processo de Feature Engineering impactando os resultados que uma IA pode ter. Isto impacta diretamente o quão justo é um algoritmo.

Assim não importa o quão inclusivo tenha sido o processo de recrutamento, toda essa diversidade será perdida por decisões arbitrárias. Decisões essas que podem fazer sentido para a engenharia, mas não para o processo.

Isso é particularmente problemático quando as pessoas que tomam as decisões do que é importante para o treinamento da IA são distantes do processo ou da realidade de onde os dados vieram. No nosso caso de estudo, quando desconhecem o processo de recrutamento ou desconhecem as diversas realidades das pessoas que se candidatam. O que para um pode ser a otimização de uma variável para outro pode ser o ponto final em um sonho.

Para que isso é importante que você, profissional de RH, acompanhe o processo de treinamento e testes dessa IA para procurar por padrões que possam replicar comportamentos preconceituosos.

Entendendo e explicando decisões

Ao passo que algumas tecnologias de inteligência artificial se tornam mais complexas, elas também se tornam menos explicáveis.

Uma nova aurora de IA surgiu quando as redes neurais se tornaram mais eficazes em gerar os resultados esperados. O que problema é que esse tipo de tecnologia se torna cada vez mais opaca e difícil de explicar as duas decisões. Não à toa você ouvirá muito o termo "caixa-preta" para descrever soluções de inteligência artificial.

É necessário conseguir inspecionar o processo de tomada de decisão de uma IA. Aqui só é preciso tomar um cuidado porque inspecionar não significar verificar o código-fonte. Não é assim que podemos entender esse processo decisório. Dificilmente o código será enviesado, mas sim os pontos que levantamos nos tópicos anteriores fazem com que uma IA seja injusta.

A melhor forma de entender esse comportamento é acompanhando as decisões tomadas ao longo dos testes da IA e tentar identificar padrões que podem ser injustos. É importantíssimo entender como os dados de entrada podem afetar a decisão de um algoritmo.

Existe uma técnica chamada SHAP (SHapley Additive exPlanations) que tem o objetivo de ajudar a explicar de um algoritmo. Como essa técnica é possível entender como os dados de entrada impactam no resultado.

O Google também lançou um projeto chamado Model Card que tem como slogan "O valor da compreensão compartilhada dos modelos de IA". É um projeto que se inspira nos rótulos nutricionais para criar um rótulo similar de características da IA para que seja possível entendê-la. Esse rótulo diz explica sobre a arquitetura da IA, dados coletados e como o treinamento foi realizado, quais os resultados para qual tipo de dado. Assim é possível entender um pouco mais qual o comportamento esperado do modelo.

Com um ser humano, ainda seria possível questionar sobre os balizadores das decisões. Mas como fazer o mesmo com uma IA?

Conclusão

No final das contas, ter uma inteligência artificial pode ser pior do que seres humanos tomando decisões.

Se o processo inteiro não foi feito com o olhar de justiça, é possível que as decisões sejam até mesmo mais enviesadas do que as decisões de um ser humano. Nenhum ganho de performance justifica um processo enviesado.

No ano passado ouvi uma pergunta em um Meetup: "Como construir um algoritmo de machine learning pode ser enviesado se tudo é só um processo estatístico?". Esse texto responde muito bem essa pergunta. Existem muitas oportunidades para que viéses, preconceitos e desvios sejam adicionados na forma da coleta de dados, no projeto da IA ou em uma decisão opaca.

E você deveria tomar esses cuidados ao contratar a sua próxima solução que tenha inteligência artificial.

Tenha em mente quatro pontos:

Diversidade de dados é muito importante;
Tenha cuidado ao escolher as melhores características que o seu modelo deve aprender;
Descubra formas de tornar o seu modelo explicável;
Investigue como a solução se comporta em diversos tipos de cenários.

Se o modelo utilizado não for criado especialmente para sua empresa, questione sobre os pontos acima e converse sobre o que enxerga como o resultado mais justo. Uma vez que a inteligência artificial está tomando o mundo, temos que nos comprometer em torná-la mais justa possível.

Autoria

Lucas Santana

Consultor da área de Novas Tecnologias do CCTI da Votorantim S.A. Atua como Arquiteto de Soluções trabalhando com componentes de computação em nuvem da Microsoft (Azure), tecnologias Open Source para Big Data e Inteligência Artificial e desenvolvimento em Python.