Os sistemas de Inteligência Artificial Generativa para empresas são notavelmente imprecisos. É essencial dedicar atenção significativa aos dados a fim de evitar a disseminação de informações incorretas, parcialidade ou questões legais.

O artigo do Axios destaca que muitas respostas geradas por sistemas de IA, como o genAI, são imprecisas, não correspondem ao que os usuários solicitaram ou simplesmente erradas. Um líder de engenharia de software da Microsoft, Shane Jones, enviou cartas à presidente da FTC, Lina Khan, e ao conselho de diretores da Microsoft em 6 de março, mencionando que o gerador de imagens de IA da empresa criou imagens violentas e sexuais e utilizou imagens protegidas por direitos autorais ao receber sugestões específicas.
Os grandes modelos de linguagem (LLMs) amplamente disponíveis são frequentemente criticados, enquanto as aplicações de negócios que utilizam a inteligência artificial generativa recebem menos atenção, o que pode resultar em respostas de maior qualidade. Isso não é verdade.
Quando a inteligência artificial generativa não funciona conforme o esperado.
Muitas pessoas estão expressando surpresa por não obterem respostas informativas e úteis da inteligência artificial generativa, apesar de acreditarem que essa tecnologia deveria proporcionar a melhor chance de fornecer tais respostas. O que está acontecendo?
A inteligência artificial generativa enfrenta desafios semelhantes a outros sistemas de IA, uma vez que sua eficácia depende dos dados utilizados para seu treinamento. Utilizar dados inadequados, como os de caranguejo, resulta em modelos de AI de baixa qualidade. Isso pode levar a respostas incorretas que podem acarretar problemas legais. É crucial reconhecer as limitações intrínsecas desses sistemas e compreender que, em algumas situações, eles podem exibir comportamentos que podem ser considerados como falta de inteligência. Essa falta de discernimento pode prejudicar os negócios ou resultar em processos legais.
Modelos de inteligência artificial generativa, como o GPT, funcionam a partir de padrões e conexões aprendidas através de grandes conjuntos de dados. Embora esses modelos consigam produzir respostas coerentes e contextualmente relevantes, eles não possuem uma compreensão profunda ou consciência suficiente, resultando em saídas que podem parecer confusas ou sem sentido.
Você pode solicitar a um modelo de linguagem de amplo alcance que crie um documento histórico e acabar com uma explicação de que Napoleão lutou na Guerra Civil dos Estados Unidos. Esse equívoco pode ser corrigido facilmente, no entanto, os erros ocorridos em um novo sistema de otimização da cadeia de suprimentos com inteligência artificial podem não ser tão simples de identificar. Tais erros têm o potencial de resultar em perdas de receita de milhões de dólares.
Estou percebendo que os usuários desses sistemas tendem a aceitar a resposta de forma mais rigorosa do que em outros sistemas, o que resulta em erros que só são identificados quando já causaram significativos danos, por vezes, meses após.
Os dados são importantes, ignorante.
A falta de dados adequados é a principal causa de problemas em projetos de inteligência artificial generativa nas empresas. Muitas vezes, as empresas dedicam tempo considerável na escolha de ferramentas de IA, como serviços de nuvem pública, porém não investem o suficiente na preparação dos dados para fornecer um conjunto sólido de dados de treinamento para esses modelos de IA. Como resultado, os sistemas acabam lidando com “dados sujos”, o que acarreta uma série de problemas nos modelos de linguagem recém-criados ou nos pequenos modelos de linguagem.
As empresas reconhecem essa questão, porém estão dispostas a prosseguir com sistemas de Inteligência Artificial generativa sem se preocupar com a qualidade dos dados inseridos. Elas frequentemente supõem que as ferramentas de IA identificarão e removerão dados defeituosos e incorretos antes de considerá-los.
Os sistemas de inteligência artificial têm a capacidade de realizar essa tarefa, desde que passem por um processo de verificação antes de serem alimentados com dados de um modelo específico que não seja apropriado para garantir sua confiabilidade. Esse processo de verificação pode identificar e remover dados inadequados, mas nem toda informação insuficiente é facilmente identificada como sendo ruim. Se dados incorretos forem utilizados como dados de treinamento, a capacidade do sistema de inteligência artificial para gerar conteúdo se deteriorará progressivamente.
A maioria dos problemas que as empresas enfrentam com a inteligência artificial generativa estão ligados a dados de baixa qualidade ou inadequados que não deveriam ter sido utilizados inicialmente. Embora resolver questões relacionadas aos dados seja considerado simples, na prática, para a maioria das empresas, isso implica em um investimento significativo de tempo e recursos financeiros para obter dados de alta qualidade. Em vez de priorizar a qualidade dos dados, muitas empresas estão direcionando seus recursos para a inteligência artificial, o que pode comprometer os resultados finais. Como poderia ser obtido um resultado diferente?
Além disso, os sistemas de inteligência artificial generativa podem ser influenciados por preconceitos. Se os dados usados para treinamento contiverem preconceitos ou imprecisões, o sistema pode perpetuá-los indevidamente ao gerar conteúdo ou ao fornecer respostas automatizadas em interações com outras aplicações ou pessoas. Remover esse viés após a construção do modelo é um desafio, pois diferentes partes do modelo podem ser afetadas e é difícil isolá-las e eliminá-las.
Outros temas relacionados à inteligência artificial geradora.
A ausência de conhecimento comum é uma das principais razões pelas quais a inteligência artificial generativa é percebida como “estúpida”. Ao contrário dos seres humanos, esses sistemas não possuem um conhecimento prévio do mundo, dependendo de padrões estatísticos aprendidos durante o treinamento. Isso pode resultar em respostas que carecem de uma compreensão mais profunda da realidade.
Outro ponto importante a se considerar é a importância do phrasing de entrada na sensibilidade da IA generativa. O sistema produz respostas com base nas informações recebidas dos usuários por meio de um prompt ou de aplicativos que utilizam APIs. Pequenas alterações na forma como a pergunta é feita podem resultar em respostas significativamente diferentes. Devido a essa sensibilidade, os usuários podem se deparar com respostas inesperadas ou irrelevantes geradas pela IA. Para obter o máximo valor da IA, é crucial formular as perguntas corretamente e utilizar os métodos apropriados.
Além disso, surge o problema da dificuldade em diferenciar entre dados empresariais e dados sujeitos a direitos autorais ou propriedade intelectual. Por exemplo, a Guilda de Autores emitiu uma carta aberta assinada por mais de 8.500 autores, instando empresas de tecnologia responsáveis por aplicações de inteligência artificial generativa, como OpenAI (ChatGPT) e Google (Gemini, anteriormente conhecido como Bard), a pararem de utilizar obras sem autorização ou compensação adequada. Já me deparei com situações em que partes do meu próprio trabalho foram repetidas de volta para mim em perguntas públicas de grandes modelos linguísticos (LLMs). É provável que meus livros e milhares de artigos (possivelmente deste site) tenham sido utilizados como dados de treinamento para esses LLMs.
Empresas que incorporam LLMs em parte de suas operações comerciais podem correr o risco de violar propriedade intelectual se utilizarem inadvertidamente processos descritos em materiais protegidos por direitos autorais para aprimorar suas operações, como o gerenciamento da cadeia de suprimentos. Por isso, muitas empresas estão evitando o uso de sistemas de inteligência artificial generativa pública para atividades comerciais, devido ao risco envolvido.
À medida que avançamos em direção à busca do auge da inteligência artificial generativa, estou certo de que será necessário enfrentar e resolver essas questões e outras antes de alcançarmos o objetivo desejado. Peço desculpas por ser repetitivo.