Situações limite em veículos autônomos demandam um tipo de pensamento sofisticado e humano que vai além de simples algoritmos e sistemas antigos. Os avanços em grandes modelos de linguagem estão se aproximando desse objetivo.

A inteligência artificial tem evoluído significativamente, com modelos de IA universais de 10 bilhões de parâmetros superando modelos específicos de tarefas de 50 milhões de parâmetros, mostrando um desempenho melhor na resolução de diversas tarefas por meio de um único modelo.
Os modelos de inteligência artificial estão evoluindo para se tornarem multimodais, com novas versões como o Florence 2 da Microsoft e o GPT-4V da OpenAI ampliando suas capacidades para incluir imagens, vídeos e áudio. Isso permite aplicar o potencial de modelos de linguagem grandes a uma variedade de novos cenários.
Também disponível no InfoWorld: Aprendizagem Zero-shot e os fundamentos da Inteligência Artificial generativa.
À medida que a escala aumentava no campo da engenharia de modelos, cada aplicação seguia um padrão de desenvolvimento semelhante.
- Uma única função em um campo específico: Um modelo básico para diferentes casos de uso, como detectores de objetos em estradas, modelos de segmentação de profundidade em ambientes internos, sistemas de legendagem de imagens, chatbots para websites, entre outros.
- Uma atividade para cada área: Ampliando a utilização desse padrão simples para inúmeros cenários – como detectores de objetos para diversas situações (YOLO, DINO, etc), segmentação de profundidade para variadas aplicações (MobileNet), e plugins de chat para diversos produtos.
- Cada atividade, cada campo: Poderosos modelos capazes de realizar diversas funções, uma transformação de mentalidade viável graças aos novos LLMs, como Florença, GPT-4V e ChatGPT.
- Cada atividade possui uma área específica de atuação: Aprimorando modelos extensos para determinadas áreas, viabilizando aplicações em tempo real e com maior confiabilidade, como, por exemplo, GPT-3.5-Turbo para interações de pesquisa, Harvey.ai para pesquisas e redação de documentos legais, e DriveGPT para veículos autônomos.
Utilização de tecnologia autônoma em veículos de pequeno porte.
A tecnologia de direção autônoma é viável em veículos pequenos, mas ainda não possui a segurança e capacidade de expansão adequadas para atender às necessidades dos motoristas no dia a dia. Isso se deve à combinação de várias tarefas específicas, sensores especializados e mapeamento preciso, que resultaram em um protótipo impressionante.
Aqui está o que ainda nos impede de avançar:
- Ausência de generalização. Freqüentemente, os modelos atuais não conseguem lidar com situações inéditas, conhecidas como “a cauda longa” da direção. Sem um treinamento adequado, esses modelos não conseguem pensar de forma autônoma sobre as ações a serem tomadas. Até agora, a solução tem sido criar um novo modelo específico para a situação. A dificuldade em mapear cenários dinâmicos representa uma fraqueza essencial na maioria dos produtos autônomos.
- Compreendendo as intenções do motorista e dos pedestres. Os atuais modelos não conseguem captar as nuances da comunicação humana e das intenções, tanto do condutor no veículo quanto dos atores rodoviários fora dele.
- Explorar todo o planeta de forma detalhada é um desafio. Embora a maioria das regiões bem desenvolvidas possam ser percorridas de carro, a criação de mapas em alta definição tem sido um desafio difícil de superar em larga escala. A falta de mapas precisos afeta negativamente a eficiência da condução baseada em mapas.
- Veículos de escape. As atuais pequenas frotas de robótica contam com sensores específicos, tecnologia dispendiosa e uma variedade de modelos especializados – uma fórmula complexa e custosa que ainda precisa ser ampliada para os condutores do dia a dia.
LLMs e a questão da longa extensão da distribuição.
Em diversas áreas de atuação, os engenheiros de modelos vêm utilizando LLMs como poderosas ferramentas de desenvolvimento para aprimorar quase todos os estágios do processo de engenharia de modelos. A utilização desses modelos tem se mostrado muito eficaz na melhoria de ambientes de simulação, na organização e interpretação de grandes conjuntos de dados, e na análise e resolução de questões em redes neurais opacas.
Uma das principais vantagens dos LLMs no desenvolvimento é a capacidade de representar de maneira simplificada e acelerar o processo, sem a necessidade de código especializado. Isso tem se mostrado útil em áreas desafiadoras, como a compilação de texto ou a conclusão de código com dependências complexas.
Todas essas ferramentas de engenharia têm o objetivo de aprimorar significativamente os trabalhos de desenvolvimento, como a autonomia. No entanto, o uso mais fascinante e significativo dos LLMs ocorre principalmente na condução em si, ao lidar com situações complexas e planejar a melhor rota com segurança.
A condução autônoma apresenta desafios significativos, pois algumas situações específicas requerem um pensamento complexo e humano que vai além de simples algoritmos e modelos tradicionais. Os LLMs têm se mostrado promissores ao superar simples correlações e demonstrar uma verdadeira compreensão do mundo. Essa nova compreensão também se aplica à condução, possibilitando que os sistemas de planejamento lidem com cenários complicados de forma segura e natural, sem a necessidade de treinamento explícito.
Em locais onde os modelos convencionais podem se confundir com a presença de trabalhadores da construção em uma interseção ou ao contornar uma cena de acidente, os LLMs têm demonstrado habilidade em calcular a rota correta e a velocidade de forma excepcional. Os LLMs representam uma nova abordagem para lidar com a “cauda longa”, ou seja, a capacidade de lidar com situações inéditas. A questão da cauda longa tem sido o principal desafio enfrentado pela condução autônoma nas últimas duas décadas.
Restrições de modelos de linguagem para atividades independentes.
Os modelos de linguagem de grande porte atualmente apresentam limitações significativas para serem utilizados de forma autônoma. Em resumo, é necessário que os LLMs se tornem mais confiáveis e rápidos. No entanto, há soluções em desenvolvimento e é nessa área que está sendo dedicado um esforço significativo.
Retardo e limitaciones en tiempo real.
Decisões essenciais para a segurança ao dirigir devem ser feitas em menos de um segundo, enquanto os mais recentes LLMs em operação em centros de dados podem demorar 10 segundos ou mais.
Uma possível solução para esse desafio são as arquiteturas de nuvem híbrida, que combinam a computação interna com o processamento de data center. Outra alternativa são os LLMs específicos, que compactam grandes modelos em formatos compactos e ágeis o bastante para serem integrados em carros. Observamos avanços significativos na otimização de modelos volumosos, com o Mistral 7B e o Llama 2 7B demonstrando desempenho comparável ao do GPT-3.5, mas com uma quantidade significativamente menor de parâmetros (7 bilhões contra 175 bilhões). A evolução da Lei de Moore e as otimizações contínuas deverão impulsionar a expansão desses modelos para a borda de forma rápida.
Alucinações são perceções que ocorrem sem a presença de um estímulo real, sendo experiências sensoriais que não são baseadas na realidade objetiva.
Modelos de linguagem que se baseiam em correlações podem ter suas vantagens, porém é importante ressaltar que nem todas as correlações são aplicáveis em determinadas situações. Por exemplo, a posição de uma pessoa em uma interseção pode ter significados diferentes, como parar (para um pedestre), ir (para um guarda de trânsito) ou diminuir a velocidade (para um trabalhador da construção). Portanto, correlações positivas nem sempre resultam na resposta correta. Quando um modelo gera uma saída que não condiz com a realidade, é chamado de “falcinação”.
A utilização da aprendizagem por reforço com feedback humano (RLHF) pode ser uma solução promissora para enfrentar esses desafios, ao adaptar o modelo com o auxílio do feedback humano para compreender situações complexas de direção. Com a melhoria da qualidade dos dados, modelos mais simples, como o Llama 2 70B, estão alcançando resultados comparáveis ao GPT-4, mesmo possuindo 20 vezes menos parâmetros (70 bilhões versus 1.7 trilhões).
Os projetos de pesquisa estão contribuindo para melhorar a qualidade dos dados. Um exemplo disso é o uso de novas técnicas, como o reforço de aprendizagem de ajuste fino (RLFT), pelo framework OpenChat, que melhora o desempenho e reduz a necessidade de rotulagem manual.
A cauda longa atualizada.
Os modelos de linguagem contêm uma ampla gama de informações, mas ainda não conseguem abranger todos os conceitos específicos de condução, como a habilidade de navegar em uma interseção movimentada em construção. Uma possível solução seria expor o modelo a extensas sequências de dados de condução personalizados, que poderiam incluir esses conceitos mais detalhados. Por exemplo, a Replit utilizou dados exclusivos de sua base de usuários para aprimorar constantemente suas ferramentas de geração de código com ajustes finos, superando modelos maiores como o Code Llama 7B.
Um horizonte promissor para a automação da direção.
A condução autônoma ainda não atingiu a popularidade, pois apenas alguns veículos conseguem lidar com ambientes urbanos mais complicados. Grandes avanços estão mudando a maneira como criamos tecnologias de condução autônoma, e, no final, esses avanços vão revolucionar a condução autônoma, tornando-a segura e acessível o suficiente para ser utilizada por motoristas cotidianos.
Prannay Khosla é o responsável pela área de engenharia de modelos na Ghost Autonomy, uma empresa que oferece software para direção autônoma.
Lamento, mas não consigo parafrasear um texto que não foi fornecido. Se tiver alguma informação ou texto específico para que eu possa ajudar na paráfrase, por favor, me forneça. Estou aqui para ajudar!
A plataforma AI genética A Insights foi criada para que líderes de tecnologia, como fornecedores e outros colaboradores externos, possam explorar e debater os desafios e oportunidades da inteligência artificial generativa. A variedade de conteúdo disponível é ampla, abrangendo desde análises detalhadas de tecnologia até estudos de caso e opiniões especializadas. A seleção é feita com base no critério de que os temas e abordagens mais adequados serão oferecidos ao público tecnicamente experiente da InfoWorld. É importante ressaltar que a InfoWorld não garante a publicação de conteúdos com fins de marketing e reserva o direito de editar todas as contribuições recebidas. Para mais informações, entre em contato com doug_dineley@foundryco.com.