Na newsletter passada iniciamos uma série tratando de dois temas entrelaçados, e que foram recentemente documentados pela empresa de capital de risco estadunidense Menlo Ventures: ou seja, lidamos com “The Modern AI Stack”, e nesta oportunidade vamos tratar sobre “AI Agents”.
Inicialmente um esclarecimento importante. AI Agents (Agentes de IA), ou Intelligent Agents (Agentes Inteligentes) não são a mesma coisa que AI Assistants (Assistentes de IA), ou Intelligent Assistants (Assistentes Inteligentes). Abaixo indicamos as principais diferenças, constatadas a partir de uma busca ao assistente inteligente do browser Brave, chamado “Leo” (*).
Em documento recente, que complementa o documento tratado na newsletter passada, Tully et al. (2024) consideram que aplicações de IA Generativa têm 03 (três) casos de uso centrais, e com forte product-market fit (alinhamento produto-mercado): search (busca), synthesis (síntese), e generation (generatividade). O portfólio de empresas da Menlo Ventures, com empresas como a Sana (empresa de busca), a Eye (pesquisa jurídica com copilot), e Typeface (IA para geração de conteúdo), representa exemplos iniciais de cada uma destas categorias, centradas em algumas poucas capacidades de raciocínio de modelos LLMs.
Mas, como Tully et al. (2024) apontam, a promessa da IA Generativa vai além desta primeira onda de casos de uso centrais. O fato da IA poder ler e escrever é interessante, mas o que é mais excitante é que a IA pode pensar e agir em nosso interesse. Para este fim, já estamos vendo desenvolvedores de aplicações como as empresas Anterior, Sema4 e Cognition, desenvolvendo soluções para tomar fluxos de trabalho que previamente somente poderiam ser resolvidos por exércitos de humanos.
Deste modo, com novos blocos construtivos como multi-stage logic (lógica multi-estágios), external memory (memória externa), e acesso a ferramentas de terceiros e APIs, a nova onda de agentes está expandindo a fronteira das capacidades de IA para possibilitar end-to-end process automation (automação de processos ponta-a-ponta).
Sendo assim, em investigação profunda sobre o espaço dos agentes de IA, os autores definem a tese da Menlo Venture para o mercado emergente – começando pela definição do que são “agentes” e o que os tornam possíveis. Como eles já rastrearam a evolução da arquitetura do modern AI Stack (visto na newsletter passada), agora eles partem da retrieval-augmented generation [RAG] para os full-fledged agentic systems, antes de explorarem as implicações desta mudança de paradigma para as camadas de aplicação e infraestruturas em artigos posteriores.
Logo, fully autonomous agents (agentes completamente autônomos) são definidos por 04 (quatro) elementos que, combinados, sobem a escada para full agentic capability (capacidade completa de agência): raciocínio, memória externa, execução e planejamento, elementos assim definidos:
- Raciocínio: Ao nível mais básico, agentes devem ser capazes de raciocinar com dados não-estruturados. Modelos fundacionais, como o Anthopic e o Open AI já são incrivelmente efetivos nisto “fora da caixa”, com um modelo de mundo parcial codificado nos pesos pré-treinados dos LLMs que eles alavancam para conhecimento geral e lógica básica;
- Memória Externa: Em adição ao conhecimento geral, os agentes requerem memória externa para armazenarem e chamarem conhecimento de domínio-específico, e contexto delimitado do problema que eles estão sendo tarefados para resolver, frequentemente via um banco-de-dados vetor tal como o Pinecone;
- Execução: Agentes usam ferramentas para desempenharem tarefas que avançam suas capacidades de solução de problemas. Muitas plataformas de agentes da primeira onda ofertam caixas de ferramentas de ações customizadas pré-definidas em código que seus agentes podem escolher a partir delas. Mas um número de ferramentas de agentes generalizados estão também começando a emergir, incluindo web browsing, code interpretation, authentication e authorization, e conectores com sistemas empresariais tais como CRM e ERP para desempenharem ações UI com esses sistemas;
- Planejamento: Mais do que tentando resolver problemas complexos via uma sequência simples de predições do próximo token (como escrever um ensaio todo de uma só vez, começar com a primeira palavra e não parar até a última), agentes seguem um processo mais parecido com o pensamento humano de quebrar o trabalho em subtarefas menores, e planejam, refletindo em progresso, ajustando na medida da necessidade.
No entanto, observam Tully et al. (2024), os fully autonomous agentes de amanhã podem ter estes quatro blocos de capacidades, mas as aplicações e agentes dos modelos LLMs de hoje não têm. A popular arquitetura RAG, por exemplo, não é “agêntica”, mas alavanca raciocínio e memória externa como seu alicerce. Alguns desenhos, tais como o OpenAI`s Structured Outputs, capacitam uso de ferramentas, A importante distinção, no entanto, é que estas aplicações alavancam os LLMs como uma “ferramenta” para busca semântica, síntese, ou generatividade, mas os passos que eles tomam (i.e., seus fluxos de lógica) são ainda pré-determinados com código.
Em contraste, os agentes emergem quando você coloca o LLM no controle do fluxo da sua aplicação, e permite que ele dinamicamente decida que ações tomar, que ferramentas usar, e como interpretar e responder aos insumos. Tão logo isto seja verdade, alguns agentes nem mesmo precisam interagir com ferramentas externas ou tomar ações.
Na Menlo Ventures são identificados 03 (três) tipos de agentes que variam com seus casos de uso primários, e graus de liberdade em controlar o fluxo de processos de aplicações: a) os “decisioning agent designs”; b) os “agent on rails designs”; e, c) os “general AI agent designs”. Um gradiente de arquiteturas cognitivas destes agent designs é mostrado na Figura 1 à frente. O trabalho dos autores finaliza com o exame de 05 (cinco) arquiteturas de referência, e com exemplos de agentes de IA para cada um destes tipos de agentes.
Em resumo, estamos realmente diante de uma nova era (a da Inteligência Artificial- IA): uma era onde seres humanos estão passando a conviver cada vez mais com assistentes e agentes inteligentes, os quais requerem arquiteturas, plataformas, ecossistemas (ou seja, uma “Trindade Essencial”, como já cunhamos em tempos pretéritos) sofisticados, e que estão transformando por completo os modelos de negócios de empresas, organizações e instituições de nossa Economia. O desafio de adaptação a esta nova era está posto!
Se sua empresa, organização ou instituição deseja saber mais sobre o moderno empilhamento de IA e sobre agentes de IA, não hesite em nos contatar!
(*) Diferenças entre Agentes Inteligentes e Assistentes Inteligentes
Smart Assistants vs Agents
Based on the provided search results, here are the differences between Assistentes Inteligentes (AI Assistants) and Agentes Inteligentes (Intelligent Agents):
Assistentes Inteligentes (AI Assistants)
- Primary goal: To assist and interact with humans, providing information, completing tasks, and controlling devices.
- Interaction: Typically through voice commands, text input, or graphical interfaces.
- Scope: Focus on specific domains, such as smart homes, virtual assistants, or customer service.
- Autonomy: Limited autonomy, often requiring human intervention or oversight.
- Decision-making: Based on pre-programmed rules, machine learning algorithms, and access to external data sources.
Examples: Alexa, Siri, Google Assistant, Microsoft Cortana.
Agentes Inteligentes (Intelligent Agents)
- Primary goal: To perceive and act upon their environment, making decisions and taking actions to achieve specific goals.
- Interaction: Can interact with both humans and other agents, as well as perceive and manipulate their environment.
- Scope: Can operate in various domains, such as robotics, game playing, or decision support systems.
- Autonomy: Higher autonomy, capable of making decisions and taking actions without direct human intervention.
- Decision-making: Based on complex algorithms, reasoning, and learning from experience, allowing them to adapt and improve over time.
Examples: Autonomous robots, expert systems, and decision support systems.
Fonte: Busca com o assistente inteligente LEO, do browser Brave.