Signals for 31 May 2026

Acht geselecteerde signalen over agentische workflows, sandboxing, AI-PCs, evals, Codex-runtime en agent-builder consolidatie.

Salesforce claims AI agents cut a 231-day migration to 13 days with fewer incidents

The Decoder

Salesforce claims AI agents cut a 231-day migration to 13 days with fewer incidents. Dit is relevant omdat agentwaarde steeds meer in workflowontwerp en taakafbakening zit, niet alleen in een slimmer model.

#agent #agentic-workflows #builder #evals

Microsoft and Nvidia reportedly team up on AI PCs that run actual agents instead of Copilot

The Decoder

Microsoft and Nvidia reportedly team up on AI PCs that run actual agents instead of Copilot. Dit is relevant omdat agentwaarde steeds meer in workflowontwerp en taakafbakening zit, niet alleen in een slimmer model.

#agent #agentic-workflows #systems-framing

How we contain Claude across products

Simon Willison

How we contain Claude across products. Dit is relevant omdat het laat zien waar duurzame waarde in de AI-stack kan blijven hangen na de hype.

#agent #builder #market-strategy #systems-framing

SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

arXiv reasoning / agents / evals

SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?. Dit is relevant omdat serieuze AI-implementatie valt of staat met evaluatie, betrouwbaarheid en begrip van nieuwe failure modes.

#agent #evals #research-evals

OpenAI's Codex can now operate your Windows PC autonomously, hunting bugs and testing apps on its own

The Decoder

OpenAI's Codex can now operate your Windows PC autonomously, hunting bugs and testing apps on its own. Dit is relevant omdat de builderlaag rond AI concreter wordt: tools, runtimes en ontwikkelworkflows bepalen steeds vaker de echte hefboom.

#builder #tooling-runtime

Asana acquires no-code agent-builder StackAI

TechCrunch AI

Asana acquires no-code agent-builder StackAI. Dit is relevant omdat agentwaarde steeds meer in workflowontwerp en taakafbakening zit, niet alleen in een slimmer model.

#agent #agentic-workflows

LLMSurgeon: Diagnosing Data Mixture of Large Language Models

arXiv reasoning / agents / evals

LLMSurgeon: Diagnosing Data Mixture of Large Language Models. Dit is relevant omdat serieuze AI-implementatie valt of staat met evaluatie, betrouwbaarheid en begrip van nieuwe failure modes.

#builder #evals #research-evals

Unlocking the Working Memory of Large Language Models for Latent Reasoning

arXiv reasoning / agents / evals

Unlocking the Working Memory of Large Language Models for Latent Reasoning. Dit is relevant omdat serieuze AI-implementatie valt of staat met evaluatie, betrouwbaarheid en begrip van nieuwe failure modes.

#evals #research-evals #systems-framing