Signals for 19 May 2026

Tien signalen over agent-evaluatie, tool-use training, AI-werkflows, developer tooling en strategische verschuivingen in de AI-stack.

DexHoldem: Playing Texas Hold'em with Dexterous Embodied System

arXiv reasoning / agents / evals

DexHoldem benchmarkt embodied agents op echte dexterous hardware, inclusief scene-preserving success en agentic perception. Dit is relevant omdat agents pas bruikbaar worden wanneer ze betrouwbaar handelen en de volgende stap niet kapotmaken.

#agent #evals #research-evals

EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

arXiv reasoning / agents / evals

EnvFactory maakt en verifieert stateful executable tool environments voor agentic RL. Dit is relevant omdat goede tool-use agents echte, meerstaps omgevingen nodig hebben in plaats van dunne simulaties.

#agent #builder #evals #research-evals

Democratizing Large-Scale Re-Optimization with LLM-Guided Model Patches

arXiv reasoning / agents / evals

Een LLM vertaalt businesswijzigingen naar gestructureerde optimalisatiemodel-updates en kiest re-optimization technieken. Dit wijst naar praktische AI rond operations: bestaande modellen bruikbaarder maken voor veranderende werkelijkheid.

#agent #builder #evals #implementation #research-evals

The Open Agent Leaderboard

Hugging Face Blog

IBM Research publiceert een Open Agent Leaderboard op Hugging Face. Dit is relevant omdat agentwaarde steeds meer vraagt om gedeelde evaluaties van workflowkwaliteit, toolgebruik en taakafbakening.

#agent #agentic-workflows

What to expect from Google this week

MIT Technology Review AI

MIT Technology Review kijkt vooruit naar Google I/O en Google's druk om AI-productstrategie te bewijzen. Dit is relevant omdat distributie en developer tooling bepalen waar AI echt in workflows landt.

#builder #tooling-runtime

Import AI 457: AI stuxnet; cursed Muon optimizer; and positive alignment

Import AI

Import AI bundelt onderzoek rond AI security, optimizer-gedrag en alignment. Dit is relevant omdat productierisico vaak begint als technisch systeemgedrag voordat het zichtbaar wordt in de UX.

#evals #research-evals

Cursor's Composer 2.5 matches Opus 4.7 and GPT-5.5 benchmarks at a fraction of the cost

The Decoder

Cursor claimt met Composer 2.5 frontier-achtige coding-benchmarks tegen lagere kosten. Dit is relevant omdat coding-agentwaarde verschuift naar workflow-specifieke modellen, prijs en snelheid.

#builder #evals #tooling-runtime

Anthropic has acquired the dev tools startup used by OpenAI, Google, and Cloudflare

TechCrunch AI

Anthropic koopt Stainless, bekend van geautomatiseerde SDK-creatie en onderhoud. Dit is relevant omdat developer experience en integratiefrictie steeds strategischer worden in de AI-stack.

#builder #market-strategy

The last six months in LLMs in five minutes

Simon Willison

Simon Willison vat zes maanden LLM-ontwikkeling samen, inclusief modelwisselingen en coding-progressie. Dit is relevant omdat teams een vervangbare modelstack nodig hebben, geen statische modelfavoriet.

#models-architecture

Here's why Elon Musk lost his suit against OpenAI

MIT Technology Review AI

De jury oordeelde dat Musk te laat was met zijn claims tegen OpenAI. Dit is relevant als strategisch signaal: governance, eigenaarschap en controle blijven drukpunten in de AI-stack.

#market-strategy