2026 展望：当 AI 不再只是陪聊，我们该干点啥？

别了，疯狂搞基建的 2025

临近 2025 年的尾声。

回过头看这一年，我觉得用一个词形容就是：铺路。

在这一年里，我（以及无数像我一样的工程师）都在干一件事：把 LLM 从一个 Python 脚本里的玩具，变成能进生产环境的系统。

我花了 90 天做了 Aegis/Aether 这一整套东西，解决了网关、安全、监控、推理加速这些“管道”问题。现在的行业现状是：基础设施基本打好了，大家都在等应用真正爆发。

如果说 2025 是把 AI 塞进笼子（架构化），那 2026 我觉得重点在于让 AI 真的去干活。

以下是我对 2026 的三个非主流预测。

说实话，我对“聊天机器人”已经祛魅了。

2024-2025 年，不管是大厂还是创业公司，做出来的产品长得都一个样：左边一个历史记录，右边一个对话框。

但 2026 年，我觉得最好的 AI 应该是“隐形”的。

我不希望跟 AI 聊天，我希望它把事儿办了。比如“帮我订票”这种事，失败最常见的不是“不会查”，而是“填错信息、忘记确认、流程中断”。

这就对基础设施提出了新要求。我们现有的网关（比如我的 Atlas）是针对“文本进、文本出”设计的。但明年的网关，可能得支持多步推理流和工具调用链的治理。

我的 Flag：2026 年，我要把 Aether 升级成支持复杂 Agent 编排的平台，而不只是 LLM 网关。关键能力我会优先做这几块：任务状态机、工具调用审计、失败回滚/补偿、权限与成本的细粒度控制。

这一年我们都在拼命优化云端的 GPU 利用率（还记得我在 Hyperion 里搞的动态批处理吗？）。

但云端太贵了，也太慢了。

最近几个月出的那些 3B、7B 甚至 1B 的小模型，能力已经惊人地强。既然能在 MacBook 甚至手机上跑得动，为什么还要把隐私数据发到云端去排队？

2026 年，混合推理（Hybrid Inference）会成为主流。

这对架构是个巨大的挑战。我的 Sentinel（安全层）现在是跑在服务器上的，如果推理下放到端侧，安全检查是不是也得下放？ 如何在不可信的客户端环境里保证安全策略被执行？这绝对是个好玩的工程难题。

现在的 AI Demo 看起来都很美，但一上生产就露馅。

为什么？因为不可靠。

Agent 调用 API 可能会填错参数；模型可能会在第 100 次调用时突然幻觉。2025 年我们靠 RAG 解决了一部分“不知道”的问题，2026 年我们要解决“乱行动”的问题。

我认为 Evals（自动化评估） 会从现在的“锦上添花”变成 CI/CD 里的强制卡点。简单说，就是把“模型是否靠谱”像单测一样做成可重复、可阻断的检查。

以前我们写单元测试测代码逻辑，以后我们得写“行为测试”测 AI 的智商。

这不仅仅是 Sentinel 要做的事，而是整个开发流程的变革。Evaluation Driven Development (EDD) 可能会成为新常态。

2025 年，我把精力花在了广度上——搞定了好几个项目，并跑通了全流程。

坦白说，2025 并不总是顺风。我把那些不确定感，尽量转成可交付、可验证的成果。与此同时，我也想给自己一个答案：当组织边界限制了我做全栈 AI 基础设施的机会时，我是否还能把完整链路跑通。开源项目成了这个答案的一部分。

2026 年，我想往深度扎一扎。

技术浪潮一波接一波，也没必要焦虑。咱们做工程的，无论浪打得多高，手里得始终攥着那把铲子，不是吗？

欢迎同行交流，互相对齐思路、互相打磨工具。

2026，咱们深水区见。

New Year Resolution: 多看 Paper，多攻坚，并尝试一些大胆的想法。