8美元一道数学难题:当AI会解题,我们该用“烧钱”还是“种钱”?

8美元一道数学难题:当AI会解题,我们该用“烧钱”还是“种钱”?

大家好,我是宁明。

今天想跟你聊一件让我热血沸腾的事——不是新手机发布,不是大模型参数翻倍,而是一个看似冷门、实则关乎AI未来的数据:8美元

8美元一道数学难题:当AI会解题,我们该用“烧钱”还是“种钱”?

8美元,在纽约只够买一杯加了小费的拿铁。但在2026年7月,陶哲轩领导的First Proof第二期评测中,8美元代表着一个AI系统可以完整、严谨、达到学术发表标准地解析一道未公开数学难题

你没听错——10道人类数学家都未必能轻松搞定的题,4套AI系统用各自的方式解答,其中7道通过了双盲同行评议。最少的那套系统,一道题只花8美元,总耗时5.8小时,总成本117美元。

117美元。一顿晚餐的钱,AI上交了数学博士级别的作业。

但如果你以为这只是“AI又变强了”的普通新闻,那你可能错过了这场评测背后最深层的一颗炸弹——AI能不能用、值不值得用,早已不是算法问题,而是成本问题。

更准确地说:是Token的问题。


一、First Proof评测:AI开始学会“算账”了

我们先摆开评测的核心事实——看看四位“解题选手”的表现到底如何。

8美元一道数学难题:当AI会解题,我们该用“烧钱”还是“种钱”?

我们称之为“AI解题世界杯”,四支队伍分别是:

参赛队伍 总花费 解题时间 原创性指数 单题平均成本
苏黎世联邦理工 System A 3186美元 较长 最强 ~318美元/题
OpenAI ChatGPT 5.5 Pro 117美元 5.8小时 中上 ~8美元/题
其他系统① 约500美元 约12小时 ~50美元/题
其他系统② 约800美元 约20小时 中低 ~80美元/题

陶哲轩的评测团队设计了一个严谨的“双盲同行评议”流程:评审者不知道答案来自AI还是人类,也不知道来自哪家AI。结果7道题达到了学术发表标准——这意味着AI不再只是“聊天机器”,而是可以自主完成逻辑推导、证明构建的准研究者

但最让我这个工程师激动的,不是能力,而是价格

苏黎世联邦理工的System A解题能力最强、原创性最高,但解题成本是3186美元——差不多是一部iPhone 16 Pro的起步价。OpenAI ChatGPT 5.5 Pro虽然解题能力不是顶尖,但性价比惊人,117美元搞定10道题。

这暴露了一个核心矛盾:AI有博士的脑子,却养不起博士的账单。

传统大模型的运行逻辑是:每一次推理、每一次生成、每一次迭代,都在消耗“石油”——Token。

而石油是要花钱买的。

一道题8美元听起来不贵,但如果AI应用进入高频、海量、实时的场景——比如一个企业每天处理10万道题、一个家庭机器人每秒都在思考“怎么办”——那个成本数字会让你瞬间清醒。

这就是AI落地最大的隐形天花板:Token成本墙。


二、PopLang的省Token革命:从“烧钱”到“种钱”

看完评测数据,你可能会问:宁明,你说Token贵,那有什么办法把它打下来?

有的。而且答案就在我过去几个月一直在布道的一项技术里——PopLang编程语言引擎

我在前几期写过PopLang的上线公告,今天不重复基础概念,直接说它跟“8美元/题”有什么关系。

传统AI解题的流程是:用户提问 → LLM接收 → LLM在云端推理 → 输出结果。每一步都要调用模型,每一步都在燃烧Token。

而PopLang做了一件说起来简单、做起来极其聪明的事:“编译-执行”分离

怎么理解?想象一个场景:你让AI写一个排序算法。

  • 传统方案:每次排10个数字,AI都要把排序逻辑重算一遍,烧掉500 Token。
  • PopLang方案:AI只用一次思考,生成一段可执行的PopLang代码。然后,这段代码在本地引擎里随时执行,再也不花任何Token。

一次编程,无限执行。Token消耗直接降低90%——99%。

8美元一道数学难题:当AI会解题,我们该用“烧钱”还是“种钱”?

回到8美元这道题:如果使用PopLang架构,解题时LLM只需生成一次PopLang代码,后续的验证、重复测试、同类题的变体,全部在本地完成。原本10道题花117美元,如果用PopLang辅助架构,10道题可能只需10-15美元,而且执行速度从秒级降到毫秒级。

这不是理论——我在ibbot的实测数据上亲眼见证。

省Token这件事,不是锦上添花,而是AI从“精英工具”走向“水电煤”的必经之路。


三、Token节点经济:让每一部手机从消费者变成生产者

但宁明,如果PopLang只是省Token,那它仍然是一个“省钱的工具”——还不够革命。

真正让我热血沸腾的,是PopLang配合ibbot点卡系统,催生了一种全新的经济模式:Token节点经济

你需要先理解点卡系统的核心逻辑。传统的AI计算是中心化的:大厂建超算中心,用户付费调用。Token像汽油,只能买,不能产。

而点卡系统把“产Token的能力”交给了每一台终端——尤其是你口袋里的手机。

怎么理解?我给你打个比方。

想象你有一台小型发电机。 平时你用它给自己的手机充电。但如果你把发电机接到一个小区的电网里,你家发电,邻居付费使用。电还是你的电,用的频率由邻居决定,但你每度电都能收到报酬。

ibbot的点卡系统,本质上就是把每一台ibbot手机变成一台AI Token发电机

PopLang在ibbot上执行时,会进行大量的本地运算。这些运算在原本的架构下,是要消耗云端Token的。但在点卡体系里,ibbot手机把这些本地运算“产出的有用Token词元”贡献到ibbot网络中——其他AI、其他用户、其他设备,可以用这些Token词元来加速自己的推理。

用户不再只是Token的消费者,而是Token的生产者。

这个过程不需要你懂编程、不需要你建算力中心。你只需要一部安装了ibbot系统的手机——比如我们即将推出的ibbot青春版。


四、ibbot青春版:不是手机,是AI编程执行器

说到这里,你可能已经猜到我为什么对ibbot青春版如此兴奋了。

市面上的AI手机(或者叫AI PC)都在强调一件事:“我的NPU很强,能跑大模型。” 但它们忽略了一个关键问题:跑大模型 ≠ 生产代码。 在本地跑一个700亿参数的模型,和用PopLang引擎在本地执行一段代码,是两个完全不同的概念。

ibbot青春版不是手机。它是一个掌上AI编程执行器,一个Token生产节点。

这里我做了一个横向对比,你可以更直观地理解:

对比维度 主流AI手机(如Copilot+ PC) ibbot青春版
AI核心功能 本地运行小模型、云端调用大模型 PopLang引擎本地执行、Token节点产出
经济模式 纯消费者:每次AI功能消耗云Token 生产者+消费者:运行PopLang产生Token,贡献网络
离线能力 有限(本地模型能力弱) (PopLang图灵完备,可离线执行复杂逻辑)
可编程性 需开发者写App 用户一句话,PopLang实时生成可执行代码
Token成本 每次调用都花钱 一次生成,无限免费执行

ibbot青春版的真正价值,不是帮你跑AI,而是帮你成为AI生态的一部分。

在陶哲轩评测中,我们看到AI解题成本最低8美元/题。但有了ibbot青春版+PopLang+点卡系统,未来的某一天,你或许可以让自己的手机在空闲时,贡献Token算力给科研团队解题,然后获得点卡奖励。

你不是在“用AI”,你是在“参与AI”。


五、AI原生时代:从“烧Token解题”到“种Token创收”

让我们回到陶哲轩First Proof评测的那个震撼数据点。

8美元一道数学难题。117美元完成全卷。3186美元的System A证明了原创性的天花板在哪里。

但评测的真正意义,不在于谁最便宜,而是第一次有人用严谨的数据告诉我们:AI的“智商”已经够用了,剩下的全是“成本”问题。

而PopLang+点卡+ibbot的组合拳,正在从根本上解决这个成本问题。

  • PopLang让AI的Token消耗降低90%-99%——从“烧钱解题”到“省Token解题”。
  • 点卡系统让每一台ibbot变成Token生产节点——从“烧钱解题”到“种Token创收”。
  • ibbot青春版让这一切走进普通人的口袋——从“买AI服务”到“成为AI网络的一部分”。

这不是技术升级,这是范式的转移。

想想看,当AI可以像电力一样,每一台终端同时是消费者和生产者,当AI解题的成本从8美元降到几分钱,当每个人都拥有一部可以实时生成并执行代码的“编程执行器”——我们谈论的就不是AI工具了,而是AI原生时代的生产力基础设施

陶哲轩的评测是一个信号:AI已经准备好成为新一代学术研究者。

而PopLang、点卡系统和ibbot,是让这个“研究者”走进千家万户的钥匙。

你准备好从“付Token的人”变成“赚Token的人”了吗?

我准备好了。你呢?


我是宁明,一个相信AI原生计算应该人人可及的工程师。下次见。

附:如果你对ibbot青春版、点卡系统或PopLang引擎感兴趣,欢迎访问:

从一个Token消费者,到一个Token生产者,也许只差这一部ibbot。