我好像想到了一套完整的 AI 税方案

2017 年，韩国政府搞过一个被媒体称为「机器人税」的东西。

严格说，它不是给机器人发税号，也不是让机械臂自己去税务局排队。

韩国当时削减的是自动化设备投资抵扣。企业投资工业自动化装置，原本可以按投资额获得 3% 到 7% 不等的企业所得税抵扣；政策方案提出把优惠最多下调 2 个百分点。[1]

Bill Gates 同年也谈过类似主张。他的逻辑大概是：机器人替代人类劳动后，原本从工资、社保、个税里来的公共收入会减少，政府应该从自动化里收一点钱，用来支持被替代的人。[2]

这套说法很有人情味，但是逻辑欠妥。

税基在语料

按「替代劳动」征税，听起来关心工人，实际很容易变成技术进步罚款。

再往下推半步，就像财务部门冲进机房，对着一排显卡说：各位，五险一金了解一下。

如果企业用了更高效工具就该多交钱，那人类文明史上绝大多数工具都可以被拉进税务大厅。

Excel 让算盘和手工表格退场，叉车减少纯搬运岗位，自动门省掉一部分门童，SaaS 吃掉内部 IT 运维。照此推下去，Excel 要不要给算盘交慰问金？叉车该不该替搬运工补社保？餐厅买洗碗机，是不是还得顺手办个工牌？

这条路不能走，否则所有企业都会得到一个荒唐激励：效率越高，越像犯罪。

AI 税如果想站住，不能从「少雇了多少人」开始算。

少雇人只是结果，不是税基。税基要从工位移到另一张账本上。

叉车能搬货，背后有人卖钢材、液压系统、发动机和电池；Excel 能算表，靠的是软件工程、函数设计和操作系统。这些投入都在供应链里明码标价，一层层向上游付钱。

大模型也有上游。显卡、机房、电费、工程团队，这些账单模型公司会付。争议不在这些看得见的成本，而在另一条更难开票的供应链：训练语料。

基础模型看起来聪明，不是因为显卡突然长出了灵魂，而是因为书、代码、论文、教程、网页、问答、新闻、博客、论坛和开源项目，都可能成为原料。海量人类知识被压缩进参数和服务接口，最后变成按 token 收费的商业能力。

美国版权局 2025 年的生成式 AI 训练报告明确指出：训练会使用巨大规模数据，其中包含版权作品；权利人同意、补偿、合理使用和许可机制，都是制度难题。[3]

麻烦也正出在这里。训练语料没有钢材、电力和芯片那样的稳定供应商、合同与账单。来源散、规模大、跨国流动、归因困难。

有些材料属于公共领域，有些来自明确授权，有些在用户协议里绕了十八个弯，还有一些处在版权争议里。不能把所有训练都说成违法，也不能把公开可访问直接等同于可以免费商业化训练。

单靠一个作者、一家媒体、一个开源维护者去逐条起诉，根本解决不了这笔账。大型出版商还能坐下来谈授权，普通作者、论坛用户、问答贡献者和代码维护者，多数时候甚至不知道自己是否被用过。

大模型最滑稽的一幕，是把一部分原材料仓库改名叫「公开互联网」，推着购物车进去转了一圈，出门说自己是自主研发。

不查原文，查能力

操作性看起来很难。

因为没人能逐条证明一个模型到底用了哪篇文章、哪段代码、哪张图片、哪个论坛帖子。就算知道某篇文章进了训练集，也很难证明它对某次回答贡献了多少。

但税务系统并非每笔账都靠显微镜。很多时候，它会使用估算、抽样、分级、核定。大模型训练语料规模大、来源散、归因难，反而适合做能力抽检。

办法土得很：出卷。法律卷、医学卷、编程卷、新闻卷、文学卷、游戏卷、金融卷、历史卷、艺术卷、中文社区语料卷。模型答得越多，越准，越像在这些领域里住过几年，就越能说明它涉及的知识范围越大。

抽检结果不能直接当成单条版权侵权证据，但是可以用来收钱。

版权诉讼要证明具体作品、具体复制、具体市场影响，不能因为模型答对一道题，就说它偷了某一本书。

抽检管的是税收和准税收意义上的能力估算，会比版权诉讼简单很多，规避了把税务局变成版权法院的风险。

它不必把每一篇文章、每一段代码、每一条回答都还原成单独发票。只要确认模型商业能力的形成使用了庞大的公共知识系统，账就有了入口。

这就像查酒驾。交警不必追问刚才喝的是哪一瓶酒，吹出来有数就行。

一个模型如果在法律、医学、编程、新闻、文学、游戏、金融、历史、艺术、中文互联网烂梗等领域都表现得很熟，这已经足够说明：这些知识不是显卡自己冥想出来的。

税务系统不用理解 Transformer，会出题就行。

抽检之后，还要有计量单位。这个单位也不用发明，因为大模型厂商已经替所有人想好了：token。

2026 年，美国众议员 Greg Casar 发表《Tax AI to Create Jobs》时，就把征税对象放在 AI providers 上，并提到 token 与底层算力可以作为计量口径。[4]

训练规模动辄 trillion tokens，窗口长度标成 tokens，日处理量折成 tokens，API 价格按每百万 tokens 报价。既然行业已经把 token 做成通用尺子，征管系统没有必要另造单位。

训练阶段，按训练 tokens 规模分档，语料越大，纳入的知识版图越大。

商业化阶段，按 API 和产品实际处理量收取知识回流费，企业级大客户看调用量，普通个人用户和小开发者可以设豁免或低门槛。

此外，闭源自研模型用申报规模、算力消耗和营收互相校验。既然不愿意公开训练细节，就接受更粗的估算方式。喜欢黑箱，黑箱也可以有税率。

以前厂商吹「我们训练了 10 万亿 token」，投资人鼓掌，媒体写稿，用户感叹未来已来。现在账务系统来了：好，10 万亿是吧，先把资料费结一下。

这当然会增加合规成本，也可能让创新变慢。创业公司以后不仅要训练模型，还要准备申报材料、抽检结果和语料说明。听起来很不自由，制度经常把「变慢」改名叫「规范」。

单这套方案最让人不舒服的地方，恰恰是它在逻辑上很顺：模型公司可以按 token 向用户收费，制度也可以按 token 向模型公司核账。

钱不能只是补财政洞

如果这笔钱最后只是进了财政黑箱，前面那套理由就塌了。

政府缺钱，不能自动变成 AI 欠钱。账要算在另一处：模型吸收公共资料、个人创作和开放协作成果，却没有让收益回到知识生产现场。

钱应流向图书馆、数据库、开放语料库，去创作者基金、新闻机构补偿、出版授权，去基础软件维护、教育资源、公共知识平台，也用于训练数据登记、审计和抽样测试。

这套收税逻辑，也正好戳在了「大模型技术平权」叙事最尴尬的地方。大模型确实让很多人第一次用上强大的智能工具。它好用，提高效率，也会让知识服务变得更便宜。这些好处都应该承认。

但好用不等于平权。用户拿到的是调用权，不是训练权、控制权、定价权和分账权。

大模型没有把生产资料发给大众，只把大众的知识包装成收费接口。技术平权不能缩成「人人都有资格交订阅费」。

如果没有回流，模型会在更深处制造垄断。它未必控制某个 App，也未必独占社交入口；它控制的是知识被调用、压缩、重新分发的基础能力。等所有人都在同一个接口上工作、写作、开发、搜索和学习，再谈「平权」，就像租户住进房东的楼里，感谢房东发明了住房自由。

到这里，闭环已经出来了：征税对象盯模型提供商和大型部署者，不找普通用户开刀；税基不按少雇人，按训练语料和知识能力商业化；征管不逐篇追溯，用测试集抽检；计量不发明新单位，按 token、算力和收入互证；去向不直接补财政洞，而是回流知识生态。

机器人不该被当成发薪员工。Excel 不欠算盘安置费。叉车也轮不到替旧岗位发工资。

大模型欠的是另一笔账。模型公司最爱说自己训练了多少 token，那就按 token 补票。

卷子已经发下去了。

答完题，按 token 交钱。

参考文献

[1] Korea takes first step to introduce ‘robot tax’｜The Korea Times https://www.koreatimes.co.kr/business/tech-science/20170807/korea-takes-first-step-to-introduce-robot-tax

[2] Bill Gates: This is why we should tax robots｜World Economic Forum / Quartz https://www.weforum.org/stories/2017/02/bill-gates-this-is-why-we-should-tax-robots/

[3] Copyright and Artificial Intelligence, Part 3: Generative AI Training｜U.S. Copyright Office https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf

[4] Tax AI to Create Jobs｜Representative Greg Casar https://casar.house.gov/media/press-releases/op-ed-american-prospect-tax-ai-create-jobs

我好像想到了一套完整的 AI 税方案

最小可读

税基在语料

不查原文，查能力

钱不能只是补财政洞

取消回复

精选评论