2017 年,韩国政府搞过一个被媒体称为「机器人税」的东西。
严格说,它不是给机器人发税号,也不是让机械臂自己去税务局排队。
韩国当时削减的是自动化设备投资抵扣。企业投资工业自动化装置,原本可以按投资额获得 3% 到 7% 不等的企业所得税抵扣;政策方案提出把优惠最多下调 2 个百分点。[1]
Bill Gates 同年也谈过类似主张。他的逻辑大概是:机器人替代人类劳动后,原本从工资、社保、个税里来的公共收入会减少,政府应该从自动化里收一点钱,用来支持被替代的人。[2]
这套说法很有人情味,但是逻辑欠妥。
税基在语料
按「替代劳动」征税,听起来关心工人,实际很容易变成技术进步罚款。
再往下推半步,就像财务部门冲进机房,对着一排显卡说:各位,五险一金了解一下。
如果企业用了更高效工具就该多交钱,那人类文明史上绝大多数工具都可以被拉进税务大厅。
Excel 让算盘和手工表格退场,叉车减少纯搬运岗位,自动门省掉一部分门童,SaaS 吃掉内部 IT 运维。照此推下去,Excel 要不要给算盘交慰问金?叉车该不该替搬运工补社保?餐厅买洗碗机,是不是还得顺手办个工牌?
这条路不能走,否则所有企业都会得到一个荒唐激励:效率越高,越像犯罪。
AI 税如果想站住,不能从「少雇了多少人」开始算。
少雇人只是结果,不是税基。税基要从工位移到另一张账本上。
叉车能搬货,背后有人卖钢材、液压系统、发动机和电池;Excel 能算表,靠的是软件工程、函数设计和操作系统。这些投入都在供应链里明码标价,一层层向上游付钱。
大模型也有上游。显卡、机房、电费、工程团队,这些账单模型公司会付。争议不在这些看得见的成本,而在另一条更难开票的供应链:训练语料。
基础模型看起来聪明,不是因为显卡突然长出了灵魂,而是因为书、代码、论文、教程、网页、问答、新闻、博客、论坛和开源项目,都可能成为原料。海量人类知识被压缩进参数和服务接口,最后变成按 token 收费的商业能力。
美国版权局 2025 年的生成式 AI 训练报告明确指出:训练会使用巨大规模数据,其中包含版权作品;权利人同意、补偿、合理使用和许可机制,都是制度难题。[3]
麻烦也正出在这里。训练语料没有钢材、电力和芯片那样的稳定供应商、合同与账单。来源散、规模大、跨国流动、归因困难。
有些材料属于公共领域,有些来自明确授权,有些在用户协议里绕了十八个弯,还有一些处在版权争议里。不能把所有训练都说成违法,也不能把公开可访问直接等同于可以免费商业化训练。
单靠一个作者、一家媒体、一个开源维护者去逐条起诉,根本解决不了这笔账。大型出版商还能坐下来谈授权,普通作者、论坛用户、问答贡献者和代码维护者,多数时候甚至不知道自己是否被用过。
大模型最滑稽的一幕,是把一部分原材料仓库改名叫「公开互联网」,推着购物车进去转了一圈,出门说自己是自主研发。
不查原文,查能力
操作性看起来很难。
因为没人能逐条证明一个模型到底用了哪篇文章、哪段代码、哪张图片、哪个论坛帖子。就算知道某篇文章进了训练集,也很难证明它对某次回答贡献了多少。
但税务系统并非每笔账都靠显微镜。很多时候,它会使用估算、抽样、分级、核定。大模型训练语料规模大、来源散、归因难,反而适合做能力抽检。
办法土得很:出卷。法律卷、医学卷、编程卷、新闻卷、文学卷、游戏卷、金融卷、历史卷、艺术卷、中文社区语料卷。模型答得越多,越准,越像在这些领域里住过几年,就越能说明它涉及的知识范围越大。
抽检结果不能直接当成单条版权侵权证据,但是可以用来收钱。
版权诉讼要证明具体作品、具体复制、具体市场影响,不能因为模型答对一道题,就说它偷了某一本书。
抽检管的是税收和准税收意义上的能力估算,会比版权诉讼简单很多,规避了把税务局变成版权法院的风险。
它不必把每一篇文章、每一段代码、每一条回答都还原成单独发票。只要确认模型商业能力的形成使用了庞大的公共知识系统,账就有了入口。
这就像查酒驾。交警不必追问刚才喝的是哪一瓶酒,吹出来有数就行。
一个模型如果在法律、医学、编程、新闻、文学、游戏、金融、历史、艺术、中文互联网烂梗等领域都表现得很熟,这已经足够说明:这些知识不是显卡自己冥想出来的。
税务系统不用理解 Transformer,会出题就行。
抽检之后,还要有计量单位。这个单位也不用发明,因为大模型厂商已经替所有人想好了:token。
2026 年,美国众议员 Greg Casar 发表《Tax AI to Create Jobs》时,就把征税对象放在 AI providers 上,并提到 token 与底层算力可以作为计量口径。[4]
训练规模动辄 trillion tokens,窗口长度标成 tokens,日处理量折成 tokens,API 价格按每百万 tokens 报价。既然行业已经把 token 做成通用尺子,征管系统没有必要另造单位。
训练阶段,按训练 tokens 规模分档,语料越大,纳入的知识版图越大。
商业化阶段,按 API 和产品实际处理量收取知识回流费,企业级大客户看调用量,普通个人用户和小开发者可以设豁免或低门槛。
此外,闭源自研模型用申报规模、算力消耗和营收互相校验。既然不愿意公开训练细节,就接受更粗的估算方式。喜欢黑箱,黑箱也可以有税率。
以前厂商吹「我们训练了 10 万亿 token」,投资人鼓掌,媒体写稿,用户感叹未来已来。现在账务系统来了:好,10 万亿是吧,先把资料费结一下。
这当然会增加合规成本,也可能让创新变慢。创业公司以后不仅要训练模型,还要准备申报材料、抽检结果和语料说明。听起来很不自由,制度经常把「变慢」改名叫「规范」。
单这套方案最让人不舒服的地方,恰恰是它在逻辑上很顺:模型公司可以按 token 向用户收费,制度也可以按 token 向模型公司核账。
钱不能只是补财政洞
如果这笔钱最后只是进了财政黑箱,前面那套理由就塌了。
政府缺钱,不能自动变成 AI 欠钱。账要算在另一处:模型吸收公共资料、个人创作和开放协作成果,却没有让收益回到知识生产现场。
钱应流向图书馆、数据库、开放语料库,去创作者基金、新闻机构补偿、出版授权,去基础软件维护、教育资源、公共知识平台,也用于训练数据登记、审计和抽样测试。
这套收税逻辑,也正好戳在了「大模型技术平权」叙事最尴尬的地方。大模型确实让很多人第一次用上强大的智能工具。它好用,提高效率,也会让知识服务变得更便宜。这些好处都应该承认。
但好用不等于平权。用户拿到的是调用权,不是训练权、控制权、定价权和分账权。
大模型没有把生产资料发给大众,只把大众的知识包装成收费接口。技术平权不能缩成「人人都有资格交订阅费」。
如果没有回流,模型会在更深处制造垄断。它未必控制某个 App,也未必独占社交入口;它控制的是知识被调用、压缩、重新分发的基础能力。等所有人都在同一个接口上工作、写作、开发、搜索和学习,再谈「平权」,就像租户住进房东的楼里,感谢房东发明了住房自由。
到这里,闭环已经出来了:征税对象盯模型提供商和大型部署者,不找普通用户开刀;税基不按少雇人,按训练语料和知识能力商业化;征管不逐篇追溯,用测试集抽检;计量不发明新单位,按 token、算力和收入互证;去向不直接补财政洞,而是回流知识生态。
机器人不该被当成发薪员工。Excel 不欠算盘安置费。叉车也轮不到替旧岗位发工资。
大模型欠的是另一笔账。模型公司最爱说自己训练了多少 token,那就按 token 补票。
卷子已经发下去了。
答完题,按 token 交钱。
参考文献
[1] Korea takes first step to introduce ‘robot tax’|The Korea Times https://www.koreatimes.co.kr/business/tech-science/20170807/korea-takes-first-step-to-introduce-robot-tax
[2] Bill Gates: This is why we should tax robots|World Economic Forum / Quartz https://www.weforum.org/stories/2017/02/bill-gates-this-is-why-we-should-tax-robots/
[3] Copyright and Artificial Intelligence, Part 3: Generative AI Training|U.S. Copyright Office https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf
[4] Tax AI to Create Jobs|Representative Greg Casar https://casar.house.gov/media/press-releases/op-ed-american-prospect-tax-ai-create-jobs
精选评论