各家 LLM Tokenizer 分词器针对繁体中文的评测比较

..

话说大语言模型 LLM 的运算和推论成本都是用 Tokens 数量来计算的,输入的内容都得转成 Tokens 序列来运算,输出则转回来。

但是呢,其实每一家用的 Tokenizer (分词器)都不太一样,因此相同的文本,拆出来的 tokens 数量是不一样的。因此很多模型的推论成本比较、Context window 长度限制比较等等,实际应用时都不太准确,特别是非英文的语言,各家差异非常大。

一样的文本,若能用比较少的 Tokens 数来表示,推论速度会比较快、成本也会比较划算,毕竟计价也是用 tokens 数计算的,先予叙明。

具体会差多少,以下是我的测试结果,使用了繁体中文约八万多个字(政府报告和管理学讲义)做出来的实验结果。另外也做了英文也是约八万字(两篇部落格文章)。

繁体中文

先看大家关心的繁体中文结果,以 OpenAI 为基准来比较的话:

没想到差距竟然可以达到两倍这么多,除了 Llama 2 之外都比 GPT3.5 & GPT-4 还要节省 Tokens 数,OpenAI 的 Tokenizer 对繁体中文真的很不友善啊!

分享到Facebook
技术平台: Nasthon Systems