那里的动机是一个pair的频次很高,但是此中pair的一局部的频次更高,那时候纷歧定须要停行该pair的兼并。通过那种方式可以更好的办理跨语言和不常见字符的非凡问题(譬喻,颜笔朱),相比传统的BPE更勤俭词表空间(划一词表大小成效更好),每个token也能与得更丰裕的训练。1. 依据差异的切分粒度可以把tokenizer分为: 基于词的切分,基于字的切分和基于subword的切分。那是当前大模型的收流分词方案。基于subword的切分能很好平衡基于词切分和基于字切分的劣弊病,也是目前收流最收流的切分方式。