Débat sur la terminologie des jetons en Chine : « Unité de mot » contre « Unité de symbole »

Récemment, le Comité national d'experts pour la normalisation des termes scientifiques et techniques a publié une annonce recommandant de traduire le terme « Token » dans le domaine de l'intelligence artificielle par «词元», et l'a soumis à une utilisation publique essai. Par la suite, le Quotidien du Peuple a publié un article intitulé « Des experts expliquent pourquoi le nom chinois de token a été fixé à “词元” », offrant une explication systématique de cette désignation du point de vue professionnel.

Le terme « token » provient de l'ancien anglais tācen, qui signifie « symbole » ou « marque ». Dans les modèles linguistiques, un token est l'unité discrète la plus élémentaire obtenue après segmentation ou encodage au niveau des octets du texte ; il peut prendre différentes formes, telles que des mots, des sous-mots, des affixes ou des caractères. Le modèle acquiert une certaine capacité intelligente en modélisant des séquences de tokens.

Ce nom est considéré, dans le système d'expertise, comme conforme aux principes d'unicité, de scientificité, de concision et de cohérence, et il possède également une certaine base d'utilisation dans le contexte chinois actuel. Toutefois, après avoir lu les interprétations pertinentes, j'ai développé une compréhension différente de cette approche de dénomination.

Du point de vue de la normalisation, cette proposition de dénomination présente, à court terme, un avantage en termes de compréhension et de diffusion. Toutefois, si l’on examine sa compatibilité à long terme selon des critères tels que l’ontologie computationnelle, la structure informationnelle, l’évolution multimodale et la cohérence de la rétrotraduction, celle-ci nécessite encore une validation approfondie. Dans ce contexte, une alternative tout aussi significative — « Fuyuan » — émerge avec une cohérence structurelle et une stabilité intercontextuelle plus marquées.

I. Décalage de la définition : on ne peut pas remplacer « origine » par « essence »

Point de vue de l'article (Chen Xilin, chercheur à l'Institut de technologie du calcul de l'Académie chinoise des sciences) : Le rôle initial du token dans l'intelligence artificielle est celui de « unité sémantique linguistique de base » ; par conséquent, le terme « token » correspond mieux à sa nature.

Ce jugement est rationnel dans un contexte historique, mais dans l’ère actuelle de sauts technologiques majeurs, cette approche est essentiellement un « chercheur qui marque son bateau pour retrouver son épée » académique.

Au niveau logique de la définition des termes, il est impératif de distinguer rigoureusement « les scénarios d'application initiaux » et « les propriétés structurelles fondamentales ».

Les jetons proviennent effectivement du traitement du langage naturel (NLP), mais dans la trajectoire d'évolution de l'AGI, ils ont depuis longtemps dépassé les limites des modèles linguistiques pour évoluer en unités fondamentales capables de traiter de manière unifiée le texte, les images, la voix et même les signaux physiques. Dans les systèmes informatiques modernes, l'entité structurelle réelle des jetons est l'« unité de symboles discrets », et non une unité linguistique mono-modale.

Si l'on suivait la logique des « rôles initiaux », l'ordinateur (Computer) devrait aujourd'hui s'appeler « calculateur électronique » (en référence à sa fonction originale de remplacer les calculateurs humains) ; Internet devrait s'appeler « réseau militaire de la guerre froide ». Le défaut fatal de cette logique de dénomination réside dans le fait qu'elle ne voit que le « poste temporaire » occupé par la technologie à un moment historique donné, tout en ignorant son « essence physique » transcendant les époques.

Le chemin historique ne peut pas être équivalent à une propriété essentielle. De même, nous ne pouvons pas verrouiller le Token de manière permanente dans un contexte étroit de « mot » simplement parce qu'il a été initialement utilisé pour traiter des textes.

Définir les concepts fondamentaux par « scénarios d'application initiaux » revient en réalité à remplacer la vérité ontologique structurelle par une dépendance historique au chemin emprunté. Cette définition peut offrir une commodité de compréhension au début du développement technologique, mais elle devient rapidement obsolète et constitue un entrave à la cognition durant la phase d'extension du paradigme de l'explosion multimodale. En revanche, « SymToken » s'aligne directement sur l'ontologie symbolique du calcul multimodal ; il ne définit pas le « passé » des Token, mais leur « vérité ».

Deuxièmement, les limites de l'analogie : une fois qu'une explication devient une définition, elle commence à dériver.

Point de vue de l'article (Dong Yuxiao, professeur adjoint au département d'informatique de l'Université Tsinghua) : On peut comprendre les unités discrètes dans le multimodal comme des « mots généralisés », en s'appuyant sur des analogies telles que les « nuages de mots » ou les « sacs de mots ».

L'analogie du professeur Dong Yuxiao aide à la compréhension, mais ne doit pas remplacer la définition. Cette approche présente une certaine pertinence explicative, mais si elle est élevée au rang de fondement nominatif, elle risque d'entraîner un décalage catégoriel au niveau conceptuel.

Sur le plan méthodologique, l'analogie sert à abaisser le seuil de compréhension, tandis que la définition a pour rôle de délimiter les frontières sémantiques. Lorsque le terme « mot » est étendu pour couvrir des patches d'images, des segments audio, des représentations vectorielles (embeddings) et même des signaux perceptifs plus larges, ses propriétés linguistiques originales sont progressivement diluées et ses frontières sémantiques s'effacent. Ce chemin d'extension piloté par l'analogie peut maintenir à court terme une cohérence interprétative, mais il risque à long terme de provoquer une dérive sémantique.

Sur la capacité d'extension intermodale, il faut faire attention au glissement de l'« analogie » vers la « définition ». Dans le contexte de la normalisation terminologique, il est essentiel de distinguer la limite entre « métaphore explicative » et « définition ontologique », afin d'éviter que la première ne remplace la seconde.

Une analogie plus intuitive : dans un contexte de vulgarisation, nous pouvons comparer une ampoule à un « soleil artificiel » pour renforcer la compréhension intuitive ; mais dans le système de dénomination scientifique, il est impossible de rebaptiser l'unité de courant électrique « ampère » en « lumière » sur cette base. Le premier relève d'une expression descriptive, tandis que le second implique un système de mesure rigoureux et des définitions normalisées ; les deux ne peuvent être confondus.

De même, des termes comme « nuage de mots » ou « sac de mots » sont essentiellement des métaphores descriptives ou statistiques, dont la fonction est d’aider à comprendre la structure ou la forme de la distribution des données ; tandis que le token, en tant qu’unité fondamentale de mesure dans les grands modèles, est profondément intégré dans les systèmes de facturation en calcul, d’entraînement des modèles et de métriques académiques. Lorsque son utilisation atteint des volumes quotidiens de cent milliards à mille milliards d’appels, son nom ne porte plus seulement une fonction explicative, mais constitue un concept fondamental ayant une portée technique et normative. À ce niveau, le terme doit s’aligner sur ses propriétés intrinsèques, plutôt que de s’appuyer sur des analogies étendues.

Si l'on pousse cette analogie jusqu'au niveau de la dénomination, elle repose en réalité sur une présupposition dangereuse : puisque les gens sont habitués à comprendre les tokens comme des « mots », il serait acceptable de continuer à utiliser cette analogie. Mais cela n'est en fait qu'une continuation de la dépendance à un chemin existant — remplacer la correction du concept lui-même par la commodité des connaissances préexistantes. À cet égard, cette dénomination ressemble davantage à un « romantisme linguistique » qu'à une alignement rigoureux avec l'ontologie computationnelle.

Nous ne pouvons pas exiger de discuter de « chevaux électroniques » dans les moteurs électriques simplement parce que le terme « cheval-vapeur » contient le mot « cheval ». Les analogies peuvent aider à la compréhension, mais ne définissent pas les normes.

En comparaison, « Fu », en tant que concept plus neutre, possède naturellement une capacité d'adaptation inter-modale et couvre sans explication supplémentaire diverses formes d'information telles que le texte, l'image et la voix. Par conséquent, la voie de dénomination centrée sur l'« unité de symbole » est, au niveau de la définition, plus proche de la structure fondamentale de Token. Dans cette logique, « Fuyuan » en tant que traduction correspondante présente une plus grande cohérence conceptuelle et une meilleure adaptabilité à long terme.

Troisième : Le coût de la cognition : lorsque les ancrages sémantiques créent des malentendus systémiques

Point de vue de l'article (synthèse des avis d'experts) : L'expression « jeton » est concise, conforme aux habitudes chinoises et facile à diffuser.

Ce jugement présente une certaine validité au niveau de la communication, mais il repose sur la présupposition selon laquelle le public accepte les analogies intermodales des « mots ». Or, l'analogie est fondamentalement un outil de pensée experte, et non un mode de cognition naturel pour le grand public. Pour les utilisateurs ordinaires, le « mot » exerce un fort effet d'ancrage sémantique — dès qu'ils entendent « mot », leur intuition les oriente inévitablement vers le système linguistique, et non vers d'autres modalités telles que l'image, le son ou le mouvement. Ce chemin cognitif n'est pas un problème technique, mais une structure stable au niveau de la psychologie cognitive.

Sur cette base, lorsque le terme « mot » est étendu au soi-disant « mot au sens élargi », un biais est en réalité introduit dans la compréhension de l'utilisateur. L'utilisateur développe d'abord une compréhension intuitive selon laquelle « mot = unité linguistique », et non le concept abstrait d'« unité symbolique intermodale ». Une fois cette méprise établie, toutes les explications ultérieures deviennent des corrections de la认知 existante, plutôt que des extensions naturelles de la compréhension.

Par exemple, lorsque les médias rapportent qu’un modèle a été formé sur 10 billions de jetons, le public tend facilement à l’interpréter comme « ayant lu un grand volume de texte », tout en ignorant les nombreuses images, voix et autres données multimodales incluses. Ce malentendu n’est pas isolé, mais résulte d’une ancrage sémantique systématique du terme lui-même.

Dans un contexte d'ingénierie réelle, cette dénomination peut également créer des tensions dans la communication interdisciplinaire. Lorsque les unités discrètes dans les modèles visuels ou vocaux sont appelées « mots », cela ne seulement risque de provoquer des malentendus sémantiques, mais aussi de générer des conflits linguistiques inutiles entre les domaines. Les systèmes multimodaux nécessitent une unification au niveau du « symbole », et non une extension des catégories linguistiques.

En comparaison, « le symbole », en tant que concept plus abstrait, bien que présentant un seuil de compréhension initial légèrement plus élevé, a une signification plus neutre et n'ancrage pas préalablement la cognition au niveau linguistique. À long terme, il favorise la construction d'un cadre cognitif stable et uniforme, réduisant ainsi le coût global d'explication et offrant une base cognitive plus solide pour l'unification multimodale.

Le coût de la dénomination ne se produit pas au moment de la définition, mais au moment de la correction ; une fois qu'une dénomination précoce a établi un ancrage sémantique, le coût cognitif pour y remédier augmente de façon exponentielle.

Les experts peuvent étendre la frontière des « mots » par analogie, mais le grand public ne comprend pas les concepts par analogie. La dénomination ne sert pas les experts, mais répond à l'ensemble du système cognitif de l'époque.

Quatrième : l'illusion d'unicité : lorsque un mot tente de porter deux systèmes

Point de vue de l'article (principe de normalisation des termes) : « Token » respecte le principe d'unicité, aidant à résoudre les problèmes de traduction hétérogène.

En ce qui concerne l'unicité terminologique, il faut accorder une attention particulière aux risques systémiques pouvant découler des homonymes. Dans le cadre de la normalisation des termes scientifiques, l'unicité constitue l'un des principes fondamentaux. Un terme dont le sens nécessite un contexte ou une explication supplémentaire pour être distingué a déjà perdu sa valeur en tant qu'élément standardisé.

Cependant, selon le système académique actuel, ce jugement laisse encore place à des discussions supplémentaires. Le terme « token » est déjà largement utilisé dans les domaines de la linguistique et du traitement du langage naturel (NLP), où il correspond traditionnellement au concept anglais de « Lemma », c’est-à-dire la forme canonique d’un mot (par exemple, le lemme de is/am/are est be). Cette utilisation a établi un consensus stable dans les manuels fondamentaux et les articles académiques de linguistique et de NLP.

Dans ce contexte, si l'on traduit « Token » par «词元», cela peut entraîner des conflits sémantiques dans l'expression concrète, provoquant des scènes catastrophiques.

Par exemple, lors de la description de l'opération de lemmatisation d'un jeton dans le traitement du langage naturel, la formulation chinoise présentera la structure « lemmatiser un 'jeton' ». Cette expression augmente non seulement le coût de compréhension, mais introduit également des ambiguïtés dans les écrits académiques et la recherche d'informations, rendant difficile pour le lecteur de distinguer si le « jeton » désigne l'unité discrète segmentée ou la forme canonique du mot.

Sur le plan conceptuel, il existe une distinction claire entre les deux : Lemma met l'accent sur la « réduction » au niveau linguistique, correspondant à l'expression normalisée après changement de forme ; tandis que Token met l'accent sur la « segmentation » dans le processus de calcul, correspondant à l'unité discrète minimale traitée par le modèle. Cette différence entre « réduction » et « segmentation » correspond précisément aux différentes dimensions du niveau sémantique et du niveau symbolique.

Ainsi, lorsqu'un terme doit être « généralisé » pour couvrir simultanément plusieurs concepts existants, sa unicité se transforme en réalité en une « uniformisation au niveau de l'interprétation », et non en une « stabilité sémantique ».

Lorsqu'un terme doit être expliqué pour maintenir son unité, sa stabilité en tant que terme standard commence déjà à se fissurer.

En comparaison, « Fuyuan » ne présente aucun conflit sémantique dans le système terminologique actuel. D'une part, il conserve les propriétés ontologiques de Token en tant que symbole discret ; d'autre part, il évite le chevauchement avec la traduction existante de Lemma, ce qui lui confère une plus grande stabilité en termes de clarté sémantique et de cohérence systémique.

Cinq : Le retour de l’être : les jetons sont fondamentalement des « symboles », et non des « mots »

Point de vue de l'article (explication générale) : Un token est l'unité minimale utilisée par les modèles linguistiques pour traiter le texte.

Cette affirmation est valable au niveau fonctionnel, mais elle reste au niveau « comment utiliser » sans aborder ses propriétés ontologiques dans la théorie du calcul. Du point de vue de la théorie de l'information et de la théorie du calcul, les objets fondamentaux traités par un système de calcul ne sont pas des « mots », mais des « symboles » (symbol).

Cela peut être compris à deux niveaux supplémentaires :

D'un côté, du point de vue de la théorie de l'information, la nature de l'information réside dans l'élimination de l'incertitude, son unité de mesure étant le bit (bit), et son support étant des symboles discrets. Les symboles ne prennent pas en compte le contenu sémantique, mais uniquement la distribution de probabilité et la structure de codage ;

D'autre part, au niveau de l'implémentation computationnelle, les grands modèles ne « comprennent pas les mots » ; leurs objets de traitement sont des représentations discrètes sous forme d'identifiants (ID). Que cet ID corresponde à un caractère chinois, à un bloc d'image ou à un échantillon audio, il participe au calcul sous une forme symbolique uniforme.

Dans ce cadre, c'est précisément en raison de sa nature située au niveau « symbolique » et non au niveau « sémantique ». Les symboles eux-mêmes ne portent pas de sémantique, mais existent comme vecteurs fondamentaux de codage et de calcul.

Appeler le token « 词元 » introduit, dans une certaine mesure, une implication sémantique linguistique, ramenant ainsi le concept, initialement situé au niveau du symbole, vers une compréhension centrée sur le langage. Cette désignation peut offrir une intuïtion explicative, mais risque d'effacer la frontière entre « calcul symbolique » et « compréhension sémantique » au niveau théorique.

En comparaison, « Fu Yuan » reste conceptuellement confiné au niveau symbolique. D'une part, il reflète précisément les propriétés computationnelles du Token en tant que symbole discret ; d'autre part, il évite d'introduire des caractéristiques sémantiques dans la définition ontologique, ce qui le rend plus conforme au cadre fondamental de la théorie de l'information et de la théorie du calcul.

Du point de vue plus large, à mesure que les systèmes d'intelligence artificielle évoluent vers la multimodalité et l'intelligence générale, la désignation des concepts fondamentaux qui s'aligne directement sur leur ontologie mathématique et computationnelle favorisera la construction d'un système cognitif stable et évolutif. Dans ce sens, la voie de désignation centrée sur « unité symbolique » n'est pas seulement une question de choix linguistique, mais aussi une expression cohérente de la nature computationnelle, et « symbole unité » en est la correspondance naturelle dans ce cadre.

Définir les concepts à partir du niveau symbole correspond à un alignement sur la nature du calcul ; nommer les concepts à partir du niveau sémantique relève davantage de l'explication que de la définition.

Six : Cassure linguistique : échec de la cartographie dans le mécanisme de rétraduction

Point de vue de l'article (interprétation globale) : Le terme « token » a progressivement établi une base d'utilisation dans la communauté académique chinoise et présente un certain avantage de diffusion.

Dans un contexte interlinguistique, il est essentiel de rester vigilant face aux impacts systémiques de la « rupture de rétrotraduction ». La viabilité à long terme d’un terme technique ne dépend pas seulement de sa capacité à exprimer un sens dans le contexte chinois, mais aussi de sa capacité à établir une correspondance stable au sein du système académique international. Un terme idéal doit posséder une « réversibilité », c’est-à-dire la capacité à assurer une correspondance sémantique cohérente entre différentes langues.

Ce jugement reflète l'acceptabilité du terme dans son contexte local, mais laisse encore place à une discussion supplémentaire du point de vue interlinguistique. Si un terme ne s'applique que dans un seul système linguistique et ne peut pas établir une correspondance stable dans un contexte international, il risque d'engendrer des coûts de compréhension supplémentaires dans les échanges académiques.

Plus précisément, le terme « token » manque de chemin de correspondance clair et unique lors de la rétrotraduction. Lorsqu'il est ramené à l'anglais, il génère souvent des divergences entre plusieurs concepts similaires : par exemple, « word unit » n'a pas de définition académique stricte, « morpheme » correspond au morphème en linguistique, tandis que « lexeme » désigne le lexème. Aucun de ces concepts ne couvre précisément la signification de « token » dans un contexte informatique, et ils introduisent plutôt un décalage catégoriel.

En comparaison, «符元» peut être naturellement traduit par «symbolic unit». Ce concept possède une base théorique claire et une utilisation stable dans des domaines tels que la théorie de l'information, les mathématiques discrètes et la représentation multimodale, permettant de maintenir une orientation sémantique cohérente à travers différents contextes. Ainsi, il est plus facile d'établir une correspondance un à un entre le chinois et l'anglais.

Du point de vue pratique, une fois qu’un terme entre dans des articles académiques, des documents techniques ou des échanges internationaux, sa capacité à être rétraduit influence directement l’efficacité de l’expression et la précision de la compréhension. Si un terme nécessite une explication supplémentaire pour accomplir une conversion interlinguistique, son coût d’utilisation à long terme continuera de s’accumuler.

Ainsi, dans les systèmes interlinguistiques, les « tokens » font face à un problème principal lié à l'instabilité des chemins de correspondance, tandis que les « symbols » présentent une plus grande certitude en matière de correspondance sémantique et de cohérence conceptuelle. Dans un contexte où l'intelligence artificielle devient de plus en plus mondiale, choisir des termes dotés de bonnes propriétés de rétrotraduction favorisera la construction d'un système académique et technique ouvert et interopérable.

The international reversibility of terminology is essentially the key criterion for its long-term academic vitality.

Sept : Un mythe unifié : l'unité de forme ne signifie pas l'unité de structure

Point de vue de l'article (synthèse des avis d'experts) : Le terme « token » s'aligne stylistiquement avec des termes tels que « embedding » et « attention », étant concis et abstrait, ce qui correspond au contexte technique chinois.

Conclusion en premier : l'unification du système de terminologie doit reposer sur une « concordance conceptuelle », et non sur une « forme linguistique identique ».

Dans l'argumentation en faveur du terme «词元», une raison fréquemment avancée est que son style d'expression est cohérent avec des termes tels que «嵌入» et «注意力», étant concis et abstrait, ce qui correspond au contexte technique chinois. Cette raison capture bien le besoin réel d'uniformité dans le système terminologique, mais le problème réside dans le fait que si cette uniformité ne dépasse pas le niveau linguistique pour ne pas atteindre le niveau structurel, elle risque de basculer de l'« ordre » vers l'« illusion ».

« Embedding » et « attention » sont devenus des termes stables car ils correspondent à des structures de calcul précises : le premier est une cartographie vectorielle, le second est un mécanisme de pondération, dont les noms désignent directement la nature computationnelle. En revanche, « token » est un terme explicatif, dont la validité repose sur le cadre analogique du « mot large ». Dès lors qu’on se détourne de l’explication, ce terme ne possède pas de指向 structurel autonome.

Cette différence soulève une question cruciale : cohérence formelle, décalage sémantique.

Le premier réduit le coût d'expression, le second assure la stabilité cognitive. Si l'on privilégie la « forme linguistique identique », la complexité ne disparaît pas, mais se transforme en fardeau cognitif à long terme ; seule une dénomination fondée sur la « structure conceptuelle identique » peut rester stable à travers les contextes variés et l'évolution multimodale.

Lorsque « embedding », « attention » et « token » apparaissent côte à côte, il est facile de créer l'illusion d'une même couche conceptuelle. En réalité, les deux premiers sont des mécanismes, tandis que le dernier est un objet ; les deux premiers possèdent des définitions strictes, tandis que le dernier dépend du contexte pour son interprétation. Ce désalignement structurel engendre une rupture implicite dans le système cognitif.

Plus important encore, lorsqu'une dénomination de concept fondamental repose sur une analogie plutôt qu'une définition structurelle, son impact ne se limite pas à un seul terme, mais se propage à l'ensemble du système terminologique. Lorsque des concepts ultérieurs tentent de s'articuler autour de cette dénomination, ils doivent constamment recourir à des explications pour maintenir la cohérence, créant ainsi un décalage structurel implicite.

Dans ce sens, « Symbol » offre un chemin d'expression plus proche de la structure sous-jacente. Il désigne directement les objets fondamentaux du système de calcul — les symboles (symbol) — sans nécessiter d'explications analogiques, tout en restant cohérent dans différents contextes.

Les termes, pas seulement des étiquettes, mais des portes d'entrée cognitives. De bons termes font disparaître progressivement les explications, tandis que les mauvais termes entraînent une augmentation constante des notes. Lorsque les concepts fondamentaux s'écartent de la structure, le système de termes ne peut plus se maintenir par des définitions cohérentes, mais uniquement par des explications.

Conclusion

Au fond, le choix des termes n'est pas seulement une question linguistique, mais une forme précoce de structuration de la cognition dans un domaine. Une fois que la dénomination s'écarte de son essence structurelle dès les premières étapes, le système ultérieur ne peut maintenir son fonctionnement que par des explications continues, sans parvenir à établir un réseau conceptuel cohérent.

Au cours de la transition de l'intelligence artificielle vers une généralisation et une fusion multimodale, un terme capable d'aligner les ontologies computationnelles et de garantir une stabilité inter-contextuelle aura plus de chances de devenir un fondement cognitif durable. À cet égard, la voie de nomination centrée sur « unité symbolique » présente une adéquation plus équilibrée, alliant l'essence technique à la clarté cognitive.