Debate sobre a terminologia de tokens na China: "Unidade de palavra" vs "Unidade de símbolo"

Recentemente, a Comissão Nacional de Revisão de Termos Científicos e Técnicos publicou um aviso recomendando a tradução de “Token” no campo da inteligência artificial como “词元”, e abriu-a para uso público experimental. Em seguida, o jornal People's Daily publicou o artigo “Especialistas explicam por que o nome chinês de token foi definido como ‘词元’”, oferecendo uma explicação sistemática desse termo sob uma perspectiva profissional.

O texto menciona que o termo "token" deriva do inglês antigo tācen, que significa "símbolo" ou "marca". Em modelos de linguagem, um token é a menor unidade discreta obtida após a divisão ou codificação em nível de bytes do texto, podendo se manifestar sob diferentes formas, como palavras, subpalavras, afixos ou caracteres. O modelo exibe certa capacidade inteligente por meio da modelagem de sequências de tokens.

Este nome foi considerado, no sistema de avaliação de especialistas, conforme os princípios de unicidade, cientificidade, simplicidade e coerência, e também possui certa base de uso no contexto chinês atual. No entanto, após ler as interpretações relacionadas, formei uma compreensão diferente sobre este caminho de nomenclatura.

Do ponto de vista da padronização, esta proposta de nomenclatura apresenta vantagens de compreensão e disseminação a curto prazo. No entanto, se analisada sob os critérios de ontologia computacional, estrutura de informação, evolução multimodal e consistência de retrotradução, sua adaptabilidade a longo prazo ainda precisa ser verificada. Neste contexto, um caminho alternativo igualmente relevante — “Fuyuan” — começa a demonstrar maior consistência estrutural e estabilidade intercontextual.

I. Deslocamento da definição: não se pode substituir "origem" por "essência"

Opinião do artigo (Dr. Chen Xilin, pesquisador do Instituto de Tecnologia de Computação da Academia Chinesa de Ciências): O papel inicial do token na inteligência artificial é o de “unidade semântica básica da linguagem”, portanto, “token” é mais adequado para refletir sua essência.

Essa avaliação era razoável no contexto histórico, mas, diante da atual grande transição paradigmática tecnológica, esse pensamento é essencialmente um “buscar a espada na embarcação” acadêmico.

No nível lógico da definição de termos, deve-se rigorosamente distinguir entre “cenário inicial de aplicação” e “propriedades essenciais da estrutura”.

Os tokens realmente originaram-se no processamento de linguagem natural (NLP), mas na trajetória de evolução da AGI, já ultrapassaram os limites dos modelos de linguagem e evoluíram para unidades básicas capazes de processar unificadamente texto, imagens, voz e até sinais físicos. No sistema computacional moderno, a estrutura ontológica real dos tokens é “unidade de símbolo discreto”, e não uma unidade linguística de um único modo.

Se fosse nomeado com base no "papel inicial", o computador (Computer) deveria ser chamado de "calculista eletrônico" (derivado de sua função original de substituir calculistas humanos); a internet (Internet) deveria ser chamada de "rede militar da Guerra Fria". A falha fatal dessa lógica de nomenclatura é que ela apenas observa o "cargo temporário" da tecnologia em um momento histórico específico, ignorando seu "corpo físico" transversal ao tempo.

O caminho histórico não pode ser equiparado à propriedade essencial. Da mesma forma, não podemos, apenas porque o Token foi originalmente usado para processar texto, mantê-lo permanentemente preso ao contexto restrito de “palavra”.

Definir conceitos básicos usando "cenários iniciais de aplicação" é, na essência, substituir a verdade ontológica da estrutura pela dependência histórica de caminhos. Essa definição pode oferecer conveniência de compreensão no estágio inicial da tecnologia, mas, na fase de expansão paradigmática marcada pelo surgimento de multimodalidade, ela rapidamente se torna obsoleta e transforma-se em uma corrente que impede o entendimento. Em contraste, o "Símbolo" alinha-se diretamente à ontologia simbólica do cálculo multimodal; ele não define o "passado" do Token, mas sim a "verdade" do Token.

II. Limite da analogia: quando a explicação se torna uma definição, começa a se desviar

Opinião do artigo (Dong Yuxiao, professor associado do Departamento de Ciência da Computação da Universidade Tsinghua): Pode-se compreender as unidades discretas na multimodalidade como “palavras generalizadas”, por meio de analogias como “nuvem de palavras” e “saco de palavras”.

A analogia do professor Dong Yuxiao ajuda a compreender, mas não deve substituir a definição. Essa abordagem possui certa启发性 na explicação, mas, se elevada a uma base para nomenclatura, pode causar deslocamento de categoria no nível conceitual.

Do ponto de vista metodológico, a analogia serve para reduzir a barreira de compreensão, enquanto a definição tem como função delimitar os limites semânticos. Quando o termo “palavra” é expandido para abranger patches de imagem, fragmentos de áudio, representações vetoriais (embeddings) e até sinais perceptivos mais amplos, suas propriedades linguísticas originais são progressivamente diluídas, e os limites semânticos tornam-se nebulosos. Essa via de expansão impulsionada por analogias pode manter a consistência interpretativa a curto prazo, mas, na evolução de longo prazo, tende a causar deriva semântica.

Na capacidade de expansão intermodal, é necessário estar atento à deslizamento da “analogia” para a “definição”. No contexto da padronização de termos, deve-se distinguir claramente o limite entre “metáforas explicativas” e “definições ontológicas”, evitando que as primeiras substituam as segundas.

Uma analogia mais intuitiva é: em contextos de divulgação científica, podemos comparar uma lâmpada a um “sol artificial” para aumentar a compreensão intuitiva; mas no sistema de nomenclatura científica, não é possível, com base nisso, renomear a unidade de corrente elétrica “ampère” como “lumên”. O primeiro é uma expressão descritiva, enquanto o segundo envolve um sistema rigoroso de medição e definições padronizadas — os dois não podem ser confundidos.

Da mesma forma, termos como “nuvem de palavras” e “saco de palavras” são essencialmente metáforas descritivas ou estatísticas, cuja função é ajudar a compreender a estrutura dos dados ou a forma da distribuição; já o Token, como unidade básica de medição em grandes modelos, está profundamente integrado nos sistemas de cobrança de capacidade de processamento, treinamento de modelos e métricas acadêmicas. Quando seu uso atinge escalas diárias de centenas de bilhões a trilhões de chamadas, seu nome já não carrega apenas uma função explicativa, mas sim se torna um conceito fundamental com significado técnico e padronizado. Nesse nível, os termos precisam alinhar-se às suas propriedades ontológicas, em vez de depender de analogias estendidas.

Se essa analogia for levada até o nível da nomenclatura, ela pressupõe implicitamente um pressuposto perigoso: como as pessoas já estão acostumadas a entender Tokens como “palavras”, basta continuar utilizando essa analogia. Mas isso, na verdade, é uma continuação da dependência de caminho—substituindo a correção do conceito em si pela conveniência do conhecimento pré-existente. Nesse sentido, essa nomenclatura aproxima-se mais de um “romantismo linguístico” do que de um alinhamento rigoroso com a ontologia computacional.

Não podemos exigir que, ao discutir motores elétricos, se fale de "cavalos eletrônicos" apenas porque a palavra "cavalo" contém a palavra "cavalo". Analogias podem inspirar compreensão, mas não definem padrões.

Em contraste, o "fú", enquanto conceito mais neutro, possui naturalmente a capacidade de adaptação multimodal, cobrindo múltiplas formas de informação—texto, imagem, voz—sem depender de explicações adicionais. Portanto, a abordagem de nomenclatura centrada no "unidade de símbolo" é, em termos de definição, mais próxima da estrutura essencial do Token. Sob essa lógica, "fúyuan" como tradução correspondente oferece maior consistência conceitual e adaptabilidade a longo prazo.

Três: O custo do conhecimento: Quando âncoras semânticas criam mal-entendidos sistêmicos

Opinião do artigo (com base em opiniões de especialistas): O termo "token" é conciso, está de acordo com o hábito chinês e é fácil de disseminar.

Essa avaliação possui certa racionalidade no nível da comunicação, mas seu pressuposto implícito é: o público consegue aceitar analogias intermodais para a palavra “termo”. No entanto, analogias são, por natureza, ferramentas de pensamento especializado, e não modos naturais de cognição para o público geral. Para usuários comuns, o “termo” possui um efeito de ancoragem semântica extremamente forte — assim que ouvem “termo”, sua intuição aponta inevitavelmente para o sistema linguístico, e não para outros modos, como imagens, sons ou ações. Esse caminho cognitivo não é um problema técnico, mas sim uma estrutura estável no nível da psicologia cognitiva.

Sobre essa base, quando a palavra é expandida para o chamado "palavra ampliada", na verdade já se cria um viés na percepção do usuário. O usuário primeiro forma a compreensão intuitiva de que "palavra = unidade linguística", e não o conceito abstrato de "unidade simbólica multimodal". Uma vez que esse mal-entendido é estabelecido, todas as explicações subsequentes tornam-se correções da percepção existente, em vez de uma extensão natural da compreensão.

Por exemplo, quando a mídia relata que “o modelo foi treinado com 10 trilhões de tokens”, o público facilmente interpreta isso como “leu grande quantidade de texto”, ignorando os grandes volumes de imagens, áudio e outros dados modais incluídos. Esse mal-entendido não é isolado, mas sim sistematicamente induzido pela ancoragem semântica do próprio termo.

Em contextos de engenharia real, essa nomenclatura também pode causar atritos na comunicação interdisciplinar. Quando unidades discretas em modelos visuais ou de voz são chamadas de “palavras”, não apenas facilita mal-entendidos semânticos, mas também cria conflitos linguísticos desnecessários entre diferentes áreas. Sistemas multimodais precisam de uma unificação na “camada de símbolos”, e não da expansão de categorias linguísticas.

Em comparação, o "símbolo", enquanto conceito mais abstrato, embora apresente uma barreira inicial de compreensão ligeiramente maior, possui uma semântica mais neutra e não fixa a percepção previamente no nível linguístico. No uso prolongado, é mais favorável para estabelecer um quadro cognitivo estável e unificado, reduzindo assim o custo geral de explicação e fornecendo uma base cognitiva mais estável para a unificação multimodal.

O custo da nomeação não ocorre no momento da definição, mas sim no momento da correção; uma vez que a nomeação inicial estabelece um ancla semântica, o custo de correção cognitiva subsequente aumenta exponencialmente.

Especialistas podem expandir os limites da “palavra” por meio de analogias, mas o público geral não compreende conceitos por meio de analogias. Nomear não é para servir aos especialistas, mas para responsabilizar-se pelo sistema cognitivo de toda uma era.

Quatro: a ilusão de unicidade: quando uma palavra tenta carregar dois sistemas

Opinião do artigo (princípio de padronização de termos): "Token" está em conformidade com o princípio da unicidade semântica, ajudando a resolver problemas de tradução confusa.

Em termos de unicidade terminológica, deve-se prestar atenção especial aos riscos sistêmicos que podem surgir de termos com múltiplos significados. Na revisão de termos científicos, a "unicidade" é um dos princípios fundamentais. Se um termo exigir contexto ou explicações adicionais para distinguir seus significados, já perdeu seu valor como padrão.

No entanto, do ponto de vista do sistema acadêmico atual, esse julgamento ainda apresenta espaço para discussão adicional. O termo “token” já possui um uso estabelecido na linguística e no processamento de linguagem natural (NLP), sendo historicamente correspondido ao conceito inglês de “Lemma”, ou seja, a forma canônica da palavra (por exemplo, o lemma de is/am/are é be). Esse uso já formou um consenso estável em livros didáticos e artigos acadêmicos básicos de linguística e NLP.

Neste contexto, traduzir Token como “token” pode causar conflitos semânticos nas expressões específicas, resultando em situações desastrosas.

Por exemplo, ao descrever a operação de lematização de um token no NLP, a expressão em chinês aparecerá como “realizar a tokenização no ‘token’”. Essa formulação não apenas aumenta o custo de compreensão, mas também introduz ambiguidade na escrita acadêmica e na recuperação de informações, dificultando para o leitor distinguir se o “token” se refere à unidade discreta segmentada ou à forma original normalizada da palavra.

Do ponto de vista funcional, há uma distinção clara entre ambos: o Lemma enfatiza a "redução" no nível linguístico, correspondendo à forma padronizada após a variação morfológica; já o Token enfatiza a "segmentação" no processo computacional, correspondendo à menor unidade discreta processada pelo modelo. Essa diferença entre "redução" e "segmentação" corresponde precisamente às diferentes dimensões do nível semântico e do nível simbólico.

Portanto, quando um termo precisa ser "generalizado" para abranger simultaneamente vários conceitos existentes, sua unicidade na verdade se transforma em "unificação no nível de interpretação", e não em "estabilidade semântica".

Quando um termo precisa ser explicado para manter a consistência, sua estabilidade como termo padrão já começou a se abalar.

Em contraste, "Fuyuan" não apresenta conflito semântico no sistema de terminologia existente. Por um lado, mantém a propriedade ontológica do Token como símbolo discreto; por outro, evita sobreposição com a tradução já estabelecida de Lemma, demonstrando maior estabilidade em termos de clareza semântica e consistência do sistema.

V. O retorno do sujeito: o Token é, por natureza, um "símbolo", e não uma "palavra"

Opinião do artigo (explicação geral): Um token é a unidade mínima usada por modelos de linguagem para processar texto.

Essa afirmação é válida do ponto de vista funcional, mas ainda permanece no nível de "como usar" e não aborda sua propriedade ontológica na teoria da computação. Do ponto de vista da teoria da informação e da teoria da computação, o objeto básico processado por sistemas computacionais não é "palavra", mas "símbolo" (symbol).

Isso pode ser compreendido em dois níveis adicionais:

Por um lado, sob a perspectiva da teoria da informação, a natureza da informação reside em eliminar a incerteza, sendo sua unidade de medida o bit (bit), e seu portador são símbolos discretos. Os símbolos não se preocupam com o conteúdo semântico, mas apenas com a distribuição de probabilidade e a estrutura de codificação;

Por outro lado, no nível de implementação computacional, os grandes modelos não "reconhecem caracteres"; seus objetos de processamento são representações discretas de índices (IDs). Independentemente de esse ID corresponder a um caractere chinês, um bloco de imagem ou uma amostra de áudio, todos participam dos cálculos na forma unificada de símbolos.

Dentro deste quadro, é exatamente porque sua natureza reside no “nível simbólico”, e não no “nível semântico”. Os símbolos em si não carregam significado, mas existem como veículos básicos de codificação e cálculo.

Chamar o token de “termo” introduz, em certa medida, uma implicação semântica linguística, trazendo de volta esse conceito originalmente no nível simbólico para uma trajetória de compreensão centrada na linguagem. Essa forma de nomeação pode oferecer intuição na explicação, mas facilmente confunde a fronteira entre “cálculo simbólico” e “compreensão semântica” no nível teórico.

Em contraste, "Fuyuan" mantém-se dentro do nível simbólico em termos conceituais. Por um lado, reflete com precisão a propriedade computacional do Token como um símbolo discreto; por outro, evita introduzir características semânticas na definição ontológica, alinhando-se assim melhor ao quadro básico da teoria da informação e da teoria da computação.

Do ponto de vista mais amplo, à medida que os sistemas de inteligência artificial evoluem para multimodalidade e inteligência geral, a nomenclatura dos conceitos fundamentais, se alinhada diretamente com sua ontologia matemática e computacional, facilitará a construção de um sistema cognitivo estável e escalável. Nesse sentido, a abordagem de nomenclatura centrada no “símbolo unitário” não é apenas uma escolha linguística, mas também uma expressão coerente da natureza computacional, e “símbolo” é a correspondência natural dentro desse framework.

Definir conceitos a partir do nível símbolo é alinhar-se com a essência do cálculo; nomear conceitos a partir do nível semântico é mais próximo de explicar do que definir.

Seis: A quebra da linguagem: falha de mapeamento no mecanismo de retrotradução

Opinião do artigo (interpretação abrangente): O termo "token" já vem estabelecendo uma base de uso na academia chinesa, apresentando certa vantagem de disseminação.

Em contextos interlinguísticos, é necessário estar atento às implicações sistêmicas causadas pelo “rompimento de retrotradução”. A medição da vitalidade a longo prazo de um termo técnico não depende apenas de sua capacidade de expressão no contexto chinês, mas também de sua capacidade de realizar mapeamento estável dentro do sistema acadêmico internacional. Um termo ideal deve possuir “reversibilidade”, ou seja, ser capaz de realizar uma ida e volta semântica consistente entre diferentes línguas.

Essa avaliação reflete a aceitabilidade do termo no contexto local, mas ainda deixa espaço para discussão sob uma perspectiva interlinguística. Se um termo for válido apenas dentro de um único sistema linguístico e não puder estabelecer uma correspondência estável no contexto internacional, pode introduzir custos adicionais de compreensão na comunicação acadêmica.

Especificamente, o termo “token” carece de um caminho claro e único de retorno durante o processo de retrotradução. Ao ser revertido para o inglês, frequentemente gera divergências entre vários conceitos semelhantes: por exemplo, “word unit” não possui uma definição acadêmica rigorosa, “morpheme” corresponde ao morfema na linguística, e “lexeme” refere-se ao lexema. Nenhum desses conceitos cobre com precisão o significado de “token” no contexto computacional, e todos introduzem deslocamentos categoriais.

Em contraste, "symbolic unit" pode ser traduzido de forma mais natural como "unidade simbólica". Esse conceito possui uma base teórica clara e uso estável em campos como teoria da informação, matemática discreta e representação multimodal, mantendo uma orientação semântica consistente em diferentes contextos. Portanto, é mais fácil estabelecer uma correspondência um-para-um entre chinês e inglês.

Do ponto de vista prático, uma vez que os termos entram em artigos acadêmicos, documentos técnicos e cenários de comunicação internacional, sua capacidade de retrotradução afetará diretamente a eficiência da expressão e a precisão da compreensão. Se um termo exigir explicações adicionais para realizar a conversão entre idiomas, seu custo de uso a longo prazo continuará a se acumular.

Portanto, nos sistemas interlinguísticos, o principal problema enfrentado pelos "tokenes" é a instabilidade dos caminhos de mapeamento, enquanto os "type tokens" demonstram maior certeza em termos de correspondência semântica e consistência conceitual. No contexto da crescente globalização da inteligência artificial, escolher termos com boas características de retrotradução será mais favorável para construir sistemas acadêmicos e técnicos abertos e interoperáveis.

The international reversibility of terminology is essentially the key criterion for its long-term academic vitality.

VII. Mitos unificados: consistência de forma não equivale a consistência de estrutura

Opinião do artigo (com base em opiniões de especialistas): O termo “token” mantém consistência estilística com termos como “embedding” e “attention”, sendo conciso e abstrato, adequado ao contexto técnico em chinês.

Conclusão primeiro: a unificação do sistema de termos deve ser baseada em “construção conceitual”, e não em “forma linguística”.

Na justificativa para o termo “词元”, um argumento comum é que seu estilo de expressão mantém consistência com termos como “embed” e “attention”, sendo conciso e abstrato, adequado ao contexto técnico chinês. Esse argumento captura a necessidade real de coerência no sistema de terminologia, mas o problema é que, se a coerência se limitar ao nível linguístico e não ao nível estrutural, ela deslizará da “ordem” para a “ilusão”.

“Embedding” e “attention” tornaram-se termos estáveis porque correspondem a estruturas computacionais bem definidas: o primeiro é um mapeamento vetorial, o segundo é um mecanismo de pesos, cujos nomes apontam diretamente para a essência computacional. Já “token” é um termo explicativo, cuja justificativa depende do quadro analógico do “termo ampliado”. Uma vez removido o contexto explicativo, esse termo em si não possui uma orientação estrutural autoconsistente.

Essa diferença traz uma questão crucial: consistência formal, deslocamento semântico.

O primeiro reduz o custo de expressão, o segundo garante a estabilidade cognitiva. Se a prioridade for a “homomorfia linguística”, a complexidade não desaparecerá, mas será transferida para uma carga cognitiva a longo prazo; apenas uma nomenclatura baseada na “homomorfia conceitual” poderá manter-se estável ao longo da evolução intercontextual e multimodal.

Quando "embeddings", "attention" e "tokens" aparecem lado a lado,容易形成“概念同层”的错觉。但实际上，前两者是机制，后者是对象；前两者具备严格定义，后者则依赖语境解释。这种结构不对齐，会在认知体系中埋下隐性断裂。

Mais importante ainda, quando a nomenclatura de um conceito fundamental depende de analogia em vez de definição estrutural, seu impacto não se limita a um único termo, mas se espalha por todo o sistema terminológico. Quando conceitos subsequentes tentam se organizar em torno dessa nomenclatura, serão obrigados a manter a consistência por meio de explicações constantes, criando assim um desalinhamento estrutural implícito.

Nesse sentido, o "símbolo" oferece um caminho de expressão mais próximo da estrutura subjacente. Ele aponta diretamente para o objeto básico nos sistemas de cálculo — o símbolo (symbol) — mantendo consistência em diferentes contextos sem depender de explicações analógicas.

Termos, não apenas rótulos, mas portas de entrada para a compreensão. Boas terminologias fazem as explicações desaparecerem gradualmente; más terminologias aumentam constantemente as notas explicativas. Quando os conceitos fundamentais se desviam da estrutura, o sistema de termos só pode se manter por meio de explicações, e não por definições autoconsistente.

Conclusão

Na essência, a escolha dos termos não é apenas uma questão linguística, mas uma forma inicial de moldar a estrutura cognitiva de um domínio. Uma vez que a nomenclatura se desvia de sua estrutura ontológica na fase inicial, o sistema subsequente só pode manter-se em funcionamento por meio de explicações contínuas, dificultando a formação de uma rede conceitual coerente.

No processo de avanço da inteligência artificial em direção à generalização e à fusão multimodal, um termo capaz de alinhar o ontológico computacional e possuir estabilidade intersitacional terá maior probabilidade de se tornar uma base cognitiva duradoura. Nesse sentido, a abordagem de nomenclatura centrada no “símbolo unitário” apresenta uma adaptação mais equilibrada, conciliando a essência técnica com a clareza cognitiva.