Se a voz se tornar realmente o principal método de interação, o ambiente acústico do escritório se tornará algo que precisa ser cuidadosamente projetado.
Autor do artigo, fonte: Lao Ban Zhu, Cyber Last Train
Recentemente, o WSJ publicou uma matéria cujo título, traduzido, seria algo como: “Digitando está sendo substituído por sussurros, e isso é mais irritante do que você pensa”.

TechCrunch seguiu o assunto. O jornalista Anthony Ha escreveu uma breve análise, citando no início a percepção de um investidor de risco, que disse que, ao visitar escritórios de startups da Vale do Silício, agora tem a sensação de entrar em um centro de atendimento de alto padrão.
A razão é que cada vez mais pessoas no escritório estão murmurando para os computadores.
Não é ligar, não é reunião, não é conversar com colegas. É uma pessoa sentada na sua mesa, baixando a voz e falando para a tela. Às vezes, fala sobre e-mails, às vezes sobre código, às vezes sobre mensagens no Slack. O teclado faz um som ocasional, mas, na maioria das vezes, acima da mesa flutua um sussurro suave.
Esta cena, se colocada há cinco anos, provavelmente seria vista como um sinal de alerta de algum estado mental. Mas em algumas startups da Silicon Valley em 2026, isso está começando a se tornar comum.
O que impulsiona isso é uma nova classe de ferramentas. A mais representativa é a Wispr Flow.
Não é um sistema de reconhecimento de voz tradicional. Nos métodos anteriores, o que você dizia era transcrito literalmente — você precisava dizer os sinais de pontuação em voz alta, e erros de digitação apareciam por toda parte; corrigir um parágrafo levava mais tempo do que digitá-lo. O Wispr Flow é diferente. Ele usa IA para entender o contexto do que você diz, remove automaticamente palavras de preenchimento como “hum” e “aí”, adiciona pontuação sozinho e ajusta o formato conforme o aplicativo em que você está falando.
Você fala no Gmail, e ele gera um e-mail formatado corretamente. Você fala no Slack, e ele gera uma mensagem curta. A documentação do produto até lista cenários de código, como ditar código no VS Code ou no Cursor, com capacidade de distinguir entre notação camelCase e snake_case.
Alguns materiais do produto afirmam que a latência pode ser tão baixa quanto cerca de 500 milissegundos. A velocidade máxima anunciada oficialmente é de aproximadamente 220 WPM (palavras por minuto em inglês), enquanto digitadores experientes geralmente atingem entre 80 e 100 WPM.
A chave é que isso roda no nível do sistema. Funciona em Mac, Windows e celulares. Qualquer app, basta pressionar uma tecla de atalho para começar a falar. Custa cerca de dez a vinte dólares por mês.
Então cada vez mais pessoas estão começando a escrever com a boca.

Segundo usuários entrevistados pelo WSJ, alguns compraram fones de jogo específicos para falar com a IA, pois os microfones desses fones têm uma distância de captação curta, o que permite sussurrar sem ser ouvido por pessoas ao lado. Outros adquiriram pedais programáveis, permitindo ativar o Wispr com um simples toque do pé, sem precisar usar as mãos para pressionar atalhos. Alguns ainda instalaram microfones de pescoço de ganso em suas mesas, posicionando-os a poucos centímetros da boca, de modo que seja suficiente falar em sussurro.
Imaginem este cenário. Um escritório aberto, dezenas de pessoas, cada uma com uma tela à frente, usando fones de jogo na cabeça e um microfone de pescoço de ganso na boca, todas sussurrando em tom baixo.
Realmente parece um centro de atendimento. Só que um pouco mais silencioso.
A reportagem da TechCrunch mencionou duas pessoas específicas.
Um dos cofundadores da Gusto, Edward Kim. A Gusto é uma empresa norte-americana de SaaS para folha de pagamento e recursos humanos corporativos, de grande porte. Kim disse que agora só digita quando absolutamente necessário, e o resto do tempo usa apenas a voz. Ele informou à equipe que o escritório do futuro soará “mais como um departamento de vendas”.
Mas Kim também admitiu que falar para o computador no escritório o tempo todo é "um pouco embaraçoso".
Outro é a empreendedora de IA Mollie Amkraut Mueller, que desenvolveu o hábito de trabalhar sozinha em casa à noite, falando baixo para o computador, até que seu marido não aguentou mais. Agora, seu padrão de trabalho noturno consiste em ambos sentarem separados ou uma pessoa ir para a sala de estudos.
Não é comum um produto tecnológico ser tão útil a ponto de mudar a forma como casais se relacionam à noite.
O fundador do Wispr, Tanay Kothari, não se importa muito com esses momentos constrangedores. Em uma entrevista, ele disse que tudo isso acabará se tornando normal, assim como quando começamos a olhar para os celulares. Há mais de uma década, uma pessoa olhando para o celular em público era considerada mal-educada. Hoje, muitas pessoas já não acham estranho.
Falar para o computador é o mesmo, ele acha que só precisa de tempo.
Frankamente, ele pode estar certo. Mas o período intermediário de transição provavelmente será muito confuso.
Porque uma pessoa digitando em um escritório aberto é inaudível para os outros. Mas se uma pessoa sussurra em um escritório aberto, mesmo no nível mais baixo, as pessoas ao lado ainda conseguem ouvir aquele zumbido suave. Um ou dois indivíduos são aceitáveis, mas quando dezenas de pessoas sussurram ao mesmo tempo, o ambiente acústico se torna muito peculiar.

Segundo o WSJ, algumas pessoas já estão usando fones de ouvido com cancelamento de ruído para bloquear os sons de colegas falando com seus computadores.
Pense nessa cena. A usa fones de jogo para falar com o computador, enquanto B usa fones com cancelamento de ruído para bloquear o som da voz de A. Os dois estão sentados em mesas adjacentes, não conseguem ver os ouvidos um do outro, mas ambos têm um par de fones de ouvido na cabeça, com propósitos completamente diferentes.
Esta questão merece ser discutida porque toca em coisas muito mais profundas do que uma ferramenta de eficiência.
Os principais métodos de interação com computadores passaram por várias grandes ondas. A interface gráfica e o mouse esconderam a linha de comando atrás dos usuários comuns, permitindo que pessoas sem conhecimento de programação usassem computadores. As telas sensíveis ao toque substituíram botões, e o iPhone transformou os celulares em pedaços de vidro. Cada mudança no método de interação não é apenas uma questão de “ficar mais fácil de usar”; ela altera a relação física entre você e o dispositivo, e, consequentemente, a relação espacial entre você e as pessoas ao seu redor.
Teclados, telas e estações de trabalho individuais reforçam a postura silenciosa do escritório, com cada pessoa voltada para uma tela, mãos sobre o teclado, sem se perturbar. Telas sensíveis ao toque permitem que as pessoas trabalhem no sofá, na cama ou no metrô, borrando os limites do escritório.
Se a voz se tornar realmente o principal método de interação, o ambiente acústico do escritório se tornará algo que precisa ser cuidadosamente projetado. Cubículos isolados acusticamente, estações de trabalho com privacidade sonora e zonas acústicas — conceitos que hoje parecem um pouco redundantes — podem se tornar padrão no design de espaços corporativos, assim como cada escritório hoje tem uma sala de reuniões.
Claro, isso não significa que todos vão começar a falar para trabalhar, mas sim que os espaços de trabalho precisam oferecer opções para entrada por voz. A etiqueta social também mudará. Quando é apropriado falar com o computador? Quando é melhor voltar a digitar? É considerado mal-educado murmurar para o notebook em um café? Essas perguntas ainda não têm respostas, mas daqui a dois ou três anos já poderá haver normas estabelecidas.
Assim como a etiqueta de fazer ligações em locais públicos. Ninguém ensinou, mas todos acabaram sabendo.
O jornalista da TechCrunch Anthony Ha deixou uma frase carregada de emoção pessoal no final do artigo. Ele disse que já sofreu muito por ter seu lugar de trabalho temporariamente mudado ao lado do departamento de vendas, então, quando viu Edward Kim dizer que os escritórios do futuro seriam como departamentos de vendas, sua reação foi: Oh no.
The fact that a tech journalist could write "Oh no" in a formal report is probably worth paying attention to.
