Binabanggit ni Vishal Misra ang Transformers, Causation, at Bayesian Updating sa AI

Mga Pangunahing Aral

Ang mga transformer ay natututo pangunahin ng mga korelasyon, hindi mga sanhi at epekto, na naglalimita sa kanilang kakayahang makamit ang totoong inteligensya.
Ang pagkatupad ng AGI ay nangangailangan ng mga modelo na makakapag-transisyon mula sa pag-aaral ng mga korelasyon patungo sa pag-unawa sa mga sanhi at epekto.
Ang mga malalaking modelo ng wika ay nagpapagawa ng teksto sa pamamagitan ng paghuhula sa susunod na token batay sa mga distribusyon ng probabilidad.
Ang konteksto na ibinigay sa mga prompt ay malaki ang epekto sa output ng mga modelo ng wika.
Ang mga language model ay gumagana sa mga maliit na matrix kung saan maraming kombinasyon ng token ay walang kwenta.
Ang in-context learning ay nagpapahintulot sa LLMs na lutasin ang mga problema sa real-time gamit ang mga halimbawa.
Ang mga wika na espesipiko sa domain (DSLs) ay makakasimpleng mga kumplikadong query sa database sa natural na wika.
Ang in-context learning sa LLMs ay katulad ng Bayesian updating, kung saan tinatayong muli ang mga probabilidad batay sa bagong ebidensya.
Ang debate sa pagitan ng Bayesian at frequentist approach ay nakakaapekto sa pagkakakilanlan ng mga bagong machine learning models.
Ang konsepto ng Bayesian wind tunnel ay nag-aalok ng kontroladong kapaligiran para sa pagsubok ng mga arkitektura ng machine learning.
Mahalaga ang pag-unawa sa mekanika ng LLMs upang epektibong gamitin ang kanilang mga aplikasyon.
Ang paglipat mula sa korrelasyon patungo sa sanhi ay isang malaking hadlang sa pag-unlad ng AI.
Ang kontekstwal na kahalagahan sa LLMs ay nagpapakita ng kahalagahan ng pagpili ng prompt.
Ang mga maliit na matrix sa mga modelo ng wika ay nagpapalakas ng kahusayan sa pamamagitan ng pagpapalaya sa mga hindi kaukulang kombinasyon ng token.
Ang Bayesian wind tunnel ay nagbibigay ng bagong framework para sa pag-e-evaluate ng mga machine learning model.

Pagsisimula ng bisita

Si Vishal Misra ay Professor ng Computer Science at Electrical Engineering at Vice Dean ng Computing at AI sa School of Engineering ng Columbia University. Bumabalik siya sa a16z Podcast upang talakayin ang kanyang pinakabagong panel na nagpapakita kung paano ang mga transformer sa LLMs ay nag-a-update ng mga paghuhula sa isang tiyak, matematikal na maipapalagay na paraan habang nilalapat ang bagong impormasyon. Ipinapakita ng kanyang trabaho ang puwang patungo sa AGI, na nagte-teklado sa pangangailangan ng tuloy-tuloy na post-training learning at causal understanding kaysa pattern matching.

Pag-unawa sa mga transformer at LLMs

Ang mga transformer ay nag-a-update ng kanilang mga paghuhula sa isang matematikal na maipapahiwatig na paraan
— Vishal Misra
Ang mga LLM ay pangunahing natututo ng mga korelasyon kaysa sa mga sanhi at epekto, na naglalayong limitahan ang kanilang kakayahan.
Hindi ang pattern matching ay karunungan; natututo ang LLMs ng korelasyon, hindi ng sanhi at epekto
— Vishal Misra
Ang pagkamit ng AGI ay nangangailangan ng mga modelo na makakapag-aral ng mga sanhi, hindi lamang mga korelasyon.
Upang makarating sa AGI, kailangan natin ang kakayahang magpatuloy sa pag-aaral pagkatapos ng pagtuturo
— Vishal Misra
Ang mga LLM ay nagpapagawa ng teksto sa pamamagitan ng pagbuo ng isang distribusyon ng probabilidad para sa susunod na token.
Sa ibinigay na prompt, ito ay maglalabas ng isang distribusyon kung ano ang dapat na susunod na token
— Vishal Misra
Mahalaga ang pag-unawa sa mekanika ng LLMs upang epektibong gamitin ang kanilang mga aplikasyon.

Ang papel ng konteksto sa mga modelo ng wika

Ang pag-uugali ng mga modelo ng wika ay nakaaapekto sa nakaraang konteksto na ibinigay sa mga prompt.
Depende kung piliin mo ang synthesis o shake, magkakaiba ang sumusunod na row
— Vishal Misra
Ang kontekstwal na kahalagahan sa LLMs ay nagpapakita ng kahalagahan ng pagpili ng prompt.
Ang mga language model ay gumagana sa isang sparse matrix kung saan maraming kombinasyon ng mga token ay walang kwenta.
Sa kabutihang palad, ang matrix na ito ay napakakalat dahil ang anumang kombinasyon ng mga token na ito ay isang kalokohan
— Vishal Misra
Pinapabisa ng mga kakaunting matris ang efisensya sa pamamagitan ng pag-filters sa mga hindi kaugnay na kombinasyon ng token.
Ang ibinigay na konteksto ay maaaring magbago nang malaki ang output ng mga modelo ng wika.
Mahalaga ang pag-unawa kung paano nagpapagawa ng teksto ang mga language model batay sa mga input prompt.

In-context learning at real-time problem solving

Ang in-context learning ay nagpapahintulot sa LLMs na matuto at lutasin ang mga problema sa real-time.
Ang in-context learning ay kapag ipinapakita mo sa LLM ang isang bagay na halos hindi pa ito nakikita bago
— Vishal Misra
Ang mga LLM ay nagpaproseso at nag-aaral mula sa bagong impormasyon sa pamamagitan ng mga halimbawa.
Ang in-context learning ay katulad ng Bayesian updating, kung saan tinatayong muli ang mga probabilidad gamit ang bagong ebidensya.
Ginagawa ng LLMs ang isang bagay na katulad ng Bayesian updating
— Vishal Misra
Mahalaga ang mekanismong ito para maunawaan ang mga kakayahan ng LLMs.
Ang real-time problem solving sa LLMs ay pinapagana ng in-context learning.
Ang kakayahang matuto mula sa mga halimbawa ay nagpapakita ng kakayahang umangkop ng LLMs.

Mga wika at pagkakaroon ng data na espesipiko sa domain

Ang mga wika na espesipiko sa domain (DSLs) ay kumonbert sa mga tanong sa natural na wika sa isang processable na anyo.
Ibinigay ko ang DSL, isang domain-specific language, na nagpapalit ng mga tanong tungkol sa mga istatistika ng cricket
— Vishal Misra
Ang DSLs ay nagpapasimple sa mga kumplikadong query sa database sa natural na wika.
Ang paglikha ng DSLs ay nagpapakita ng pagkakaroon ng inobasyon sa paggamit ng AI para sa mga partikular na aplikasyon.
Mahalaga ang pag-unawa sa mga hamon sa pag-query ng mga kumplikadong database.
Ang mga DSL ay nagpapalakas sa interaksyon ng mga gumagamit sa data sa pamamagitan ng pagpapasimple ng mga proseso ng pagtanong.
Ang pag-unlad ng DSLs ay nagpapakita ng papel ng AI sa pagkakaroon ng access sa data.
Ang pagkakasunod na ito ay nagbibigay ng teknikal na solusyon sa karaniwang mga problema sa pagkakaroon ng data.

Bayesian updating at statistical approaches sa AI

Ang in-context learning sa mga language model ay katulad ng Bayesian updating.
Nakikita mo ang isang bagay, nakikita mo ang bagong ebidensya, binabago mo ang iyong paniniwala tungkol sa nangyayari
— Vishal Misra
Mahalaga ang pag-unawa sa Bayesian inference upang maunawaan kung paano pinoproseso ng LLMs ang impormasyon.
Ang pagkakaiba sa pagitan ng Bayesian at frequentist na mga pagkukunwari ay nakakaapekto sa mga pananaw ng AI model.
Mayroong mga pangkat ng Bayesian at frequentist sa probabilidad at machine learning
— Vishal Misra
Ang debate sa pagitan ng mga pagkakasunod-sunod na ito ay nakakaapekto sa pagtanggap ng mga bagong pag-aaral.
Ang Bayesian updating ay nagbibigay ng malinaw na mekanismo para sa in-context learning sa LLMs.
Ang konseptong istatistikal na ito ay nag-uugnay sa mga napatunayang pamamaraan sa modernong mga proseso ng AI.

Ang Bayesian wind tunnel at pagsubok ng modelo

Ang konsepto ng Bayesian wind tunnel ay nagpapahintulot sa pagsubok ng mga arkitektura ng machine learning.
Nag-isip kami ng ideya ng isang Bayesian wind tunnel
— Vishal Misra
Ang konseptong ito ay nagbibigay ng kontroladong kapaligiran para sa pag-e-evaluate ng mga modelo.
Pinapadali ng framework na ito ang pagsubok sa mga arkitektura tulad ng transformers, MAMBA, LSTMs, at MLPs.
Ang pag-unawa sa konsepto ng wind tunnel sa aerospace ay nakakatulong na maunawaan ang paggamit nito sa AI.
Ang Bayesian wind tunnel ay nagtataguyod ng isang bagong framework para sa pag-unlad ng machine learning.
Mahalaga ang pagkakaroon ng ganitong pagkakasunod-sunod para sa pagsusuri at pagpapabuti ng mga modelo ng AI.
Ang kontroladong pagsusuri na kapaligiran ay nagpapalakas ng kumpiyansa sa pagtataya ng modelo.