Ayon sa ME News, noong Mayo 20 (UTC+8), ayon sa pagmamasid ng Beating, ang kumpanya ng chip sa antas ng wafer na Cerebras ay nag-anunsyo ng paglulunsad ng malaking modelo na may trilyon na parameter na Kimi K2.6 sa enterprise testing, na nagpapalit sa tradisyonal na communication latency sa board level sa pamamagitan ng direkta na integrasyon ng chip sa buong 12-pulgadang silicon wafer. Ayon sa real-world testing ng third-party na evaluator na Artificial Analysis, ang generation speed nito ay umabot sa 981 tokens/s, na 6.7 beses na mas mabilis kaysa sa mga pangunahing GPU cloud services. Sa mahabang teksto task na may 10,000 input at 500 output tokens, ang kabuuang response time ay bumaba mula sa 163.7 segundo ng Kimi official API hanggang sa 5.6 segundo, isang pagpapabilis na 29 beses. Dahil sa pagkakahati ng model weights sa maraming wafers para sa streaming ng activation values, ang inter-layer communication ay ganap na tumatakbo sa network fabric sa loob ng wafer, na nagtataglay ng physical communication bandwidth na higit sa 200 beses ang laki kaysa sa NVLink sa NVIDIA NVL72 architecture. Kasama ang distributed computing optimization, ang Kimi K2.6 ay gumagamit ng orihinal na 4-bit (4-bit) weights para sa lossless storage, gumagamit ng 16-bit (16-bit) floating point para sa precision habang binabawasan ang computation, at gumagamit ng custom operator kernels at speculative decoding upang makamit ang real-time operation. (Source: BlockBeats)
Cerebras ay nagsubok ng Kimi K2.6 na modelo na may 29x speed boost sa mga gawain sa mahabang teksto
KuCoinFlashI-share






Ipinakita ng Cerebras noong Mayo 20 (UTC+8) na sinubok nila ang trillion-parameter na Kimi K2.6 gamit ang kanilang wafer-scale na mga chip. Sa pamamagitan ng pagmamount ng mga chip diretso sa isang buong 12-pulgadang wafer, kinabawasan ng kumpanya ang mga delay sa komunikasyon. Ayon sa Artificial Analysis, nag-generate ang modelo ng teksto sa 981 tokens/s, 6.7 beses na mas mabilis kaysa sa karaniwang GPU services. Sa isang mahabang-teksto na pagsubok na may 10,000 input at 500 output tokens, bumaba ang oras ng pagtugon mula sa 163.7 segundo hanggang 5.6 segundo, isang pagpapabuti na 29x. Patuloy na ipinapakita ng on-chain na data ang mga pag-unlad sa performance ng AI infrastructure.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.