Tether AI เพิ่งเปิดตัว TurboQuant เป็นซอฟต์แวร์แบบโอเพ่นซอร์ส ซึ่งมอบเครื่องมือที่ลดการใช้หน่วยความจำในการประมวลผลแบบโมเดลภาษาขนาดใหญ่ได้สูงสุดถึงห้าเท่า เทคโนโลยีนี้มุ่งเป้าไปที่จุดคอขวดเฉพาะที่เรียกว่า key-value (KV) cache ซึ่งเป็นหน่วยความจำการทำงานที่โมเดล transformer ใช้ในการติดตามบริบทระหว่างการสนทนา
TurboQuant ทำหน้าที่อะไร
อัลกอริทึมของ TurboQuant มีต้นกำเนิดจาก Google Research ซึ่งได้เผยแพร่รายละเอียดเริ่มต้นเมื่อวันที่ 24 มีนาคม 2026 สิ่งที่ Tether AI ได้ทำคือการนำงานวิจัยนั้นมาพัฒนาให้เป็นสิ่งที่นักพัฒนาสามารถนำไปใช้งานจริงได้ การเปิดตัวของ Tether รวมถึงท่อการควอนไทซ์แบบเต็มรูปแบบ ตัวปรับโครงสร้างเฟรมเวิร์ก และเอกสารประกอบอย่างละเอียด
การควอนไทซ์เป็นเทคนิคที่ลดความแม่นยำของตัวเลขที่ใช้ในการคำนวณเครือข่ายประสาทเทียม โดยแทนที่จะเก็บค่าเป็นจำนวนจุดทศนิยม 16 บิตหรือ 32 บิต คุณสามารถบีบอัดให้เหลือเพียงการแทนค่า 4 บิตหรือแม้แต่ 2 บิต TurboQuant จัดการสิ่งนี้โดยเฉพาะสำหรับ KV cache
ไม่จำเป็นต้องฝึกใหม่หรือปรับแต่งโมเดล นักพัฒนาสามารถใช้ TurboQuant กับโมเดลที่มีอยู่และเฟรมเวิร์กการประมวลผลที่มีอยู่โดยไม่ต้องเริ่มต้นจากศูนย์
การเปิดตัวนี้มาพร้อมกับเวอร์ชัน QVAC SDK 0.12.0 ซึ่งยังรวมถึงความสามารถใหม่ๆ เช่น การสร้างวิดีโอจากข้อความและการควบคุมหุ่นยนต์ QVAC เป็นแพลตฟอร์มที่กว้างขึ้นของ Tether ที่มุ่งสนับสนุนปัญญาประดิษฐ์แบบกระจายศูนย์บนอุปกรณ์ผู้บริโภค
ทำไมบริษัท Stablecoin ถึงสร้างโครงสร้างพื้นฐานด้าน AI
ทีเทอร์ได้ขยายตัวอย่างแข็งขันนอกเหนือจาก Stablecoin USDT และ AI ถือเป็นหนึ่งในการเดิมพันที่ใหญ่ที่สุดของบริษัท ซีอีโอ Paolo Ardoino ได้วางกลยุทธ์ด้าน AI ของบริษัทรอบแนวคิดเฉพาะ: แบบจำลองภาษาคุณภาพสูงควรทำงานบนอุปกรณ์ผู้บริโภค เช่น โทรศัพท์และแล็ปท็อป แทนที่จะพึ่งพาบริการคลาวด์แบบกลาง
ปัญหาหน่วยความจำคืออุปสรรคหลักต่อวิสัยทัศน์นั้น โมเดลที่ต้องการหน่วยความจำ 16 GB เฉพาะสำหรับ KV cache ของมันจะไม่สามารถทำงานได้บนอุปกรณ์ผู้บริโภคส่วนใหญ่ แต่ถ้าลดลงเหลือ 3.2 GB ทันทีการคำนวณก็เริ่มทำงานได้
อาร์ดอิโน่เน้นย้ำว่า TurboQuant ช่วยทำให้ AI ท้องถิ่นที่มีประสิทธิภาพใกล้ความเป็นจริงมากขึ้น โดยแก้ไขข้อจำกัดด้านหน่วยความจำที่โมเดล transformer ต้องเผชิญบนฮาร์ดแวร์ผู้บริโภค
แพลตฟอร์ม QVAC สร้างขึ้นจากเทคนิคการควอนไทซ์หลายแบบก่อนหน้า รวมถึง PolarQuant และ Quantized Johnson-Lindenstrauss ทีม AI ของ Tether ได้รวมวิธีการบีบอัดหลายแบบเข้าด้วยกัน โดยแต่ละวิธีมุ่งเป้าไปที่ส่วนต่างๆ ของปัญหาประสิทธิภาพ และ TurboQuant เป็นชั้นล่าสุดในลำดับนี้
สิ่งที่หมายถึงสำหรับนักลงทุน
ลักษณะโอเพ่นซอร์สของการเปิดตัวหมายความว่านักพัฒนาใดๆ สามารถดึงโค้ดไปใช้ ผสานเข้ากับกระบวนการอนุมานของตน และได้รับประโยชน์จากความประหยัดหน่วยความจำทันที นี่คือกลยุทธ์เพื่อขยายระบบนิเวศรอบๆ QVAC และกำหนดให้แพลตฟอร์มของ Tether เป็นชุดเครื่องมือเริ่มต้นสำหรับแอปพลิเคชันปัญญาประดิษฐ์แบบกระจายศูนย์
Google Research ได้เผยแพร่อัลกอริทึมพื้นฐาน ไม่มีสิ่งใดขัดขวาง Google หรือห้องปฏิบัติการอื่นๆ ที่มีทรัพยากรเพียงพอ จากการเปิดตัวการใช้งานจริงของตนเอง การรวมคุณสมบัติการแปลงข้อความเป็นวิดีโอและการควบคุมหุ่นยนต์ในการอัปเดต SDK เดียวกันบ่งชี้ว่าทีมกำลังพัฒนาอย่างรวดเร็ว
ตรวจสอบว่าการวัดผลแบบอิสระยืนยันว่าข้ออ้างเรื่องการบีบอัด 5 เท่าใช้ได้จริงกับสถาปัตยกรรมโมเดลและความยาวบริบทต่างๆ เนื่องจากเทคนิคการควอนไทซ์บางครั้งอาจลดประสิทธิภาพในการใช้งานจริงกับการสนทนาที่ยาวขึ้นหรืองานที่ต้องใช้การให้เหตุผลที่ซับซ้อนมากขึ้น

