ห้องปฏิบัติการปัญญาประดิษฐ์ที่ตั้งอยู่ในเซี่ยงไฮ้เพิ่งทำให้ชื่อใหญ่ๆ หลายรายในวงการเทคโนโลยีต้องอับอายอย่างเงียบๆ StepFun’s StepAudio 2.5 Realtime ที่เปิดตัวประมาณวันที่ 24 พฤษภาคม ได้ครองตำแหน่ง第一名 ในแบบทดสอบปัญญาประดิษฐ์ด้านเสียงหลักทั้งห้าจากการทดสอบเดือนเมษายน 2026 โดยเอาชนะทั้ง GPT Realtime 1.5 และ Gemini Live
โมเดลนี้ไม่เพียงแต่เข้าใจสิ่งที่คุณพูด แต่ยังเข้าใจวิธีที่คุณพูด โดยตีความน้ำเสียง อารมณ์ และจังหวะการพูดในลักษณะที่ทำให้ผู้ช่วยเสียงอื่นๆ ที่แข่งขันกันดูเหมือนกำลังอ่านสคริปต์ด้วยน้ำเสียงแบนๆ
ตัวเลขเบื้องหลังเสียงรบกวน
StepAudio 2.5 Realtime ได้คะแนนสูงสุดในทุกหมวดหมู่การทดสอบมาตรฐาน ในการประเมินโดยมนุษย์ ได้คะแนน 80.41 ประสิทธิภาพการสนทนาทั่วไปอยู่ที่ 86.36 การทดสอบสถานการณ์ยานยนต์ ซึ่งวัดความสามารถของโมเดลในการจัดการการโต้ตอบด้วยเสียงในบริบทการขับขี่ ได้คะแนน 84.80
คะแนนการทดสอบคำถามและคำตอบที่พูดออกมา ซึ่งครอบคลุม 11 งานแยกต่างหาก อยู่ที่ 79.80 และคะแนนความเข้าใจด้านพาราลิงวิสติก ซึ่งน่าจะเป็นตัวชี้วัดที่น่าสนใจที่สุดที่นี่ แตะที่ 82.18
สำหรับบริบท รุ่นก่อนหน้าของโมเดลนี้ คือ StepAudio 2 ได้สร้างความสนใจไปแล้วด้วยคะแนน MMAU ที่ 77.4% การก้าวกระโดดไปสู่ 2.5 Realtime ถือเป็นความก้าวหน้าที่มีนัยสำคัญ ไม่ใช่แค่การอัปเดตรุ่นเล็กๆ ที่ถูกแต่งแต้มด้วยภาษาการตลาด
มันทำงานอย่างไร
สถาปัตยกรรมคือสิ่งที่ทำให้สิ่งนี้โดดเด่นจากคู่แข่ง StepAudio 2.5 Realtime ใช้การออกแบบแบบรวมเสียงเข้าและเสียงออก ซึ่งรวมความสามารถหลักสามประการไว้ในกรอบเดียว: การรับรู้คำพูดอัตโนมัติ (ASR), การแปลงข้อความเป็นเสียง (TTS), และการประมวลผลบทสนทนาแบบเรียลไทม์
คิดว่ามันเหมือนกับว่า ระบบ AI เสียงส่วนใหญ่ทำงานเป็นขั้นตอน พวกเขาแปลงเสียงของคุณเป็นข้อความ ประมวลผลข้อความ สร้างคำตอบในรูปแบบข้อความ แล้วแปลงกลับเป็นเสียงอีกครั้ง การส่งต่อแต่ละขั้นตอนจะทำให้เกิดความล่าช้าและสูญเสียความละเอียดอ่อน วิธีการของ StepFun รวมขั้นตอนเหล่านี้เข้าเป็นระบบเดียวที่เชื่อมโยงกัน
สูตรลับคือสิ่งที่ StepFun เรียกว่า Reinforcement Learning จากข้อเสนอแนะของมนุษย์ที่ปรับตามบุคลิกภาพ หรือ RLHF โดย RLHF แบบมาตรฐานจะฝึกโมเดลให้ให้คำตอบที่ดีขึ้นตามความชอบของมนุษย์ แต่เวอร์ชันของ StepFun ไปไกลกว่านั้นโดยปรับกระบวนการป้อนข้อมูลย้อนกลับให้เหมาะกับบุคลิกภาพเฉพาะ ซึ่งหมายความว่าโมเดลสามารถรักษาคุณลักษณะของตัวละครอย่างสม่ำเสมอในสถานการณ์การเล่นบทบาทระยะยาวหรือบริการลูกค้า
โมเดลปัจจุบันรองรับทั้งภาษาจีนและภาษาอังกฤษ เชื่อมต่อผ่าน WebSocket API ภายใต้สตริงโมเดล ‘step-2.5-realtime’ และสามารถเข้าถึงได้ผ่านแพลตฟอร์ม API ของ StepFun และคอนโซลแบบเรียลไทม์เฉพาะทาง รายงานทางเทคนิคที่อธิบายสถาปัตยกรรมได้รับการเผยแพร่บน arXiv ภายใต้ตัวระบุ 2605.23463
เหตุผลที่ความเข้าใจเชิงพาราลิงวิสติกมีความสำคัญ
คะแนน 82.18 ของ StepAudio 2.5 ในการเข้าใจเชิงพาราลิงวิสิกส์บ่งชี้ว่า StepFun ได้ก้าวหน้าอย่างแท้จริงในปัญหานี้ ผู้ช่วยเสียงที่สามารถตรวจจับความหงุดหงิดจากน้ำเสียงของผู้โทรและส่งต่อไปยังตัวแทนมนุษย์ หรือชะลอการพูดเมื่อรับรู้ถึงความสับสน ถือเป็นผลิตภัณฑ์ที่แตกต่างอย่างสิ้นเชิงจากผลิตภัณฑ์ที่แค่ประมวลผลคำพูดอย่างแม่นยำ
คะแนนการทดสอบสถานการณ์ยานยนต์ที่ 84.80 บ่งชี้ถึงการใช้งานที่ให้ผลกำไรอีกประการหนึ่ง ผู้ช่วยเสียงในรถยนต์ต้องจัดการกับสภาพแวดล้อมที่มีเสียงรบกวน ตีความคำสั่งอย่างรวดเร็ว และควรเข้าใจได้ว่าผู้ขับขี่รู้สึกเครียดหรือผ่อนคลาย
