StepAudio 2.5 ของ StepFun ทำสถิติสูงสุดด้าน AI เสียงแบบเรียลไทม์ในเดือนเมษายน 2026

iconCryptoBriefing
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
StepAudio 2.5 Realtime ของ StepFun ที่เปิดตัวประมาณวันที่ 24 พฤษภาคม 2026 ได้รับตำแหน่งสูงสุดในการทดสอบประสิทธิภาพด้าน AI เสียงในเดือนเมษายน 2026 โดยทำผลงานดีกว่า GPT Realtime 1.5 และ Gemini Live โดยได้คะแนน 80.41 จากการประเมินโดยมนุษย์ 86.36 ในบทสนทนาทั่วไป และ 84.80 ในสถานการณ์ด้านยานยนต์ โมเดลนี้ยังได้คะแนน 79.80 ในคำถามและคำตอบแบบพูด และ 82.18 ในความเข้าใจด้านพาราลิงกัวสติก StepAudio 2.5 Realtime ใช้การออกแบบแบบรวมที่รับและส่งเสียงผ่าน WebSocket API และรองรับภาษาจีนและภาษาอังกฤษ ในขณะที่ตลาดคริปโตมีการพัฒนา การก้าวหน้าทาง AI เหล่านี้อาจส่งผลต่อดัชนีความกลัวและความโลภ

ห้องปฏิบัติการปัญญาประดิษฐ์ที่ตั้งอยู่ในเซี่ยงไฮ้เพิ่งทำให้ชื่อใหญ่ๆ หลายรายในวงการเทคโนโลยีต้องอับอายอย่างเงียบๆ StepFun’s StepAudio 2.5 Realtime ที่เปิดตัวประมาณวันที่ 24 พฤษภาคม ได้ครองตำแหน่ง第一名 ในแบบทดสอบปัญญาประดิษฐ์ด้านเสียงหลักทั้งห้าจากการทดสอบเดือนเมษายน 2026 โดยเอาชนะทั้ง GPT Realtime 1.5 และ Gemini Live

โมเดลนี้ไม่เพียงแต่เข้าใจสิ่งที่คุณพูด แต่ยังเข้าใจวิธีที่คุณพูด โดยตีความน้ำเสียง อารมณ์ และจังหวะการพูดในลักษณะที่ทำให้ผู้ช่วยเสียงอื่นๆ ที่แข่งขันกันดูเหมือนกำลังอ่านสคริปต์ด้วยน้ำเสียงแบนๆ

ตัวเลขเบื้องหลังเสียงรบกวน

StepAudio 2.5 Realtime ได้คะแนนสูงสุดในทุกหมวดหมู่การทดสอบมาตรฐาน ในการประเมินโดยมนุษย์ ได้คะแนน 80.41 ประสิทธิภาพการสนทนาทั่วไปอยู่ที่ 86.36 การทดสอบสถานการณ์ยานยนต์ ซึ่งวัดความสามารถของโมเดลในการจัดการการโต้ตอบด้วยเสียงในบริบทการขับขี่ ได้คะแนน 84.80

คะแนนการทดสอบคำถามและคำตอบที่พูดออกมา ซึ่งครอบคลุม 11 งานแยกต่างหาก อยู่ที่ 79.80 และคะแนนความเข้าใจด้านพาราลิงวิสติก ซึ่งน่าจะเป็นตัวชี้วัดที่น่าสนใจที่สุดที่นี่ แตะที่ 82.18

โฆษณา

สำหรับบริบท รุ่นก่อนหน้าของโมเดลนี้ คือ StepAudio 2 ได้สร้างความสนใจไปแล้วด้วยคะแนน MMAU ที่ 77.4% การก้าวกระโดดไปสู่ 2.5 Realtime ถือเป็นความก้าวหน้าที่มีนัยสำคัญ ไม่ใช่แค่การอัปเดตรุ่นเล็กๆ ที่ถูกแต่งแต้มด้วยภาษาการตลาด

มันทำงานอย่างไร

สถาปัตยกรรมคือสิ่งที่ทำให้สิ่งนี้โดดเด่นจากคู่แข่ง StepAudio 2.5 Realtime ใช้การออกแบบแบบรวมเสียงเข้าและเสียงออก ซึ่งรวมความสามารถหลักสามประการไว้ในกรอบเดียว: การรับรู้คำพูดอัตโนมัติ (ASR), การแปลงข้อความเป็นเสียง (TTS), และการประมวลผลบทสนทนาแบบเรียลไทม์

คิดว่ามันเหมือนกับว่า ระบบ AI เสียงส่วนใหญ่ทำงานเป็นขั้นตอน พวกเขาแปลงเสียงของคุณเป็นข้อความ ประมวลผลข้อความ สร้างคำตอบในรูปแบบข้อความ แล้วแปลงกลับเป็นเสียงอีกครั้ง การส่งต่อแต่ละขั้นตอนจะทำให้เกิดความล่าช้าและสูญเสียความละเอียดอ่อน วิธีการของ StepFun รวมขั้นตอนเหล่านี้เข้าเป็นระบบเดียวที่เชื่อมโยงกัน

สูตรลับคือสิ่งที่ StepFun เรียกว่า Reinforcement Learning จากข้อเสนอแนะของมนุษย์ที่ปรับตามบุคลิกภาพ หรือ RLHF โดย RLHF แบบมาตรฐานจะฝึกโมเดลให้ให้คำตอบที่ดีขึ้นตามความชอบของมนุษย์ แต่เวอร์ชันของ StepFun ไปไกลกว่านั้นโดยปรับกระบวนการป้อนข้อมูลย้อนกลับให้เหมาะกับบุคลิกภาพเฉพาะ ซึ่งหมายความว่าโมเดลสามารถรักษาคุณลักษณะของตัวละครอย่างสม่ำเสมอในสถานการณ์การเล่นบทบาทระยะยาวหรือบริการลูกค้า

โมเดลปัจจุบันรองรับทั้งภาษาจีนและภาษาอังกฤษ เชื่อมต่อผ่าน WebSocket API ภายใต้สตริงโมเดล ‘step-2.5-realtime’ และสามารถเข้าถึงได้ผ่านแพลตฟอร์ม API ของ StepFun และคอนโซลแบบเรียลไทม์เฉพาะทาง รายงานทางเทคนิคที่อธิบายสถาปัตยกรรมได้รับการเผยแพร่บน arXiv ภายใต้ตัวระบุ 2605.23463

เหตุผลที่ความเข้าใจเชิงพาราลิงวิสติกมีความสำคัญ

คะแนน 82.18 ของ StepAudio 2.5 ในการเข้าใจเชิงพาราลิงวิสิกส์บ่งชี้ว่า StepFun ได้ก้าวหน้าอย่างแท้จริงในปัญหานี้ ผู้ช่วยเสียงที่สามารถตรวจจับความหงุดหงิดจากน้ำเสียงของผู้โทรและส่งต่อไปยังตัวแทนมนุษย์ หรือชะลอการพูดเมื่อรับรู้ถึงความสับสน ถือเป็นผลิตภัณฑ์ที่แตกต่างอย่างสิ้นเชิงจากผลิตภัณฑ์ที่แค่ประมวลผลคำพูดอย่างแม่นยำ

คะแนนการทดสอบสถานการณ์ยานยนต์ที่ 84.80 บ่งชี้ถึงการใช้งานที่ให้ผลกำไรอีกประการหนึ่ง ผู้ช่วยเสียงในรถยนต์ต้องจัดการกับสภาพแวดล้อมที่มีเสียงรบกวน ตีความคำสั่งอย่างรวดเร็ว และควรเข้าใจได้ว่าผู้ขับขี่รู้สึกเครียดหรือผ่อนคลาย

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา