สตาร์ทอัพด้าน AI แบบแนวตั้งรับมือกับการอยู่รอดในยุคที่โมเดลทั่วไปครองตลาด

ปัญญาประดิษฐ์เริ่มเติบโตแบบไม่เป็นเชิงเส้น ตรรกะพื้นฐานของบริษัท AI กำลังถูกเขียนใหม่

ผู้เขียนบทความ แหล่งที่มา: GeekPark

90% คือความน่าจะเป็นที่นักลงทุนคาดการณ์ว่าบริษัทสตาร์ทอัพด้าน AI จะล้มเหลวในปี 2026

ในเดือนเมษายน แพลตฟอร์มประเมินโมเดล AI อย่าง Yupp ซึ่งได้รับการลงทุนจาก a16z และระดมทุน Seed Round ได้ 33 ล้านดอลลาร์สหรัฐ ได้ประกาศปิดตัวลงอย่างกะทันหัน แม้จะได้รับการสนับสนุนจากผู้เชี่ยวชาญชั้นนำในแคลิฟอร์เนีย เช่น Jeff Dean นักวิทยาศาสตร์หัวหน้าของ Google และ Biz Stone ผู้ร่วมก่อตั้ง Twitter แพลตฟอร์มนี้ใช้เวลาไม่ถึงหนึ่งปีในการดึงดูดผู้ใช้ 1.3 ล้านคน แต่กลับถูกผู้ก่อตั้งสั่งหยุดดำเนินการทันที แม้ว่าจะยังมีเงินทุนเหลืออยู่บนสมุดบัญชี แต่ผู้ก่อตั้งกลับมองไม่เห็นความหวังอีกต่อไป “เพียงในปีที่ผ่านมา โครงสร้างความสามารถของโมเดล AI เปลี่ยนแปลงไปอย่างมาก และในอนาคตจะไม่ใช่แค่โมเดล แต่จะเป็นระบบ Agent” Pankaj Gupta ผู้ก่อตั้ง Yupp เขียนไว้ในบล็อกอำลา

ในช่วงเวลาเดียวกัน บริษัทภาพ AI NeuroPixel ได้ปิดกิจการเนื่องจากความสามารถของโมเดลขนาดใหญ่เช่น Google NanoBanana Pro ที่พุ่งสูงขึ้น ผู้ก่อตั้ง NeuroPixel ใช้คำหนึ่งคำเพื่ออธิบายความพ่ายแพ้นี้: outgunned —— “ถูกโจมตีจนไม่มีทางต้านทานได้ในคืนเดียว”

ในบริบทที่ความสามารถของ AI กำลังเพิ่มขึ้นอย่างชาญฉลาดผ่านโมเดลพื้นฐาน ขอบเขตของความสามารถด้าน AI จึงขยายตัวอย่างต่อเนื่อง เริ่มจากแชทบอทได้แทนที่การค้นหา ผู้ใช้ไม่จำเป็นต้องเลื่อนหน้าเพื่อค้นหาผลลัพธ์อีกต่อไป จากนั้นเอเจนต์เริ่มเข้ามาแทนที่ซอฟต์แวร์ โดยเอเจนต์อัจฉริยะที่สามารถเรียกใช้เครื่องมือและแบ่งแยกงานได้ สามารถดำเนินการสิ่งที่ก่อนหน้านี้ต้องใช้เมนูและแอปพลิเคชันทั้งชุด ขณะที่ AI สามารถเขียนโค้ด เรียกอินเทอร์เฟซ และดำเนินการได้โดยตรงบนเทอร์มินัล ขอบเขตของระบบซอฟต์แวร์แบบดั้งเดิมก็กำลังถูกกำหนดใหม่

สำหรับผลิตภัณฑ์ผู้จัดการ พวกเขาต้องพิจารณาการนิยามรูปแบบผลิตภัณฑ์และวิธีการโต้ตอบใหม่ ในขณะที่สำหรับผู้ก่อตั้ง ปัญหาที่กำหนดชะตาชีวิตและความตายได้ปรากฏขึ้นแล้ว:

เมื่อปัญญาของโมเดลพื้นฐานแข็งแกร่งขึ้นเรื่อยๆ ฉันควรเริ่มต้นธุรกิจอย่างไร? สิ่งที่ฉันทำอยู่ตอนนี้ จะทำอย่างไรให้ไม่ถูกขจัดออกไปโดยการอัปเดตโมเดลครั้งถัดไป?

ชิยี ผู้ก่อตั้ง FlashLabs ใช้เวลาหนึ่งปีที่ผ่านมาอยู่กับคำถามนี้ เขาตัดสินใจทำหลายอย่างที่ดูขัดกับความเข้าใจทั่วไปของคนภายนอก: ยกเลิกเส้นทางผลิตภัณฑ์ ลดขนาดทีมอย่างสมัครใจ ละทิ้งตัวชี้วัดการพาณิชย์ระยะสั้น และแม้แต่เปลี่ยนชื่อบริษัท เราได้พูดคุยกับเขาเกี่ยวกับวิธีที่บริษัทสตาร์ทอัพ AI แบบเฉพาะทางควรอยู่รอดในยุคที่โมเดลทั่วไปกำลังพัฒนา

การเปลี่ยนชื่อ ลดขนาด และหันไปสู่ AI-native: การเปลี่ยนแปลงเพื่อความอยู่รอดที่ถูกบังคับโดยโมเดลขนาดใหญ่

ความรู้สึกเร่งด่วนไม่ได้เกิดขึ้นเฉพาะวันนี้ในสายตาของผู้ก่อตั้ง แต่ตั้งแต่ปลายปี 2024 Shi Yi ได้ตระหนักแล้วว่า ความเร็วในการพัฒนาปัญญาของโมเดลทั่วไปเร็วเกินไป

สิ่งแรกที่ทำให้เขาสัมผัสได้ถึงความผิดปกติคือการล่มสลายของบริษัทสตาร์ทอัพ AI รายหนึ่งชื่อ Jasper บริษัทสตาร์ทอัพที่เคยถูกมองว่าเป็นมาตรฐานในชั้นแอปพลิเคชัน AI ซึ่งมีมูลค่าถึง 1.5 พันล้านดอลลาร์สหรัฐภายใน 18 เดือน แต่กลับพบว่ารายได้ลดลงครึ่งหนึ่งหลังจากที่ความสามารถพื้นฐานของ GPT เปิดให้ใช้งานอย่างกว้างขวาง “ARR ของ Jasper ลดลงครึ่งหนึ่งทันที” ชีอี้กล่าว “บริษัทที่เคยทำด้าน NLP เหล่านี้ จะถูกโมเดลขนาดใหญ่กลืนกินไปเรื่อยๆ ตามที่ความสามารถของโมเดลขนาดใหญ่เพิ่มขึ้น”

การตัดสินใจนี้เหมือนกับหนามที่ปักอยู่ในใจเขา ทำให้เขารู้สึกไม่สบายใจอย่างเบาๆ ในเวลานั้น บริษัทของเขายังคงชื่อ FlashIntel และยังดำเนินธุรกิจ SaaS แบบดั้งเดิมสำหรับองค์กร (To B) ตามตรรกะของ SaaS แบบดั้งเดิมสำหรับองค์กร หากคุณสะสมข้อมูลอุตสาหกรรมจำนวนมากในพื้นที่ที่เฉพาะเจาะจง และสร้างกำแพงทางเทคโนโลยีอย่างถูกต้องตามกฎหมายและปลอดภัย คุณจะมีพื้นที่ตลาดสำหรับการอยู่รอดแน่นอน แต่ตอนนี้ทุกอย่างเหล่านี้ไม่ได้ผลอีกต่อไป

“สิ่งที่ฉันทำ จะเจอปัญหาเดียวกันนี้ไหม?” คำถามนี้เริ่มปรากฏซ้ำๆ ในความคิดของเขา ไม่นานเขาก็ตระหนักว่า สิ่งที่เขาทำนั้นไม่ต่างจาก Jasper ในแก่นแท้ โดยระบบผลิตภัณฑ์ในอดีตทั้งหมดถูกสร้างขึ้นบนสมมติฐานที่ว่า ความสามารถของโมเดลจะไม่แข็งแกร่งกว่าโมเดลเฉพาะทาง เมื่อความสามารถของโมเดลพื้นฐาน vượtจุดวิกฤตบางจุด การออกแบบและปรับแต่งเชิงบริบทที่สร้างขึ้นบนผลิตภัณฑ์เฉพาะทางทั้งหมดอาจสูญเสียข้อได้เปรียบไปในพริบตา

เมื่อสรุปผลแล้ว เขาจึงนำปัญหาสำคัญนี้ขึ้นเป็นลำดับความสำคัญสูงสุดในกลยุทธ์ของบริษัท เพื่อบังคับให้ทีมตัดสินใจว่า บริษัทต้องเปลี่ยนจาก SaaS เป็น AI Native อย่างสมบูรณ์

การปรับเปลี่ยนนี้ไม่ได้เกิดขึ้นในชั่วข้ามคืน เขาเริ่มต้นด้วยการถามตัวเองว่า บริษัท AI รุ่นถัดไปต้องการโครงสร้างองค์กรแบบใด?

เขาเชื่อว่าในปัจจุบัน การบริหารบริษัทไม่ควรยึดติดกับจำนวนทีมและงานแบ่งแยกอย่างละเอียดอีกต่อไป 「ในยุค AI ยิ่งคนมากเท่าไร กลับยิ่งใช้ AI ได้แย่ลง เพราะยิ่งแบ่งงานละเอียดเท่าไร แต่ละคนก็ยิ่งพึ่งพาส่วนของตัวเองมากขึ้น」 เขาจึงเริ่มลดขนาดทีมอย่างตั้งใจ และเปลี่ยนเกณฑ์การรับพนักงานจาก 「ดูประสบการณ์ ดูโปรเจกต์」 เป็น 「ดูวิธีคิด ดูความสามารถแบบสแต็กเต็ม」 วิธีการทดสอบผู้สมัครของเขาเปลี่ยนไปเช่นกัน ไม่ได้ดูประวัติหรือประสบการณ์ในอดีตอีกต่อไป แต่ให้ผู้สมัครทำภารกิจจริงทันที เพื่อดูว่าเขาสามารถใช้ AI จัดการทั้งฟรอนต์เอนด์และแบ็กเอนด์ได้หรือไม่ 「คนที่ทำได้ ต้องไม่ใช้เครื่องมือ AI ได้แย่」

จากนั้น เขาได้ปรับลำดับความสำคัญของทรัพยากรภายในบริษัท ในขณะที่บริษัทสตาร์ทอัพส่วนใหญ่ยังคงมุ่งเน้นไปที่ความเร็วในการเปิดตัวผลิตภัณฑ์และการยืนยันความเป็นไปได้ทางธุรกิจ เขาเลือกที่จะจัดสรรทรัพยากรส่วนใหญ่ไปยังการวิจัยด้านหน้า จนกระทั่งเปลี่ยนชื่อบริษัทเป็น FlashLabs

“เดิมทีตรรกะของอินเทอร์เน็ตคือผลิตภัณฑ์หรือการดำเนินงานเป็นหลัก แต่ตอนนี้การทำ AI ต้องให้ความสำคัญกับการวิจัย” เขาขอให้ตัวเองและทีมอ่านงานวิจัยและเข้าใจหลักการพื้นฐาน “เฉพาะเมื่อคุณใกล้ชิดกับหลักการพื้นฐานมากขึ้น คุณจึงจะรู้ว่า AI ในอนาคตยังสามารถทำอะไรได้อีก และสามารถแทนที่อะไรได้อีก”

การเปลี่ยนแปลงครั้งนี้ยังนำมาซึ่งช่วงเวลาแห่งความเจ็บปวดภายในองค์กร โดยไม่ใช่ทุกคนในทีมจะเข้าใจการปรับโครงสร้างครั้งใหญ่นี้ เมื่อเขาบอกทีมว่า “อย่าเพิ่งคิดถึงการสร้างรายได้ ให้ทำสิ่งที่เจ๋งก่อน” บางคนในบริษัทรู้สึกตื่นเต้น ขณะที่บางคนเลือกที่จะจากไป แต่เขายังคงยึดมั่นว่าในยุคปัญญาประดิษฐ์ การลดทอนมีความสำคัญมากกว่า “ถ้าคุณไม่เห็นด้วย คุณก็ต้องถูกลบออก”

แต่สิ่งที่สำคัญกว่านั้นคือ ผู้ก่อตั้งแบบใดที่จะอยู่รอดได้ในยุคปัญญาประดิษฐ์

คำตอบของชีอีแบ่งเป็นสองส่วน ส่วนแรกมุ่งไปที่ความเป็นจริง: “อย่างน้อยก็สามารถระดมทุนได้ ถ้าคุณยังไม่ตาย หรือมีเงินสำรองเพียงพอที่จะเติมทุนต่อเนื่อง” ส่วนที่สองคือสิ่งที่เขาต้องการจะพูดจริงๆ: “คุณมีความสามารถในการคิดลึกซึ้งเหนือ AI หรือไม่?”

“ทำไมโมเดลขนาดใหญ่ถึงสามารถทำสิ่งต่างๆ ได้越来越多? เพราะแก่นแท้ของวิทยาศาสตร์ธรรมชาติทั้งหมดคือคณิตศาสตร์ โมเดลสามารถเขียนโค้ดและเข้าใจคณิตศาสตร์ เมื่อวิเคราะห์ห่วงโซ่นี้ลงไปทีละขั้นตอน ความสามารถที่มนุษย์มีอย่างหายากเพียงอย่างเดียวคือการคิดลึกซึ้งกว่า AI ในสาขาใดสาขาหนึ่ง” ชีอี้วิเคราะห์ “หลายคนมีความเข้าใจเกี่ยวกับ AI ไม่เพียงพอ คุณดูสิ มีกี่ผู้ก่อตั้งที่จริงๆ แล้วเขียนโค้ดด้วยตัวเองและใช้เครื่องมือ AI ทุกวัน? ความสามารถในการเขียนโค้ดในอนาคตจะกลายเป็นสินค้าโภคภัณฑ์ ทุกคนจะสามารถทำได้ แต่คุณจะฉลาดกว่า AI ได้หรือไม่? นี่แหละคือกำแพงป้องกัน”

จากความตระหนักถึงวิกฤต ไปจนถึงการตัดสินใจ และสุดท้ายคือการจ่ายราคาเพื่อปรับโครงสร้างองค์กร ชีอี้ใช้เวลาหนึ่งปีในการดำเนินการ “การอัปเดตตนเอง” เขาไม่ได้รอให้โมเดลอัปเดตมาบอกผลลัพธ์สุดท้าย แต่เลือกที่จะค้นหาตำแหน่งที่คำตอบที่ถูกต้องอาจปรากฏขึ้นล่วงหน้า ว่าตำแหน่งนั้นเขาอยู่ถูกหรือไม่นั้น เป็นอีกเรื่องหนึ่ง แต่อย่างน้อยตอนนี้ เขายังไม่ต้องการออกจากโต๊ะไพ่ของ AI

02 แอเจนต์ระดับองค์กรต้องเล่นไพ่ “Harness”

การปรับโครงสร้างองค์กรเป็นเพียงก้าวแรกของเส้นทางการอยู่รอดของบริษัท สิ่งที่ทำให้ Shi Yi ต้องตัดสินใจเปลี่ยนแปลงอย่างเด็ดขาดคือเส้นทางผลิตภัณฑ์

เขาเริ่มต้นต้องการสร้างระบบการทำงานร่วมกันของตัวแทนหลายตัว โดยอิงตามหลักการที่ว่าจำนวนคนมากย่อมมีพลังมากขึ้น สามารถเลียนแบบโครงสร้างองค์กรของบริษัทมนุษย์เพื่อสร้างระบบตัวแทนหลายตัว: บางตัวรับผิดชอบการค้นหา บางตัวรับผิดชอบการให้เหตุผล และบางตัวรับผิดชอบการสรุปผล

แต่ผลการทดสอบจริงทำให้ชีอีส่ายหน้าอย่างต่อเนื่อง: “ช้าเกินไป กระตุกเกินไป ผลลัพธ์ที่ได้ยังแย่กว่าเอเจนต์เดียว” ในมุมมองของเขา การส่งคำสั่งระหว่างเอเจนต์ต่างๆ ก็เหมือนเกมส่งเสียงที่คุณภาพต่ำ ยิ่งมีชั้นการส่งผ่านมากเท่าไร ข้อมูลก็สูญเสียไปมากเท่านั้น “ฉันขอเอเจนต์ที่มีไอคิว 150 และสวมอาวุธครบเครื่อง ดีกว่ากลุ่มคนธรรมดาที่มีไอคิวแค่ 110 ใช้อุปกรณ์ไม่สมบูรณ์ แล้วต้องมาคุยกันเองตลอดเวลา” ชีอีกล่าวอย่างตรงไปตรงมาในการสัมภาษณ์

สุดท้าย เขาตัดสินใจตัดออกซับเอเจนต์ทั้งหมดที่ตั้งไว้ล่วงหน้า และตัดสินใจสร้างเอเจนต์เดียวที่มีประสิทธิภาพเพียงพอ โดยใช้การประมวลผลแบบหลายเธรดแบบขนานเพื่อแทนที่การทำงานร่วมกันของคลัสเตอร์

นี่คือรุ่นต้นแบบของผลิตภัณฑ์ล่าสุดของ FlashLabs ที่ชื่อ Super Agent ซึ่งดึงศักยภาพของโมเดลเดียวให้สูงสุด และจัดเตรียมเครื่องมือให้เต็มที่ Super Agent ใช้การอัตโนมัติอัจฉริยะเพื่อรวมระบบรายได้ของผู้ใช้ทั้งหมด ตั้งแต่การพัฒนาลูกค้าเป้าหมายจนถึงการปิดการขาย โดย AI Agent มีส่วนร่วมในทุกขั้นตอน

ในสถานที่สัมภาษณ์ของ Geek Park ชีอี้ได้สั่งงานค้นหาข้อมูลให้กับ Super Agent: “ค้นหาพื้นหลังของผู้ก่อตั้งบริษัท AI ทั้งหมดในจีนที่ได้รับการลงทุนในช่วงหกเดือนที่ผ่านมา และส่งออกเป็นตาราง” จากนั้น Super Agent ได้เปิดใช้งานกระบวนการค้นหาหลายสิบเธรดพร้อมกัน เพื่อดำเนินการค้นหา ดึงข้อมูล เขียนโค้ด และทำความสะอาดข้อมูล ภายใน 2-3 นาทีก็ได้ผลลัพธ์ ซึ่งตารางดังกล่าวประกอบด้วยชื่อผู้ก่อตั้ง จำนวนเงินระดมทุน และข้อมูลติดต่อสาธารณะ

หากการละทิ้ง Multi-Agent เป็นการลบออกในระดับสถาปัตยกรรม การละทิ้งการแปลเป็นท้องถิ่นก็คือการเลือกแบบย้อนกลับในเชิงตรรกะการปรับใช้

ขณะที่ OpenClaw กำลังสร้างกระแส “Agent แบบท้องถิ่น” ในชุมชนนักพัฒนา Shi Yi กลับตัดสินใจวาง Super Agent ไว้บนคลาวด์อย่างมั่นคง “ระบบที่เหมือน OpenClaw หากทำงานภายในองค์กร ถือเป็นเหมือนม้าไม้โทรจัน คุณจะถูกเจาะเข้าไปได้ง่ายผ่านมัน” เขาเชื่อว่าในขั้นตอนนี้ บริษัทใดก็ตามที่กล้าใช้งาน OpenClaw ในขนาดใหญ่ภายในองค์กร ถือว่ากำลังเปิดประตูให้แฮกเกอร์ทั่วโลกเข้ามา

ในมุมมองของเขา ข้อได้เปรียบของ OpenClaw อยู่ที่ความสามารถเชิงรุกที่แสดงออกบนระดับบุคคล เช่น เมื่อ OpenClaw ขอเงิน 2,000 ดอลลาร์จากผู้ใช้เพื่อซื้อการ์ดจอ ผู้ใช้ตอบว่า “ไปหาเงินเองสิ” AI ก็จะเริ่มทำนายตลาดและวิเคราะห์กลยุทธ์เชิงปริมาณ “ใครเล่าจะไม่ชอบพนักงานที่ริเริ่มเอง?” สือยีถามกลับ เมื่อความริเริ่มเช่นนี้กลายเป็นส่วนหนึ่งของผลิตภัณฑ์ระดับองค์กร ความเร็วในการแทนที่พนักงานมนุษย์จะเร็วกว่าที่คาดไว้มาก “ในอดีต การปฏิวัติอุตสาหกรรม เมื่อรถม้าเปลี่ยนเป็นรถยนต์ คุณต้องซื้อรถ สอบใบขับขี่ และปรับปรุงถนน ซึ่งใช้เวลานานมาก แต่ครั้งนี้ไม่เหมือนกัน การปรับใช้แบบจัดการให้เสร็จสรรพ แค่ ‘ป๊าบ’ งานของพนักงานหลายสิบคนก็หายไป” เขายังคาดการณ์ว่าในปีนี้ งานของพนักงานสำนักงานจะถูก AI แทนที่อย่างมาก

สำหรับความท้าทายในการดำเนินการอัตโนมัติ นั่นคือวิธีการรับประกันความปลอดภัยของแอปพลิเคชันระดับองค์กร วิธีการของ FlashLabs คือการสร้างระบบสิทธิ์แบบแซนด์บ็อกซ์ที่คล้ายกับ macOS โดยใช้การปรับใช้บนคลาวด์และการให้สิทธิ์แบบค่อยเป็นค่อยไป หมายความว่า Agent จะมีสิทธิ์ขั้นต่ำสุดที่จำเป็นต่อการดำเนินงานเท่านั้นในขั้นต้น และขอบเขตของ Agent จะค่อยๆ ขยายออกเมื่อความเสถียรและความปลอดภัยได้รับการยืนยันหลายครั้ง

เขาใช้ Windows และ Mac เป็นตัวอย่าง: “บน Windows การติดตั้งซอฟต์แวร์หนึ่งตัวสามารถได้รับสิทธิ์สูงมาก ติดตั้งแบบเงียบ ผูกกับเบราว์เซอร์ จนคุณลบออกไม่ได้ แต่โปรแกรมบน Mac ทั้งหมดถูกแยกไว้ใน sandbox ดังนั้นคุณจึงไม่จำเป็นต้องติดตั้งซอฟต์แวร์ป้องกันไวรัสเลย” Shi Yi เชื่อว่าการแข่งขันของเอเจนต์ระดับองค์กรในที่สุดจะขยายจากความสามารถในการเรียกใช้โมเดลไปสู่ความสามารถในการออกแบบสภาพแวดล้อม ผู้ที่สามารถจัดเตรียมสภาพแวดล้อมการดำเนินงานที่ปลอดภัย ควบคุมได้ และสามารถตรวจสอบได้สำหรับเอเจนต์ จะเป็นผู้ที่ทำให้ลูกค้ากล้าใช้งานอย่างแท้จริง

แต่ถ้าโมเดลพุ่งขึ้นอีกครั้ง การปรับเปลี่ยนเหล่านี้ในปัจจุบันยังมีความหมายอยู่หรือไม่? หาก GPT-6 หรือ Claude มีความสามารถในการแยกงานและเรียกใช้เครื่องมือที่แข็งแกร่งกว่า การกระทำทั้งหมดที่ FlashLabs ทำวันนี้จะถูกกินอีกครั้งหรือไม่?

ในการตอบคำถามนี้ ชีอีไม่หลีกเลี่ยง แต่พิจารณาจากสองมุมมอง

เขาได้สรุปอุปสรรคทางธุรกิจของบริษัทเฉพาะทางเป็นสี่ระดับ: การรับรู้ (Perception) การวางแผน (Planning) การเรียนรู้แบบวนซ้ำ (Recursive Learning) และการกำกับดูแล (Governance)

มีบริษัทโมเดลขนาดใหญ่ 5 แห่งในตลาด และการจัดอันดับ SOTA เปลี่ยนทุกสามเดือน คุณสามารถรวมโมเดลทั้งหมดผ่านชั้นการจัดการ และเรียกใช้โมเดลที่เชี่ยวชาญที่สุดในแต่ละสถานการณ์ แต่บริษัทโมเดลเดียวสามารถใช้ได้เฉพาะของตัวเองเท่านั้น เมื่อโมเดลพื้นฐานของคุณไม่ใช่โมเดลที่ฉลาดที่สุด ความสามารถในการแข่งขันของผลิตภัณฑ์คุณจะลดลงทันที ตามที่ชีอี้เชื่อ ด้วยการขยายตัวอย่างรวดเร็วของโมเดลทั่วไปที่ครอบคลุมสองชั้นแรก กำแพงที่แท้จริงเหลือเพียงสองชั้นสุดท้าย และแนวป้องกันสุดท้ายอยู่ที่ชั้นการจัดการ (Orchestration Layer)

เขาเชื่อว่า เมื่อตัวแทนหลายตัวทำงานร่วมกันในระบบองค์กร พวกเขาอาจตกลงกันแบบลับๆ ในที่ที่มนุษย์ไม่สามารถมองเห็นได้ และหลีกเลี่ยงกฎการกำหนดสิทธิ์ที่ตั้งไว้แล้ว อุปสรรคที่แท้จริงของบริษัทเฉพาะทางอยู่ที่ความสามารถในการออกแบบสภาพแวดล้อมการดำเนินงานที่เปิดกว้างแต่ยังควบคุมได้สำหรับบริบทเฉพาะ

เกี่ยวกับการตัดสินนี้ว่าถูกต้องหรือไม่ เขาสารภาพว่าตัวเองก็ไม่มีความมั่นใจร้อยเปอร์เซ็นต์ “AI เปลี่ยนแปลงเร็วเกินไป คุณไม่สามารถรู้ได้ว่าอนาคตจะเป็นอย่างไร” แต่เขาเชื่อมั่นอย่างหนึ่งว่า หากองค์กรเฉพาะทางสามารถเล่นไพ่สองใบคือการจัดการ AI และการกำกับดูแล AI ได้อย่างดี และแก้ไขปัญหาการออกแบบสภาพแวดล้อมได้ อย่างน้อยก็จะไม่ถูกขับออกจากการแข่งขันในช่วงการพัฒนาโมเดลครั้งต่อไป

โมเดลเสียงรุ่น 03 จะได้รับการปรับโครงสร้างใหม่ ตัวแทนแบบเชิงรุกอาจสร้างรูปแบบการชำระเงินตามผลลัพธ์ขึ้นใหม่

เมื่อทราบวิธีการสร้างผลิตภัณฑ์ที่มีความสามารถในการแข่งขัน ขั้นตอนถัดไปคือการให้ลูกค้ายอมรับ

ในขั้นตอนปัจจุบัน Flashlabs มีผลิตภัณฑ์หลักสองรายการในการพาณิชย์ hóa: Super Agent คิดค่าใช้จ่ายตามการใช้งาน token โดยมีราคาที่ระบุไว้บนเว็บไซต์ทางการ; ที่สอง พวกเขาเปิดซอร์สโค้ดโมเดลเสียง Chroma ของตนเอง แต่เรียกเก็บค่าบริการสำหรับแพลตฟอร์มและบริการที่สร้างขึ้นจากโมเดลดังกล่าว ที่จริงแล้ว แนวทางทั้งสองนี้เป็นเส้นทางการพาณิชย์ hóaที่พบได้บ่อยในปัจจุบัน โดยใช้การเปิดซอร์สโค้ดเพื่อสร้างความเชื่อมั่นด้านเทคโนโลยี และใช้แพลตฟอร์มและบริการเพื่อเรียกคืนมูลค่าทางธุรกิจ

ขณะนี้ บริษัทด้านภาษีและบัญชีของญี่ปุ่นกำลังใช้โมเดลเสียง Chroma ของ FlashLabs แทนพนักงานบริการลูกค้าจริง โดยมีการทดสอบในระดับ 1/10 ของจำนวนพนักงานทั้งหมด โดย AI และบุคลากรจริงจะทำงานพร้อมกันและเปรียบเทียบคะแนนประสิทธิภาพอย่างต่อเนื่อง วิธีการตรวจสอบนั้นง่ายมาก: ใครมีความแม่นยำสูงกว่าและประสิทธิภาพในการจัดการดีกว่า ข้อมูลจะพูดแทน

“การใช้งานเสียงมีขอบเขตเทียบเท่ากับการใช้งานภาพ” เมื่อทั้งอุตสาหกรรมต่างจับตาดูโมเดลหลายรูปแบบและการเข้าใจวิดีโอ ชิยีกลับนำทีมพัฒนาโมเดลเสียงแบบเรียลไทม์ Chroma อย่างทุ่มเท จนสามารถลดความล่าช้าแบบ end-to-end ลงเหลือเพียง 135 มิลลิวินาที

ก่อนที่จะมีโมเดลภาษาขนาดใหญ่ มี OCR มี NLP และโมเดลเล็กๆ หลายตัวมาเชื่อมต่อกัน สำหรับเสียงตอนนี้ก็อยู่ในสถานะเดียวกับก่อนที่จะมีโมเดลภาษาขนาดใหญ่ มี ASR มี TTS และโมดูลต่างๆ ถูกเชื่อมต่อกัน แต่ละขั้นตอนต่างก็ทำการปรับปรุงแบบเฉพาะจุด สถาปัตยกรรมเก่านี้จะถูกแทนที่โดยโมเดลเสียงแบบ end-to-end อย่างสมบูรณ์ในที่สุด」 เขาเชื่อว่า แทนที่จะรอให้ผู้อื่นทำ สิ่งที่ควรทำคือเป็นผู้แทนที่เอง

ชิยีเชื่อว่าเสียงเป็นรูปแบบการสื่อสารที่เป็นธรรมชาติที่สุดระหว่างมนุษย์กับมนุษย์ และในอนาคตจะต้องเป็นอินเตอร์เฟซหลักในการโต้ตอบระหว่างมนุษย์กับ AI “ความกว้างของแบนด์วิดธ์ข้อมูลที่สามารถส่งผ่านเสียงนั้นใหญ่กว่าข้อความมาก ฉันพูดหนึ่งประโยค คุณก็เข้าใจทันที”

เขายังเชื่อว่าโมเดลเสียงมีบทบาทสำคัญต่อการขับเคลื่อนอุตสาหกรรมปัญญาประดิษฐ์แบบมีร่างกาย ชั้นแรกคือโมเดลเสียงแบบเรียลไทม์ รับผิดชอบการตอบสนองแบบทันทีทันใดที่มีความล่าช้าน้อยและมีความฉลาดทางอารมณ์สูง—เช่น ถามเรื่องอากาศ หรือถามว่าควรใส่เสื้อเพิ่มไหม ชั้นนี้จัดการโดยตรง ชั้นที่สองคือโมเดลขนาดใหญ่สำหรับการคิดอย่างลึกซึ้ง จัดการกับการให้เหตุผลที่ซับซ้อน และชั้นที่สามคือโมเดลของโลก ที่เข้าใจกฎทางฟิสิกส์ “ขอบเขตของการใช้งานเสียงอยู่ในระดับเดียวกับการใช้งานภาพ” นี่คือหนึ่งในข้อสรุประยะยาวที่เขาเชื่อมั่นที่สุดในขณะนี้

ชี อีเชื่อว่ารูปแบบการพาณิชย์ของ AI ในปัจจุบันเป็นเพียงรูปแบบชั่วคราว เพราะ agent ทั้งหมดในปัจจุบัน本质上เป็นการตอบสนองแบบพาสซีฟ คุณบอกให้มันทำอะไร มันก็ทำตามนั้น เหมือนเครื่องมือที่รอรับคำสั่ง ยังคงคล้ายกับ chatbot ดังนั้นรูปแบบธุรกิจยังคงจ่ายตามการใช้งาน token ใช้เท่าไหร่จ่ายเท่านั้น

แต่เมื่อตัวแทนเริ่มให้บริการแบบเชิงรุก นั่นคือเมื่อคุณบอกมันว่า KPI คืออะไร OKR คืออะไร มันจะหางานเอง วางแผนเส้นทางเอง และส่งมอบผลลัพธ์ที่วัดได้ ในจุดนี้ มันไม่ได้ถูกมองว่าเป็นเครื่องมืออีกต่อไป แต่เป็นพนักงาน ชัดเจนว่าบริษัทไม่ได้คำนวณเงินเดือนตามจำนวนตัวอักษรที่พนักงานพิมพ์หรือจำนวนอีเมลที่ส่ง แต่จะดูว่าเขาบรรลุเป้าหมายอะไร

ดังนั้นเขาจึงคิดว่าเมื่อเข้าสู่ยุค agentic ตรรกะการชำระเงินทางธุรกิจควรเปลี่ยนไปเป็นการจ่ายตามผลลัพธ์และตาม KPI เมื่อการเปลี่ยนแปลงนี้เกิดขึ้นจริง ระบบการกำหนดราคา วิธีการขาย และความสัมพันธ์กับลูกค้าของผลิตภัณฑ์ agent ทั้งหมดจะต้องถูกเขียนใหม่ทั้งหมด

การสำรวจโมเดลธุรกิจใหม่ได้เริ่มขึ้นภายในอุตสาหกรรมแล้ว บริษัทกฎหมาย AI ที่เพิ่งได้รับการระดมทุนรอบ B มูลค่า 60 ล้านดอลลาร์สหรัฐฯ ชื่อ Crosby ได้ให้ตัวแทนแต่ละตัวรับผิดชอบขั้นตอนต่างๆ ของการทบทวนสัญญา เช่น การดึงข้อมูลพื้นฐาน การเสนอข้อเสนอแนะในการแก้ไข และการสร้างหมายเหตุ จากนั้นทนายความจะตรวจสอบผลงานของ AI จัดการกับรายละเอียดที่ขาดหาย และรับรองความถูกต้อง โมเดลธุรกิจของมันคือการคิดค่าบริการตามจำนวนสัญญาที่ผ่านการตรวจสอบ โดยมีค่าใช้จ่ายอยู่ระหว่าง 250 ถึง 1,000 ดอลลาร์สหรัฐฯ ต่อสัญญา ซึ่งคำนวณโดยประมาณตามจำนวนหน้า ประมาณ 10 ถึง 50 ดอลลาร์สหรัฐฯ ต่อหน้า

แต่เงื่อนไขพื้นฐานสำหรับการก้าวไปสู่รูปแบบการพาณิชย์ถัดไปคือเอเจนต์แบบเชิงรุกต้องสามารถส่งมอบผลลัพธ์ที่วัดได้อย่างมั่นคงอย่างแท้จริง «ตอนนี้ยังไม่ถึงจุดนั้น»

จาก FlashIntel สู่ FlashLabs ชีอี้ใช้เวลาหนึ่งปีในการปรับโครงสร้างและทิศทางอย่างชัดเจน การปลดพนักงาน การทบทวนโครงสร้างผลิตภัณฑ์เดิม และการชะลอความพยายามด้านการพาณิชย์ชั่วคราว ทุกการกระทำเหล่านี้ดูเหมือนเป็นการลดทอนอย่างต่อเนื่องในสายตาของผู้ภายนอก

แต่ในบริบทของอุตสาหกรรม AI ที่มีการพัฒนาอย่างรวดเร็ว สิ่งนี้คล้ายกับการปรับตัวของบริษัทสตาร์ทอัพในช่วงการเปลี่ยนแปลงอย่างรุนแรง ความสามารถของโมเดลอาจก้าวกระโดดทุกๆ ไม่กี่เดือน และไม่มีใครสามารถคาดการณ์อนาคตได้อย่างสมบูรณ์ สำหรับชีอี้และ FlashLabs เป้าหมายหลักในขั้นตอนนี้ไม่ใช่การครองส่วนแบ่งตลาดให้มากที่สุด แต่คือการทำให้การเลือกเทคโนโลยีและตรรกะทางธุรกิจของตนไม่ถูกขจัดออกโดยคลื่นลูกถัดไป

อุตสาหกรรมยังคงค้นหารูปแบบที่แท้จริงของ Agent รูปแบบการชำระเงิน ขอบเขตความปลอดภัย และรูปแบบการโต้ตอบในระยะสุดท้ายยังไม่ชัดเจน การเลือกของ FlashLabs อาจไม่ใช่ทางออกที่ดีที่สุด แต่เป็นเส้นทางการอยู่รอดที่เป็นจริงของบริษัท AI ด้านเฉพาะทาง: ภายใต้แรงกดดันจากโมเดลขนาดใหญ่ที่ค่อยๆ แทรกซึมลงมา ให้หาตำแหน่งที่สามารถยืนหยัดได้ก่อน แล้วรอให้อุตสาหกรรมเติบโตอย่างแท้จริง