หลังจาก AI กินทุกอย่างแล้ว สิ่งใดที่ยังฝึกไม่ได้?

คำนำ: เมื่อความสามารถของ AI ยังคงก้าวกระโดดอย่างต่อเนื่อง วงการลงทุนกำลังเกิดการประเมินเชิงลบแบบใหม่: หากโมเดลยิ่งแข็งแกร่งขึ้น บริษัทแอปพลิเคชันทั้งหมดจะถูกกลืนโดยชั้นโมเดลและพลังการคำนวณอย่าง Anthropic, OpenAI และ Nvidia สุดท้ายแล้วตลาดจะเหลือเพียงโมเดลชั้นนำ พลังการคำนวณ และโครงสร้างพื้นฐานไม่กี่แห่ง แต่ Sarah Guo มองว่า การประเมินนี้พูดถูกเพียงครึ่งเดียว แอปพลิเคชันที่เป็น “thin wrapper” (การห่อหุ้มแบบบางเฉียบ หรือการใช้โมเดลแบบง่ายๆ) แน่นอนจะถูกดูดซับไป และงานใดก็ตามที่สามารถวัดผลได้ด้วย benchmark (การทดสอบมาตรฐาน) ฝึกด้วยข้อมูลสาธารณะ และตรวจสอบด้วยต้นทุนต่ำ จะค่อยๆ เปลี่ยนเป็นสินค้าโภคภัณฑ์

ปัญหาที่แท้จริงคือ: เมื่อ AI กินสิ่งที่สามารถฝึกฝนได้ทั้งหมดแล้ว อะไรยังคงฝึกฝนไม่ได้?

คำตอบของบทความนี้คือคุณค่าที่มีอยู่ภายในองค์กรจริงและไม่สามารถลอกเลียนแบบจากภายนอกได้ง่าย: ข้อมูลลับของบริษัท กระบวนการทำงานที่ซับซ้อน ความเชื่อมั่นของผู้ใช้ สิทธิ์การเข้าถึงระบบ ความเชี่ยวชาญในอุตสาหกรรม ความรับผิดชอบด้านการปฏิบัติตามกฎหมาย และประสบการณ์ที่สะสมมาจากการดำเนินงานระยะยาว โมเดลสามารถฉลาดกว่าเดิม แต่ไม่สามารถเข้าถึงระบบผลิตของธนาคารได้อัตโนมัติ; สามารถสร้างคำตอบทางการแพทย์ได้ แต่ไม่สามารถรับความเชื่อมั่นจากแพทย์หรือกระบวนการตัดสินใจของโรงพยาบาลได้โดยตรง; สามารถเขียนเอกสารทางกฎหมายได้ แต่ไม่สามารถรับผิดชอบแทนทนายผู้เชี่ยวชาญ หรือกำหนดนิยามของงานกฎหมายที่เหมาะสมได้จากอากาศ

ดังนั้น บริษัท AI ที่จะมีแนวป้องกันที่แท้จริงในอนาคต ไม่ใช่แค่ฉลาดกว่าโมเดลทั่วไป แต่ต้องลึกเข้าไปในอุตสาหกรรมเฉพาะ ทำหน้าที่การ “แปล” ที่ยากแต่สำคัญ: จัดระเบียบความเป็นจริง เครื่องมือ กระบวนการ และเกณฑ์การตัดสินใจของลูกค้าให้กลายเป็นระบบที่โมเดลสามารถดำเนินการได้ และค่อยๆ กำหนดนิยามของ “ผลลัพธ์ที่ดี” ผ่านการให้บริการระยะยาว ยิ่ง AI แข็งแกร่งเท่าใด ก็ยิ่งทำให้งานที่วัดผลได้และทำซ้ำได้ลดค่าลง; และยิ่งเน้นย้ำถึงสิ่งที่ “ไม่สามารถฝึกฝนได้” ซึ่งมีประวัติศาสตร์ ความสัมพันธ์ สิทธิ์ และการตัดสินใจเชิงวิชาชีพ这才是模型吞噬之后，仍然可能保留下来的真正价值。

ด้านล่างนี้คือข้อความต้นฉบับ:

กลางปี 2026 รุ่นนักลงทุนของ “AI บ้าคลั่ง” คือความรู้สึกสิ้นหวังที่ว่าไม่มีอะไรเหลืออยู่อีกแล้วที่คุ้มค่าแก่การลงทุน: เราน่าจะควรนำเงินทั้งหมดไปลงทุนใน Anthropic และ Nvidia แล้วกลับบ้านไปนอนหลับ แต่ฉันไม่เคยรู้สึกแบบนั้นเลย ตั้งแต่หลายเวอร์ชันเล็กๆ ที่ผ่านมา ฉันเชื่อมั่นอย่างแน่นอนว่าโมเดลฉลาดกว่าฉันแล้ว; หากซื้อ Anthropic และ Nvidia ตามราคาตลาด ฉันก็ยินดีอยู่แล้ว; เพื่อนที่ฉลาดที่สุดรอบตัวฉันก็เชื่อมั่นอย่างมากว่าการปรับปรุงตัวเองของโมเดลจะรีบดำเนินการได้อย่างแท้จริง—แต่ฉันยังไม่เคยรู้สึกสิ้นหวังแบบนั้น

ความสิ้นหวังนี้ไม่ได้โง่เขลา ตรรกะของมันคือ: หากโมเดลยังคงแข็งแกร่งขึ้นเรื่อยๆ ในทุกสิ่ง บริษัททั้งหมดที่สร้างขึ้นบนพื้นฐานของโมเดลเหล่านี้ จะเป็นเพียงชั้นเปลือกบางๆ ที่รอถูกดูดซับโดยโมเดล; มูลค่าเดียวที่จะเหลืออยู่ในที่สุดคือพลังการประมวลผลและน้ำหนักของโมเดลขั้นสูงสุด

ตัวอย่างเช่นซอฟต์แวร์ นี่คือกรณีที่ความรู้สึกสิ้นหวังนี้พึ่งพาอย่างมากที่สุด เมื่อ Devin เปิดตัวในปี 2024 มันสามารถแก้ไขงานได้เพียง 13% ของมาตรฐานการทดสอบซอฟต์แวร์ จึงถูกตลาดมองข้ามโดยทั่วไป หนึ่งปีครึ่งต่อมา ตัวแทนที่แข็งแกร่งที่สุดสามารถทำคะแนนได้มากกว่า 80% และเริ่มจัดการงานจริงภายใน Goldman Sachs และกองทัพสหรัฐฯ แทบทุกคนสรุปข้อผิดพลาดเดียวกัน: โมเดลได้กลืนกินวิศวกรรมซอฟต์แวร์

แต่เมื่อโมเดลกลืนส่วนที่ง่ายที่สุดในการวัดในวิศวกรรมซอฟต์แวร์ไปแล้ว เราจึงเริ่มเข้าใจใหม่ถึงสิ่งที่ทีมหลายทีมรู้อยู่แล้ว: วิศวกรรมนั้นเคยต่อต้านการวัดมาโดยตลอด และส่วนที่ง่ายที่สุดในการวัด未必เป็นส่วนที่สำคัญเพียงส่วนเดียว

มิตต์ เดมิเรอร์ จาก MIT และผู้ร่วมงานของเขาได้ทำการวัดปริมาณสิ่งนี้เป็นที่เรียบร้อยแล้ว: ในจำนวนนักพัฒนาเกิน 100,000 คน ตัวแทนการเขียนโค้ดรุ่นใหม่ล่าสุดช่วยเพิ่มปริมาณการเขียนโค้ดขึ้นประมาณ 180% แต่ปริมาณโค้ดที่ส่งมอบและนำไปใช้งานจริงกลับเพิ่มขึ้นเพียงประมาณ 30% การเขียนโค้ดกลายเป็นถูกลงแล้ว แต่ขั้นตอนที่เหลือยังต้องผ่านมนุษย์ และขั้นตอนเหล่านี้มีความสำคัญมาก แน่นอนว่าผลกระทบสุทธิโดยรวมยังคงน่าทึ่งอย่างมาก

การทดสอบฐานเป็นสิ่งที่คุณสามารถวัดได้; และสิ่งใดก็ตามที่สามารถวัดได้ สามารถใช้ฝึกฝนได้ ดังนั้นตัวแทนการเขียนโปรแกรมจึงพัฒนาขึ้นก่อน: ตัวแปลงคำสั่งเป็นตัวตรวจสอบฟรี และชุดการทดสอบก็เป็นตัวตรวจสอบฟรีเช่นกัน เมื่อคำตอบสามารถตรวจสอบตนเองได้เกือบโดยไม่มีต้นทุน คุณสามารถปรับแต่งรอบสัญญาณการตรวจสอบนี้อย่างต่อเนื่องจนกว่าจะทะลุผ่าน

แต่การผ่านการทดสอบไม่ได้หมายความว่าการเปลี่ยนแปลงนี้ถูกต้องสำหรับโค้ดเบสที่ทำงานมาแล้วสิบปี โมดูลนั้นอาจมีอยู่เพราะมีเหตุผลสามข้อที่ไม่เคยมีใครบันทึกไว้ในเอกสาร; กระบวนการปรับใช้อาจยังคงทำงานได้ด้วย cron job ที่ไม่มีใครกล้ารับผิดชอบว่าเป็นของตัวเอง

ความถูกต้องนี้ไม่สามารถอ่านได้จากตารางอันดับ หรือแม้แต่จากสิ่งใดๆ โดยตรง คุณต้องปล่อยให้ระบบซับซ้อนเช่นนี้ทำงานในโลกแห่งความเป็นจริงเป็นเวลานานพอจึงจะรู้ว่ามันมีประสิทธิภาพจริงหรือไม่ และโมเดลที่ฉลาดกว่าก็ไม่ได้ทำให้โลกแห่งความเป็นจริงทำงานเร็วขึ้น ไม่มีใครจะวางใจระบบขนาดใหญ่เช่น Google แค่เพราะมันผ่านการทดสอบหน่วยและเห็นเครื่องหมายถูกสีเขียว คุณไว้วางใจมันเพราะมันได้รับภาระการใช้งานจริงมานานหลายปี

ความถูกต้องนี้ไม่เพียงแต่เป็นความลับส่วนตัว แต่ยังเป็นรั้วป้องกันที่ค่อยๆ ก่อตัวขึ้น ซึ่งทุนไม่สามารถบีบเวลาให้สั้นลงได้ โดยแม้แต่ผู้มองโลกในแง่ดีก็ยอมรับว่านาฬิกานี้ไม่สามารถข้ามขั้นตอนไปได้ โนอัม บราวน์ ผู้บุกเบิกโมเดลการให้เหตุผลของ OpenAI เพิ่งเขียนไว้ว่า: วิธีเดียวที่เชื่อถือได้ในการประเมินประสิทธิภาพของเอเจนต์ภายในรอบหนึ่งปี อาจคือการให้มันทำงานจริงเป็นเวลาหนึ่งปี

ตามที่ กาเบรียล เปรียร์รา กล่าว ความอัตโนมัติที่แท้จริงไม่ได้หมายถึงแค่โมเดลที่แข็งแกร่งขึ้น มันคือผลิตภัณฑ์ โมเดล กระบวนการทำงาน และโครงสร้างองค์กรที่เปลี่ยนแปลงไปพร้อมกัน และในสี่สิ่งนี้ สามอย่างเคลื่อนที่ตามความเร็วขององค์กร

การสร้างแรงบันดาลใจให้ผู้คนลงมือทำ เป็นสิ่งที่การทดสอบใดๆ ก็ไม่สามารถสัมผัสได้: การโน้มน้าวหุ้นส่วนที่สงสัยให้เปลี่ยนวิธีจัดการงานของเธอ และการรักษาความเป็นหนึ่งเดียวของทีมในระหว่างกระบวนการสร้างใหม่ นี่คือเหตุผลที่เราให้ความสำคัญกับความสามารถในการจัดการคนของซีอีโอเท่าๆ กับความสามารถในการวิเคราะห์ การที่โมเดลฉลาดขึ้นไม่ได้เปลี่ยนน้ำหนักของสิ่งนี้

ข้อเสนอแนะที่นี่ไม่ชัดเจน ช่วงเวลาวัดเป็นปี แต่ความเชื่อถือนั้นอยู่กับบุคคลเฉพาะเจาะจง ทุกบริษัทที่ฉันรู้จักได้ให้วิศวกรแต่ละคนใช้โมเดลการเขียนโค้ดล้ำสมัย แต่ไม่มีองค์กรวิศวกรรมใดเปลี่ยนแปลงด้วยความเร็วใกล้เคียงกับความก้าวหน้าของโมเดล การนำเครื่องมือมาใช้ใช้เวลาเพียงหนึ่งไตรมาส และนั่นเป็นไตรมาสที่มหัศจรรย์ในการเติบโตของ token! แต่การสร้างใหม่อย่างแท้จริงต้องใช้เวลาหลายปี

งานที่มองเห็นได้กำลังจากไป งานที่มีคุณค่าจริงๆ นั้นโดยโครงสร้างแล้วไม่สามารถอ่านได้: สิ่งใดก็ตามที่คุณสามารถใส่ลงในตารางอันดับได้ สามารถใช้ฝึกสอนได้; ดังนั้น สิ่งใดก็ตามที่วัดได้ กำลังเข้าสู่กระบวนการกลายเป็นสินค้า กระบวนการนี้ต้องใช้เวลา และจะไม่เสร็จสมบูรณ์อย่างสมบูรณ์ แต่ทิศทางจะไม่มีวันกลับทิศ

ตามคำพูดของเพื่อนของฉัน แมตต์ แมคอินนิส จาก Rippling การแปลงเป็นภาษาทางการเงินคือ: โทเค็นที่ใช้ตอบคำถามทั่วไปนั้นแทบไม่มีค่าอะไรเลย เพราะโมเดลของใครก็สามารถตอบได้; แต่โทเค็นที่ใช้การให้เหตุผลบนข้อมูลของบริษัทคุณนั้นมีมูลค่าสูงกว่ามาก เพราะมันทำสิ่งที่คุณต้องการจริงๆ ไม่ใช่แค่สร้างคำตอบที่ดูสมเหตุสมผล

งานที่อ่านได้จะถูกกลืนจากสองทิศทาง

เมื่อมองจากด้านล่าง งานจะถึงจุดอิ่มตัว: เมื่องานใดงานหนึ่งสามารถตรวจสอบได้ด้วยต้นทุนต่ำ ผู้ซื้อจะไม่สนใจว่าโมเดลใดเป็นผู้ดำเนินการ แต่จะเริ่มถามว่ามันมีราคาเท่าใด ดังนั้น งานนั้นจึงจะตกไปอยู่กับโมเดลโอเพ่นซอร์สหรือโมเดลที่ผ่านการกลั่นกรองที่ถูกที่สุดในสัปดาห์นั้น ตราบใดที่อัตรากำไรยังคงมีผล cuốiที่สุดมันจะต้องเกิดขึ้น

จากมุมมองด้านบน ห้องปฏิบัติการกำลังพยายามให้โมเดลกลืนโครงสร้างรองรับของตัวเองเข้าไป การจัดเส้นทางระหว่างการดึงข้อมูล การเรียกใช้งานที่ถูกและแพง การใช้เครื่องมือ และแม้แต่กลยุทธ์การให้เหตุผล—อุปกรณ์ทั้งหมดที่เคยห่อหุ้มอยู่ภายนอกโมเดล กำลังถูกดึงเข้าไปภายในน้ำหนักของโมเดล จนกระทั่ง 'เปลือก' เองก็กลายเป็นโมเดล นี่คือขอบเขตการดูดซับ

แรงกดดันด้านกำไรยังสามารถทำงานในอีกทิศทางหนึ่ง: ตัวแทนทั่วไปต้องพร้อมรับมือกับทุกสิ่งอยู่ตลอดเวลา จึงมีต้นทุนสูง ในขณะที่แอปพลิเคชันที่มุ่งเน้นสามารถปรับแต่งกระบวนการให้สมบูรณ์แบบที่สุด ทำให้ใช้โทเค็นเพียงส่วนน้อยเท่านั้น และต่างจากห้องปฏิบัติการที่ขายโทเค็นเหล่านี้ บริษัทแอปพลิเคชันสามารถเก็บส่วนต่างระหว่างต้นทุนไว้ได้

ดังนั้น เราสามารถตั้งคำถามสองข้อกับงานใดๆ ก็ได้: ความถูกต้องของมันเป็นความลับและมีค่าใช้จ่ายสูงหรือไม่ และเป็นความจริงที่มีอยู่เฉพาะภายในข้อมูลของบริษัทหนึ่งๆ หรือไม่? มันถูกแยกออกจากระบบภายนอกที่บุคคลภายนอกไม่สามารถเข้าถึงได้หรือไม่? เมื่อนำคำถามเหล่านี้มารวมกับระดับความอิ่มตัวของงาน จะได้เมทริกซ์ 2×2

งานที่อิ่มตัวและคำตอบเปิดเผยเป็นพื้นที่ของโทเค็นที่เป็นสินค้า ซึ่งโมเดลแบบโอเพนซอร์สจะครองพื้นที่นี้ ส่วนงานที่อยู่บนหน้าก่อนหน้าแต่มีคำตอบเปิดเผย เช่น การทดสอบการเขียนโค้ด เป็นพื้นที่ที่ห้องปฏิบัติการจะชนะ เพราะเมื่อการประเมินเป็นเรื่องฟรี การมีอยู่ของมันเองก็ไม่มีค่า

รางวัลที่แท้จริงอยู่ที่มุมสุดท้าย นั่นคือมุม “ไม่สามารถฝึกได้”: งานล้ำหน้า แต่ความถูกต้องของมันมีอยู่เฉพาะในสภาพแวดล้อมส่วนตัว คุณสามารถเห็นสิ่งนี้ได้บนคลาวด์การให้บริการแบบอินเฟอเรนซ์สำหรับผู้บุกเบิกที่เป็น AI-native: โทเค็นส่วนใหญ่ถูกสร้างขึ้นโดยโมเดลที่ปรับแต่งเฉพาะ ไม่ใช่โดยโมเดลโอเพนซอร์สทั่วไป

ผนังที่นำไปสู่มุมสุดท้ายนี้ สูงต่ำไม่เท่ากัน คลังโค้ดของนักพัฒนาเป็นแบบย้ายถ่ายได้และเป็นมาตรฐาน จึงไม่ยากที่จะปีนเข้าไป แต่ระบบการผลิตของธนาคารไม่สามารถย้ายถ่ายได้และไม่เป็นมาตรฐาน คุณจะไม่ได้รับสิทธิ์ root ของมันเพียงเพราะคุณเก่งขึ้น 2% จาก SWE-Bench Verified

ความสามารถสามารถกลืนสิ่งต่างๆ ได้มากมาย แต่โมเดลที่ดีกว่าไม่ได้ทำให้มาตรฐานที่แท้จริงซึ่งเป็นความลับกลายเป็นมาตรฐานสาธารณะ มันไม่ได้ถือใบอนุญาต ไม่ได้ลงนามรับผิดชอบ และไม่ได้เป็นเจ้าของเอกสารบริษัท; เมื่อคำตอบผิดพลาด มันก็ไม่สามารถถูกฟ้องร้องได้ จุดจำกัดที่นี่ไม่ใช่ปัญญา แต่คือสิทธิ์ และความรับผิดชอบ คุณสามารถจินตนาการถึงโมเดลที่ฉลาดกว่ามนุษย์ทุกคน แต่มันยังคงต้องได้รับอนุญาตให้เข้ามา และยังคงต้องมีใครสักคนลงชื่อรับผิดชอบต่อสิ่งที่มันทำ

ประตูนั้นมีกุญแจและแท่งล็อก

กุญแจนั้นคือสภาพแวดล้อม: คุณสามารถตรวจสอบได้เฉพาะเมื่อคุณได้รับความเชื่อถือภายในระบบ ผ่านการทบทวนด้านความปลอดภัย การบูรณาการที่เสร็จสมบูรณ์ และการลงนามในสัญญาที่มีความรับผิดชอบต่อผลลัพธ์

ประตูล็อกนั้นคือผู้ใช้ ปัจจุบัน แพทย์ส่วนใหญ่ในสหรัฐอเมริกาเปิดใช้งาน OpenEvidence ทุกวัน ซึ่งไม่สามารถซื้อได้ด้วยพลังการคำนวณใดๆ ห้องปฏิบัติการหนึ่งแห่งอาจฝึกโมเดลการแพทย์ที่สมบูรณ์แบบได้พรุ่งนี้ แต่มันยังไม่สามารถเข้าไปอยู่ในนิสัยการใช้งานของแพทย์หรือกระบวนการตัดสินใจของ UCSF ได้ เพราะความเชื่อมั่นถูกสร้างขึ้นอย่างค่อยเป็นค่อยไป ผ่านความสัมพันธ์และการยอมรับของผู้ใช้ ไม่ใช่โดยการลบสิ่งเหล่านี้ออกด้วยการลดกราเดียนต์

นี่คืองานของบริษัทแอปพลิเคชัน แอปพลิเคชันหนึ่งสามารถครองพื้นที่ในมุมที่ “ไม่สามารถฝึกได้” ได้ด้วยงานที่ไม่หรูหราเหล่านี้: จัดระเบียบความเป็นจริงส่วนตัวของบริษัท เพื่อให้โมเดลสามารถดำเนินการตามข้อมูลนั้น; มอบเครื่องมือการดำเนินการให้กับโมเดล; และร่วมกับลูกค้าเปลี่ยนแปลงวิธีการทำงานจริงของแรงงาน

บริษัทที่สามารถทำ「การแปล」แบบนี้ได้นั้นยากที่จะถูกเลียนแบบ และการแปลนี้จะไม่มีวันสิ้นสุด การบูรณาการและการดูแลรักษาจะดำเนินต่อไปพร้อมกับความสัมพันธ์กับลูกค้า ผู้ที่ชนะในเรื่องนี้คือทีมที่วางวิศวกรผู้เชี่ยวชาญด้านสาขาและเครื่องมือไว้ข้างๆ ลูกค้า

ตัวอย่างเช่น ในสำนักงานกฎหมายชั้นนำที่มีประวัติยาวนาน งานด้านการควบกิจการและเข้าซื้อกิจการเพียงอย่างเดียวมีจำนวนธุรกรรมใกล้เคียงหนึ่งพันรายการต่อปี คุณไม่สามารถให้พนักงานกฎหมายหลายร้อยคนดาวน์โหลดเอกสารลูกค้าไปยังเดสก์ท็อปของตนเองแล้วส่งให้เอเจนต์ทั่วไปอ่านทั้งหมดได้ เหตุผลด้านความลับก็ไม่อนุญาตให้ทำเช่นนี้แล้ว ยังไม่นับปัญหาอื่นๆ อีกกว่าสิบประการ แม้จะทำได้ คุณก็จะได้รับข้อมูลเพียงบางส่วน: พนักงานคนหนึ่งแก้ไขเพียงเล็กน้อยในแต่ละครั้ง ไม่มีใครเห็นภาพรวมของธุรกรรมทั้งหมดว่าไหลผ่านอย่างไร

สัญญาณที่แท้จริงสำคัญอยู่ที่ระดับการซื้อขาย การซื้อขายแต่ละครั้งมีรูปร่างของตัวเอง: สำหรับการควบกิจการ คือ NDA, รายการเงื่อนไข, การตรวจสอบอย่างละเอียด, สัญญาซื้อขาย, เอกสารแนบ, รายการส่งมอบ; สำหรับคดีลิขสิทธิ์ทางปัญญา คือคำร้อง, การเปิดเผยหลักฐาน, เทคโนโลยีที่มีอยู่แล้ว, คำร้องเพิ่มเติม แต่ละสาขาธุรกิจมีโครงสร้างของตัวเอง ทนายความและเครื่องมือไม่สามารถสลับกันได้อย่างเสรี

ปัญหาที่แท้จริงที่สำนักงานกฎหมายนี้ต้องแก้ไขอยู่ในระดับที่สูงกว่านั้นอีก: วิธีการบริหารทุกด้านของธุรกิจพร้อมกัน ดุจดั่งหุ้นส่วนระดับสูงที่จัดการงานนับร้อยรายการพร้อมกัน ขณะเดียวกันก็หาลูกค้าใหม่และฝึกอบรมทนายความรุ่นใหม่ การปรับปรุงบริษัทเช่นนี้ไม่ใช่ปัญหาเดียวที่คุณสามารถเขียนภารกิจประเมินผลได้ มันต้องการผู้จัดการที่จัดการมันเหมือนเล่น “เบสบอลข้อมูล”: เป้าหมายระหว่างทางมีความคลุมเครืออย่างมาก ข้อมูลย้อนกลับไม่สมบูรณ์ วงจรยาวนานมาก และสภาพแวดล้อมเองก็ไม่เคยนิ่ง

น่าเสียดายที่ค่าที่อ่านไม่ได้ก็ยากต่อการขาย เนื่องจากเหตุผลเดียวกับที่มันยากต่อการแปรรูปเป็นสินค้า: บริษัทหนึ่งไม่สามารถประเมินจากภายนอกได้ว่า AI จริงๆ แล้วสามารถเปลี่ยนแปลงการดำเนินงานของมันได้ตามที่การทดสอบเปรียบเทียบแสดงไว้หรือไม่ ดังนั้น บริษัทที่แข็งแกร่งที่สุดจึงจะหยุดพยายามพิสูจน์ตัวเองจากภายนอก และแทนที่จะเข้าไปอยู่ภายในลูกค้าก่อน แล้วจึงกำหนดราคาตามผลลัพธ์

Sierra จะเก็บค่าธรรมเนียมเฉพาะเมื่อตัวแทนของมันแก้ไขปัญหาของลูกค้าได้; หากปัญหาถูกส่งต่อให้คนจริงๆ มันจะไม่เก็บค่าธรรมเนียม ดังนั้น ราคาจึงกลายเป็นกลไกการประเมินผล และสิ่งนี้ทำงานได้เพราะ Sierra มีสิทธิ์กำหนดนิยามของคำว่า “แก้ไขแล้ว” Cognition ของ Devin ก็ทำสิ่งเดียวกันในวงการซอฟต์แวร์ โดยเปิดตัว “การรับประกันประสิทธิภาพ” เท่านั้นที่คุณจึงจะมีสิทธิ์ให้การรับประกันเช่นนี้ เมื่อคุณได้รับความไว้วางใจให้เข้าไปภายในระบบ

แม้ในระดับการให้บริการ token — ซึ่งทุกคนมักเรียกว่าสินค้าบริสุทธิ์ — ประสิทธิภาพของมันก็ไม่ได้เหมือนสินค้า บริษัทที่สร้างมาเพื่อ AI ที่ดีที่สุดจะมุ่งเน้นบริการไปที่ผู้ให้บริการหนึ่งหรือสองราย เช่น Baseten หรือ Fireworks เพราะต้นทุนต่อ token จะค่อยๆ เป็นสินค้าตามเวลา แต่ความน่าเชื่อถือภายใต้ปริมาณการใช้งานจริง และการเข้าถึงทรัพยากรการประมวลผลที่หายากอย่างมั่นคง ไม่ได้กลายเป็นสินค้า การเลือกว่าจะให้บริการการประมวลผลที่ไหน กับการเลือกใช้โมเดลใด เป็นการตัดสินใจสองอย่างที่ต่างกัน ส่วนเดียวในกระบวนการประมวลผลที่แท้จริงแล้วเหมือนสินค้า คือราคา

ข้อโต้แย้งทั่วไปคือ: ห้องปฏิบัติการคือซัพพลายเออร์ของคุณ ทำไมมันถึงไม่ใช้ผลิตภัณฑ์ของตัวเองขายในราคาต่ำกว่าต้นทุนเพื่อขับคุณออกจากตลาด หรือยกเลิกสิทธิ์การเข้าถึง API ของคุณแล้วแย่งตลาดนี้ไปเอง? นี่คือเวอร์ชันที่แท้จริงของความรู้สึกสิ้นหวัง แต่มันใช้ได้เฉพาะเมื่อระดับโมเดลเป็นเกมของคนเดียวเท่านั้น

ชัดเจนว่าความจริงไม่ได้เป็นเช่นนั้น ระดับโมเดลเหมือนการแข่งขันเพื่อเอาชีวิตรอดของสามครึ่งผู้เล่น พร้อมกับผู้เล่นระดับนานาชาติที่ตามหลังในการฝึกฝนประมาณหกเดือน และลีกพัฒนาที่มีขนาดใหญ่กว่าปีที่แล้วห้าเท่า ลูกค้าต้องการให้มีการแข่งขันระหว่างซัพพลายเออร์ของตน ในขณะที่ห้องปฏิบัติการต้องการส่วนแบ่งตลาดมากกว่าการกำจัดแอปพลิเคชันใดๆ หนึ่งอย่าง

คุณสามารถเห็นสิ่งนี้ได้ในตลาดที่มีการแข่งขันอย่างตรงไปตรงมาในห้องปฏิบัติการ ในบริบทของการพูดคุยของผู้บริโภค โมเดลที่ดีที่สุดไม่เคยชนะตลาดทั้งหมดอย่างง่ายดาย ChatGPT ยังคงรักษาตำแหน่งผู้นำมาตลอดหลายปีของการแข่งขันจริง; ส่วนแบ่งตลาดที่มันสูญเสียไปในขณะนี้ได้ไหลไปยัง Gemini ซึ่งเป็นเพราะความสามารถในการกระจายผ่าน Android และการค้นหา ไม่ใช่เพราะโมเดลดีกว่า Anthropic ปัจจุบันถูกมองว่ามีโมเดลที่ดีที่สุดในตลาดการพยากรณ์และบรรยากาศบนอินเทอร์เน็ต แต่มันแทบไม่ใช่ผู้เล่นหลักในบริบทการพูดคุยของผู้บริโภค แต่กลับสร้างธุรกิจของตัวเองในบริบทขององค์กรและการเขียนโค้ด

หากโมเดลที่ดีกว่าไม่สามารถดึงผู้ใช้จากคู่แข่งในแอปพลิเคชันที่สำคัญที่สุดได้ มันก็จะไม่สามารถรับเอาระบบบันทึกผู้ป่วยของโรงพยาบาลหรือระบบความรับผิดชอบของธนาคารได้อย่างง่ายดาย โดยวันนี้ ผู้ใช้ทั่วไปเลือกผลิตภัณฑ์ไม่ได้ขึ้นอยู่กับความสามารถในการเขียนโค้ดเพียงอย่างเดียว หากชั้นโมเดลขั้นสูงยังคงแน่นขนัด ชั้นแอปพลิเคชันด้านบนก็จะมีมูลค่า

หากงานใดไม่สามารถประเมินจากภายนอกได้ ภายในจำเป็นต้องมีใครสักคนตัดสินว่าคำตอบใดถือว่าดี และการตัดสินใจนี้เองคือเกมทั้งหมด เมื่อมีการบันทึกการตัดสินใจเหล่านี้ไว้มากมายพอ ก็จะกลายเป็นการทดสอบมาตรฐาน Harvey ได้เผยแพร่การทดสอบมาตรฐานในสาขากฎหมาย Sierra ได้เผยแพร่การทดสอบมาตรฐานสำหรับตัวแทนเสียง คุณมีสิทธิ์กำหนดว่า “ดี” หมายถึงอะไรในสาขาหนึ่งๆ เพราะสาขานั้นกำลังใช้คุณอยู่แล้ว และบริษัทเหล่านี้ได้รับสิทธิ์นี้มาจากการต่อสู้อย่างยากลำบากในกระบวนการรับใช้จริง

การประเมินที่แท้จริงซึ่งกำหนดทิศทางของเงินทุนนั้นเป็นความลับและสร้างขึ้นเป็นรายบริษัท: บริษัทนี้จะยอมรับอะไรเป็นงานที่ดีในเรื่องนี้ และเรื่องนี้ยังไม่เสร็จสิ้น เพราะความลึกซึ้งของกฎหมายนั้นเกินกว่าการทดสอบสาธารณะใดๆ ทั้งสิ้น OpenEvidence กำลังรวบรวมคำตอบทางคลินิกที่ปลอดภัย

ทั้งหมดนี้แท้จริงแล้วไม่ใช่การ “วัดผล” ในความหมายที่แท้จริง แต่เป็นการตัดสินว่าอะไรคือความจริงและอะไรคือสิ่งที่ดี การตัดสินเหล่านี้ถูกบันทึกไว้จนกลายเป็นมาตรฐานที่ทุกคนต้องยอมรับในการวัดผล ไม่ว่าห้องปฏิบัติการโมเดลพื้นฐานจะฉลาดเพียงใด มันก็ไม่สามารถสร้างมาตรฐานเหล่านี้ขึ้นมาเองได้ เพราะสถานะดังกล่าวมีอยู่ภายในขอบเขตของสาขานั้นเท่านั้น

อำนาจดังกล่าวมักจะตกอยู่ที่สถานที่ที่มันมีอยู่แล้ว ทนายผู้มีประสบการณ์เขียนมาตรฐานทางกฎหมาย แพทย์คือผู้กำหนดคำตอบทางคลินิกที่ปลอดภัย ส่วนคำว่า “ได้รับการแก้ไขแล้ว” หมายถึงอะไรนั้น ขึ้นอยู่กับบริษัทที่มีความสัมพันธ์กับลูกค้าอยู่แล้ว

ขอบการดูดซับจะยังคงสูงขึ้นต่อไป เพราะเราจะเรียนรู้ที่จะวัดงานได้มากขึ้นเรื่อยๆ และสิ่งที่วัดได้จะถูกดูดซับไป พื้นฐานที่ไม่สามารถฝึกฝนได้จะค่อยๆ ลดลงใต้เท้าของผู้ที่ยืนอยู่บนนั้น ดังนั้นคุณจึงไม่สามารถหยุดนิ่งเมื่อพบตำแหน่งที่ป้องกันได้ คุณต้องเดินต่อไปสู่พื้นที่ที่ยังไม่สามารถให้คะแนนได้ และต้องทำการประกันใหม่และประเมินความเสี่ยงใหม่อย่างต่อเนื่อง

ในงานที่แคบและเฉพาะเจาะจง ด้วยข้อมูลส่วนตัวของคุณและระบบการประเมินของคุณเอง คุณสามารถฝึกโมเดลให้ถึงระดับชั้นนำและเอาชนะโมเดลทั่วไปในสถานการณ์สำคัญได้; โมเดลเฉพาะทางนี้จะกลายเป็นส่วนหนึ่งของรั้วป้องกัน แต่ในทางกลับกัน หากคุณแข่งขันในด้านความสามารถของโมเดลทั่วไป นั่นจะเป็นสงครามทุน และคุณจะแพ้ให้กับผู้ที่มีทรัพยากรการประมวลผลมากที่สุด นี่คือกับดักที่บริษัทที่มีการเข้าถึงข้อมูลเพียงผิวเผินและงานที่อ่านเข้าใจได้ง่ายมักจะตกอยู่

เมื่อองค์กรหนึ่งตัดสินใจฝึกโมเดลที่มีความสามารถเกินกว่าโมเดลชั้นนำบนงานทั่วไปจำนวนมากเพื่อความอยู่รอด ผลลัพธ์มักถูกตัดสินโดยขนาดของศูนย์ข้อมูล สุดท้ายมักไม่เกิดผู้ชนะรายเดียวที่เป็นอิสระ แต่กลับถูกขายให้กับผู้เล่นที่มีพลังการประมวลผลเพียงพอ

ทั้งหมดนี้เป็นการป้องกัน แต่สิ่งที่ยากกว่าคือการโจมตี: ก่อนอื่นต้องตัดสินใจว่าจะสร้างอะไรขึ้นมา นี่คือสิ่งที่ฉันตามหามาตลอดปีนี้ และฉันพบมันได้เพียงสามครั้งเท่านั้น โมเดลไม่สามารถช่วยคุณในเรื่องนี้ได้ คุณจะชี้ไปที่ไหน มันก็จะทำตามนั้น; แต่มันไม่สามารถบอกคุณได้ว่าอะไรคือสิ่งที่ควรชี้ไป คุณไม่สามารถสร้างการทดสอบมาตรฐานสำหรับเรื่องนี้ได้ จึงไม่สามารถฝึกมันได้

นี่คือเหตุผลที่ผู้เล่นรายใหญ่ไม่สามารถยึดครองทุกอย่างได้: พวกเขาจะรักษาพื้นที่ที่ตนมีอยู่แล้ว ส่วนสิ่งถัดไปจะเกิดขึ้นจากผู้ที่ค้นพบการใช้งานก่อนผู้อื่น บางที ความตั้งใจอาจเป็นปัจจัยนำเข้าที่หายากกว่าพลังการคำนวณ

ความรู้สึกสิ้นหวังนี้ถูกครึ่งหนึ่ง ชั้นเปลือกบางกำลังถูกดูดซับไปจริงๆ และสิ่งที่ดูเหมือนบริษัทจำนวนมากในวันนี้ ล้วนเป็นเพียงเปลือกบางเท่านั้น แต่การตัดสินว่า “หลังจากการดูดซับแล้วจะเหลืออะไร” นั้นผิดพลาด กลไกนั้นชัดเจน แต่จุดหมายปลายทางกลับไม่ชัดเจน

สิ่งที่ฉันยินดีเดิมพันคือทิศทางนี้: ปัญญาจะยังคงถูกลงต่อไป ในขณะที่คุณค่าจะยังคงไหลไปสู่จุดที่โมเดลไม่กี่ตัวเข้าถึงไม่ได้ สิ่งที่ไม่สามารถฝึกได้ คือสิ่งที่มีคุณค่าจากประวัติศาสตร์

ดังนั้น การเข้าไปในหนึ่งในพื้นที่เหล่านี้ เพื่อทำหน้าที่การแปลที่ไม่หรูหรา และเริ่มเขียนนิยามของคำว่า “ดี” ที่นั่น เพราะจะมีคนบางคนที่ต้องทำสิ่งนี้อยู่ดี คะแนนการทดสอบอ้างอิงที่ถูกอ้างถึงมากที่สุดในปีนี้ แท้จริงแล้วคือแผนที่ที่กำลังจะสูญเสียคุณค่า และเป็นการแจ้งเตือน: แจ้งให้บางคนรู้ว่าพวกเขาจะสูญเสียสิทธิ์ในการกำหนดว่าอะไรคือ “ดี”

[ลิงก์ต้นฉบับ]

律动 BlockBeats