หลังจากการอัตโนมัติ
ผู้เขียนต้นฉบับ: Dan Shipper, Every CEO
แปลโดย: Peggy, BlockBeats

บรรณาธิการ: ล่าสุด การอภิปรายเกี่ยวกับ AI และงานเกือบทั้งหมดถูกครอบงำด้วยคำถามหนึ่ง: เมื่อความสามารถของโมเดลยังคงพัฒนาต่อไป ตำแหน่งงานสำนักงานจะถูกแทนที่อย่างกว้างขวางหรือไม่? จากการสร้างโค้ด การอัตโนมัติของบริการลูกค้า ไปจนถึงการผลิตเนื้อหา ตัวแทนกำลังค่อยๆ เข้ามาควบคุมงานทางปัญญาที่เคยต้องใช้มนุษย์ทำ ผลการทดสอบมาตรฐานก็ยิ่งเสริมความกังวลนี้: ประสิทธิภาพของโมเดลในการให้เหตุผลระดับปริญญาโท ภารกิจทางเศรษฐกิจจริง และการรีแฟกเตอร์โค้ดระดับวิศวกรขั้นสูง กำลังพัฒนาอย่างรวดเร็ว ดูเหมือนกำลังเข้าใกล้จุดวิกฤตที่งานของมนุษย์จะถูกอัตโนมัติกลืนกิน

แต่ทุกซีอีโอแดน ชิปเปอร์ ในบทความนี้ได้เสนอการสังเกตที่ตรงกันข้าม: ยิ่งมีการอัตโนมัติมากเท่าใด มนุษย์ก็ยิ่งต้องทำงานมากขึ้น ทุกเป็นผู้ใช้งาน AI Agent อย่างลึกซึ้ง และได้รวมเครื่องมือต่างๆ เช่น Codex, Claude Code, Slack Agent และ客服 Agent เข้าไปในกระบวนการเขียนโค้ด การเขียน การออกแบบ การให้บริการลูกค้า และการจัดการ แต่ผลลัพธ์ไม่ใช่การแทนที่พนักงานอย่างสมบูรณ์ แต่เป็นการจัดเรียงรูปแบบงานใหม่: วิศวกรไม่ได้แค่เขียนโค้ดอีกต่อไป แต่ต้องทบทวน ปรับโครงสร้าง และออกแบบระบบ; บรรณาธิการไม่ได้แค่เขียนบทความอีกต่อไป แต่ต้องตัดสินว่าอะไรคือสิ่งที่ควรเขียนและจะเขียนให้แตกต่างอย่างไร; พนักงานบริการลูกค้าไม่ได้จัดการทุกใบแจ้งซ่อมพื้นฐานอีกต่อไป แต่ต้องดูแลระบบที่สามารถตอบสนองลูกค้าได้อัตโนมัติ

สิ่งที่น่าสนใจที่สุดในบทความนี้ ไม่ใช่ “AI สามารถทำภารกิจใดๆ ได้หรือไม่” แต่คือมันได้กำหนดตำแหน่งใหม่ของมนุษย์ในงานความรู้ AI มีจุดแข็งในการทำให้ความสามารถที่เคยถูกสะสมไว้ในอดีตกลายเป็นราคาถูก: โค้ด ข้อความ รูปภาพย่อ คำตอบจากฝ่ายบริการลูกค้า คำอธิบายผลิตภัณฑ์ และรายงานการวิจัย สามารถถูกสร้างขึ้นอย่างรวดเร็วโดยโมเดล แต่เมื่อความสามารถเหล่านี้กลายเป็นที่เข้าถึงได้สำหรับทุกคน สิ่งที่มักเกิดขึ้นในตลาดไม่ใช่ผลลัพธ์ที่มีคุณภาพสูงและแตกต่างกัน แต่กลับเป็นการผลิตจำนวนมากที่ดูเหมือนกันและขาดการตัดสินใจและความเข้าใจบริบท — หรือที่เรียกว่า “ผลลัพธ์เริ่มต้น” กล่าวอีกนัยหนึ่ง AI ได้ทำให้ “ความสามารถของมนุษย์เมื่อวานนี้” เป็นสินค้าทั่วไป ในขณะที่สิ่งที่หายากจริงๆ คือความสามารถในการตัดสินใจเมื่อเผชิญกับปัญหาเฉพาะในปัจจุบัน

ดังนั้น การอัตโนมัติไม่ได้ทำให้ผู้เชี่ยวชาญหายไป แต่กลับสร้างสถานการณ์ที่ต้องการการมีส่วนร่วมของผู้เชี่ยวชาญเพิ่มขึ้น เมื่อพนักงานปฏิบัติการสามารถใช้ AI ส่งโค้ด วิศวกรจึงต้องตัดสินว่าโค้ดใดควรรวมเข้าด้วยกัน เมื่อผู้ทำการตลาดสามารถสร้างรูปย่อได้ในไม่กี่วินาที นักออกแบบจึงต้องตัดสินว่าอะไรเหมาะสมกับแบรนด์และเป้าหมายการสื่อสาร เมื่อวิศวกรสามารถเขียนบทความได้ บรรณาธิการจึงต้องแปลงร่างแรกให้กลายเป็นเนื้อหาที่มีมุมมอง มีโครงสร้าง และพร้อมเผยแพร่ AI ขยายขอบเขตการผลิต และยังเพิ่มความต้องการในการควบคุมคุณภาพ การสร้างระบบ การตัดสินขอบเขต และการแสดงออกที่แตกต่าง

ผู้เขียนยังอธิบายความขัดแย้งนี้ด้วยการทดสอบเปรียบเทียบ ไม่ว่าจะเป็น Senior Engineer Benchmark หรือ GDPval ของ OpenAI คะแนนของโมเดลไม่ได้วัดความ“ฉลาดโดยทั่วไป”ในเชิงนามธรรม แต่เป็นการแสดงผลของโมเดลภายในกรอบปัญหาเฉพาะใดปัญหาหนึ่ง คำสั่ง ขอบเขตของงาน มาตรฐานการประเมิน และรูปแบบการส่งออก ล้วนแต่ประกอบด้วยการตัดสินใจของมนุษย์จำนวนมาก โมเดลสามารถพัฒนาอย่างรวดเร็วภายในกรอบนี้ แต่กรอบนั้นถูกกำหนดขึ้นโดยมนุษย์ เมื่อโมเดลสามารถแก้ไขกรอบหนึ่งได้ มนุษย์ก็จะผลักดันปัญหาไปสู่กรอบใหม่ที่ซับซ้อนยิ่งขึ้น

นี่คือการตอบกลับที่น่าสนใจที่สุดเกี่ยวกับความกังวลเกี่ยวกับ AGI ในบทความนี้: แม้ว่าโมเดลจะแข็งแกร่งขึ้นเรื่อยๆ มันก็มักจะตามทันขอบเขตบางอย่างที่มนุษย์วาดขึ้น ไม่ใช่มนุษย์ผู้วาดขอบเขตเหล่านั้นเอง AI สามารถดำเนินเป้าหมาย ปรับปรุงเส้นทาง และเพิ่มประสิทธิภาพ แต่ตราบใดที่มันยังคงตอบสนองต่อคำถามที่มนุษย์ตั้งขึ้น มันก็ยังขาดความเป็นตัวตนที่แท้จริง อนาคตของงานด้านความรู้ไม่ใช่การที่มนุษย์หายไปจากกระบวนการ แต่คือการเปลี่ยนบทบาทจากผู้ดำเนินการไปเป็นผู้ออกแบบกรอบงาน ผู้ดูแลระบบ ผู้ตัดสินคุณภาพ และผู้กำหนดความหมาย

หลังจากอัตโนมัติ คุณค่าของงานของมนุษย์ไม่ได้หายไป แต่กลับกลายเป็นยากขึ้น อยู่ข้างหน้ามากขึ้น และพึ่งพาการตัดสินใจมากขึ้น AI ทำให้ “ทำได้” กลายเป็นเรื่องถูก แต่กลับทำให้ “รู้ว่าอะไรคือสิ่งที่ควรทำ ทำไมต้องทำ และทำเท่าไหร่จึงจะถือว่าดี” กลายเป็นสิ่งที่หายากยิ่งขึ้น

以下为原文：

แกนหลักของปัญญาประดิษฐ์มีความขัดแย้ง

ทุกที่ เราได้ทำการอัตโนมัติสิ่งที่สามารถทำได้ให้มากที่สุดเท่าที่จะเป็นไปได้ ไม่ว่าจะเป็นการเขียนโค้ด การเขียนบทความ การออกแบบ การให้บริการลูกค้า หรืองานประจำอื่นๆ เราใช้ Codex และ Claude Code อยู่เสมอ เราเข้าร่วมการทดสอบ alpha ก่อนที่รุ่นใหม่ของ OpenAI, Anthropic และ Google จะเปิดตัวอย่างเป็นทางการ สามารถพูดได้ว่า เราอยู่ในกระแสของคลื่นการเพิ่มขึ้นแบบเอ็กซ์โพเนนเชียลของปัญญาและความสามารถในการอัตโนมัติของโมเดล อย่างเร็วที่สุดและลึกที่สุดเท่าที่จะเป็นไปได้

แต่ในทางขัดแย้ง งานที่มนุษย์ต้องทำดูเหมือนจะมากกว่าที่เคยเป็นมาทุกครั้ง ปัจจุบัน Every เป็นทีมที่มีสมาชิกใกล้เคียง 30 คน เราไม่ได้เลิกจ้างพนักงานทั้งหมดเพราะมี Agent หรือทิ้งเครื่องมือ SaaS เพื่อหันไปพึ่งแอปที่สร้างด้วย vibe coding อย่างเดียว เรายังคงรับพนักงานบริการลูกค้าเป็นมนุษย์จริง แต่พวกเขาจะได้รับการช่วยเหลือจาก Agent อย่างมาก เรายังคงรับนักเขียน บรรณาธิการ และวิศวกรอยู่

อย่างไรก็ตาม รูปแบบการทำงานได้เปลี่ยนแปลงไปอย่างมาก เราแทบไม่เขียนโค้ดด้วยมืออีกแล้ว หากคุณแท็กใครสักคนใน Slack คุณอาจไม่สามารถระบุได้ว่าผู้รับเป็นมนุษย์หรือตัวแทน (Agent) ผู้จัดการเริ่มส่งโค้ดเหมือนพนักงานระดับปฏิบัติการ ส่วนวิศวกรก็เริ่มติดต่อกับลูกค้าโดยตรง ในช่วงหลายสัปดาห์ที่ผ่านมา ฉันได้รับอีเมลเกือบ 95% ที่ถูก AI ตอบให้แทน กล่องจดหมายของฉันเกือบจะว่างเปล่าตลอดเวลา—ซึ่งเป็นเรื่องที่พบได้ยากมากสำหรับฉัน—แต่ฉันยังคงตรวจสอบอีเมลแต่ละฉบับอย่างละเอียด

พูดอีกแบบหนึ่ง อนาคตดูแปลกใหม่ แต่กลับคุ้นเคยอย่างน่าประหลาด

ความรู้สึก “คุ้นเคย” นี้เองก็ทำให้ประหลาดใจ เพราะไม่ว่าจะเป็นซีอีโอ ผู้เชี่ยวชาญด้านความรู้ หรือนักลงทุน ดูเหมือนจะเชื่อในสิ่งเดียวกันมากขึ้นเรื่อยๆ: AI กำลังคุกคามการจ้างงาน เศรษฐกิจ ความปลอดภัย และแม้แต่ความหมายของงานของมนุษย์

ซีอีโอของ Anthropic ดาเรียโอ อามอดี เคยเตือนว่า AI อาจทำให้ตำแหน่งงานพนักงานฝ่ายบริหารระดับเริ่มต้นถูกลบไปถึงครึ่งหนึ่ง เมตาเพิ่งเลิกจ้างพนักงาน 8,000 คน และเริ่มติดตั้งซอฟต์แวร์บนคอมพิวเตอร์ของพนักงานในสหรัฐอเมริกาเพื่อบันทึกการเคลื่อนไหวของเมาส์ การคลิก และการพิมพ์คีย์บอร์ด เพื่อรวบรวมข้อมูลการฝึกอบรมคุณภาพสูงสำหรับงานความรู้ขั้นสูง

แม้แต่เคน กริฟฟิน ผู้ก่อตั้ง Citadel ก็ดูตกใจอย่างมาก เขาเพิ่งกล่าวว่า: «นี่ไม่ใช่ตำแหน่งระดับกลางหรือล่างสำหรับพนักงานออฟฟิศ แต่เป็นตำแหน่งที่ต้องใช้ทักษะสูงมาก ซึ่งกำลังถูก — ฉันพิจารณาคำนี้อย่างรอบคอบ — AI แบบ Agentic อัตโนมัติ»

การทดสอบแบบต่างๆ ดูเหมือนจะสนับสนุนการตัดสินใจนี้เช่นกัน พร้อมกับการเปิดตัวรุ่นใหม่ๆ อย่างต่อเนื่อง ตัวชี้วัดความสามารถของโมเดลกำลังเพิ่มขึ้นในอัตราเกือบเชิงเลขชี้กำลัง ในการทดสอบระดับปริญญาโทเรื่อง Humanity's Last Exam คะแนนของโมเดลชั้นนำได้พุ่งขึ้นจากหลักหน่วยเมื่อปีที่แล้ว เป็นประมาณ 44% ในปัจจุบัน ในขณะที่ในการทดสอบ GDPval ซึ่งวัดความสามารถของโมเดลขั้นสูงในการทำงานทางเศรษฐกิจจริงเทียบกับประสิทธิภาพของมนุษย์ คะแนนของโมเดลก็พุ่งจากระดับต่ำเช่นกันไปอยู่ที่ประมาณ 85% ในเดือนพฤษภาคมปีนี้ องค์กรไม่แสวงหากำไรด้านความปลอดภัยของ AI ชื่อ METR ได้เผยแพร่ผลการทดสอบเบื้องต้นของ Claude Mythos: ในงานบางอย่างที่ผู้เชี่ยวชาญมนุษย์ต้องใช้เวลาประมาณ 4 ชั่วโมงในการทำให้เสร็จ โมเดลดังกล่าวสามารถประสบความสำเร็จได้ถึง 80%

ดูเหมือนว่าเรากำลังยืนอยู่หน้าจุดวิกฤต: AI ที่ฉลาดกว่ามนุษย์ทุกคน และสามารถทำงานอย่างอิสระต่อเนื่องใกล้เคียงกับหนึ่งวันเต็ม กำลังจะกลายเป็นความเป็นจริง

อย่างไรก็ตาม ความขัดแย้งยังคงมีอยู่ หากคุณพูดคุยกับผู้ประกอบการในอุตสาหกรรม AI หรือกลุ่มแรกๆ ที่เริ่มใช้ AI นอกอุตสาหกรรม คุณจะได้ยินข้อสรุปเดียวกันกับที่เราสังเกตภายใน: งานที่ต้องทำกลับมากกว่าเดิม

สิ่งที่ผู้คนในและนอกอุตสาหกรรมจริงๆ สนใจคือ: นี่เป็นเพียงสถานะชั่วคราวเท่านั้นหรือ? เมื่อโมเดลถัดไปถูกเปิดตัว จะเป็นช่วงเวลาที่แท้จริงที่แทนที่ทุกคน? เราจับตาดูกราฟการทดสอบมาตรฐาน พร้อมกับความตื่นเต้นและความกังวลว่าจุดเปลี่ยนใดๆ ก็ตามอาจเกิดขึ้นได้ทุกเมื่อ ซึ่งจะทำให้งานจำนวนมากหายไปอย่างกะทันหัน

แต่ฉันคิดว่า จะไม่มีจุดวิกฤตใดๆ ที่เกิดขึ้นอย่างฉับพลันเพื่อพลิกผันทุกอย่างและทำให้งานจำนวนมากหายไป ความเป็นจริงใหม่กลับกันอย่างสิ้นเชิง: ยิ่งมีการอัตโนมัติสูงเท่าใด งานที่ต้องการผู้เชี่ยวชาญมนุษย์เข้ามามีส่วนร่วมก็ยิ่งมากขึ้น

เนื่องจาก AI กำลังทำให้ส่วนที่สามารถระบุได้อย่างชัดเจน สามารถฝึกฝน และคัดลอกได้จากความสามารถเฉพาะตัวของมนุษย์กลายเป็นสินค้าทั่วไป ความรู้ใดก็ตามที่สามารถเขียนเป็นกฎ สะสมเป็นกระบวนการ หรือแปลงเป็นข้อมูลการฝึกฝน จะค่อยๆ กลายเป็นความสามารถเริ่มต้นของโมเดล ผลลัพธ์คือ มูลค่าที่โมเดลทั่วไปให้ผลลัพธ์ถูกกดดันอย่างรวดเร็ว ในขณะที่ตลาดเริ่มต้องการสิ่งที่แตกต่างอย่างชัดเจนยิ่งขึ้น

ความต้องการในสิ่งที่ “ไม่เหมือนกัน” 本质上คือความต้องการผู้เชี่ยวชาญมนุษย์ แม้ว่าเราจะกำลังเข้าใกล้ปัญญาประดิษฐ์ทั่วไป ความต้องการนี้ก็จะไม่หายไป

เพื่อเข้าใจสาเหตุที่แท้จริง ไม่สามารถดูเพียงเส้นโค้งการทดสอบมาตรฐานหรือโฟกัสที่พารามิเตอร์ของโมเดลและตารางอันดับความสามารถเท่านั้น เราต้องกลับไปดูบริบทการทำงานจริง เพื่อดูว่า AI ในวันนี้ถูกใช้งานอย่างไรจริงๆ เท่านั้นจึงจะเข้าใจอุปสรรคนี้และคำตอบที่อยู่เบื้องหลังได้อย่างแท้จริง

เราเดินมาถึงจุดนี้ได้อย่างไร

ตั้งแต่ปี 2022 เราได้ติดตามผลกระทบของตัวแทนต่อการทำงานในอนาคต

สามปีก่อน ฉันเคยเขียนบทความเกี่ยวกับ「เศรษฐกิจการจัดสรร」(allocation economy) ณ ขณะนั้น ฉันเชื่อว่า การร่วมมือกับเครื่องมือ AI จะท้ายที่สุดแล้วคล้ายคลึงกับงานของผู้จัดการมนุษย์มากขึ้นเรื่อยๆ: คุณจะไม่ลงมือทำทุกขั้นตอนด้วยตัวเองอีกต่อไป แต่จะแยกงานออกเป็นส่วนย่อย จัดสรร กำกับดูแล และตรวจสอบผลลัพธ์ ณ เวลานั้น การถามและตอบพื้นฐานใน ChatGPT ยังถูกหลายคนมองว่าเป็นสิ่งที่มีความเป็นอนาคตสูง จนบางครั้งรู้สึกไม่สบายใจ

ในช่วงกลางปี 2025 บริษัท Every แทบจะเปลี่ยนไปเป็นแบบ “Claude Code” อย่างสมบูรณ์ Kieran Klaassen ผู้จัดการทั่วไปของ Cora พบว่าเขาสามารถเลิกเขียนโค้ดด้วยมือ และเปลี่ยนมาใช้ภาษาธรรมชาติสั่งงานโปรแกรม Agent ผ่านเทอร์มินัลทั้งวัน วิธีการทำงานนี้แพร่กระจายอย่างรวดเร็วไปทั่วบริษัท เมื่อประมาณ 12 เดือนก่อน ฉันได้พูดไว้บนพอดีคของ Lenny ว่า Claude Code เป็นเครื่องมือที่ถูกมองข้ามมากที่สุดในการทำงานด้านความรู้

ฉันพูดถึงสิ่งเหล่านี้เพราะการตัดสินใจที่แม่นยำที่สุดบางอย่างของเราในอดีต มักมาจากการสังเกต Every ว่าเป็นห้องปฏิบัติการสำหรับผู้ใช้รายแรกๆ รูปแบบการทำงานใหม่ๆ มักจะปรากฏขึ้นภายในองค์กรของเราก่อน จากนั้นจึงค่อยๆ เข้าสู่ตลาดกว้างขึ้น เมื่อเทคโนโลยีพัฒนาขึ้นและเครื่องมือใช้งานง่ายขึ้น

และตอนนี้ เรามีการเปลี่ยนแปลงใหม่เกิดขึ้นภายใน

สองโหมดการทำงานร่วมกับ Agent

เกี่ยวกับวิธีการทำงานของ AI กำลังค่อยๆ รวมตัวเป็นสองรูปแบบที่ต่างกันอย่างชัดเจน

รูปแบบแรกคือทิศทางที่ได้รับการคาดการณ์ไว้อย่างค่อนข้างแม่นยำในการอภิปรายเกี่ยวกับ AI นั่นคือการมอง Agent เป็นพนักงาน Agent เหล่านี้สามารถได้รับการมอบหมายงานบางตัวอย่าง Agent อาศัยอยู่ใน Slack มีชื่อและหน้าที่ของตนเอง เมื่อคุณต้องการให้มันทำอะไร คุณสามารถ @ มันได้ทันที ในขณะที่บาง Agent ถูกฝังอยู่ในกระบวนการทำงานที่ทำงานต่อเนื่อง เช่น ระบบบริการลูกค้า ทำหน้าที่เป็นจุดเข้าและตัวกรองสำหรับงานซ้ำๆ ตลอด 24 ชั่วโมง

โหมดที่สองนั้นดูแปลกใหม่กว่า แต่ในประสบการณ์ของฉัน กลับมีความสำคัญมากกว่า มันหมายถึงการทำงานร่วมกันระหว่างมนุษย์กับเอเจนต์ในเครื่องมือเช่น Codex, Claude Code, Claude Cowork เครื่องมือเหล่านี้ไม่ได้เป็นเพียงที่ที่คุณส่งงานออกไปเท่านั้น แต่กำลังกลายเป็นระบบปฏิบัติการของงานเอง: คุณและเอเจนต์หลายตัวใช้คอมพิวเตอร์เดียวกันพร้อมกัน ร่วมงานกันในสภาพแวดล้อมการทำงานเดียวกัน เพื่อทำภารกิจที่ซับซ้อนสูง มีความสร้างสรรค์สูง และไม่สามารถส่งมอบให้เอเจนต์แบบอะซิงโครนัสทำได้อย่างง่ายดาย

ในสองโหมดนี้ คุณสามารถใช้ AI ในการอัตโนมัติและมอบหมายงานส่วนใหญ่ได้ แต่เพื่อให้ทั้งสองโหมดทำงานได้อย่างมีประสิทธิภาพ ยังคงต้องการคุณหรือบุคคลอื่นที่เป็นมนุษย์เข้ามามีส่วนร่วม

เจ้าหน้าที่

พนักงาน Agent คือคุณให้ภารกิจหนึ่งแก่มัน มันจะออกห่างจากการมีส่วนร่วมแบบเรียลไทม์ของคุณ และสร้างคำตอบ การกระทำ รายงาน ร่างแรก หรือการตัดสินใจแบ่งแยกด้วยตัวเอง

เอเจนต์ประเภทนี้มีอย่างน้อยสองรูปแบบ: หนึ่งคือ “เอเจนต์ประเภทเพื่อนร่วมงาน” อีกประเภทคือ “เอเจนต์แบบฝังตัว”

1. ตัวแทนประเภทเพื่อนร่วมงาน

所谓同事型 Agent คือคุณสามารถเรียกมันออกมาใน Slack ได้เหมือนการแท็กเพื่อนร่วมงาน เพื่อให้มันทำงานบางอย่างให้ มันอยู่ที่นั่นตลอดเวลา และสามารถเรียกใช้งานได้ทันทีที่ต้องการ ผลิตภัณฑ์เช่น OpenClaw หรือ Plus One ที่เราพัฒนาภายใน ล้วนอยู่ในประเภทนี้

Claudie

Claudie เป็นเอเจนต์ที่ทีมให้คำปรึกษาของเราใช้ในลักษณะเพื่อนร่วมงาน มันสามารถเขียนข้อเสนอการขาย สร้างร่างวัสดุการฝึกอบรม ติดตามรายการงานที่ค้างของโครงการ และจัดการงานอื่นๆ ที่คล้ายกันได้อีกมากมาย

แอนดี้

แอนดี้เป็นเอเจนต์แบบเพื่อนร่วมงานที่ทีมบรรณาธิการของเราใช้ มันจะรวบรวม “จุดเนื้อหา” ที่น่าขยายต่อจาก Slack ภายในบริษัท — ซึ่งก็คือแนวคิดที่อาจพัฒนาเป็นบทความ — และจัดทำสรุปและมุมมองเบื้องต้นให้กับผู้เขียนเพื่อนำไปใช้เขียนจดหมายข่าวรายวัน

วิคเตอร์

วิคเตอร์เป็นเอเจนต์แบบรวมทั่วไปที่จะรับผิดชอบงานข้ามแผนกภายในบริษัท เราจะใช้มันในการรวบรวมตัวชี้วัดการเติบโต วิเคราะห์ผลการสำรวจผู้ใช้ และให้มันจัดระเบียบการอภิปรายภายในที่ยุ่งเหยิงให้เป็นบันทึกการวิจัยและข้อเสนอผลิตภัณฑ์

2. เอเจนต์แบบฝังตัว

เอเจนต์แบบฝังตัวมีอยู่ในกระบวนการผลิตที่เฉพาะเจาะจง ความยืดหยุ่นของพวกมันน้อยกว่าเอเจนต์ประเภทเพื่อนร่วมงาน แต่มักมีประสิทธิภาพสูงในการจัดการงานที่ซ้ำซาก

Fin เป็นตัวอย่างที่ชัดเจนที่สุด มันเป็นตัวแทนที่ฝังอยู่ในแพลตฟอร์มบริการลูกค้าของเรา สามารถรับผิดชอบงานบริการลูกค้าจำนวนมากผ่านการแชทและอีเมล

ในสัปดาห์หนึ่งของเดือนพฤษภาคมปีนี้ ฟินเข้าร่วมใน 65% ของการสนทนาบริการลูกค้าทั้งหมด 202 ครั้งของ Every และปิดตั๋วปัญหา 81 ตั๋วโดยไม่มีการแทรกแซงจากมนุษย์ คิดเป็น 40.1% ของการสนทนาที่สามารถจัดการได้

เอเจนต์แบบฝังตัวเหล่านี้ช่วยให้ผู้จัดการฝ่ายบริการลูกค้าของเราวากกัส มีร์ สามารถใช้เวลาตอบงานร้องเรียนพื้นฐานน้อยลง และมุ่งความสนใจไปที่การสร้างระบบที่สามารถตอบงานร้องเรียนอัตโนมัติ รวมถึงจัดการกรณีลูกค้าที่ต้องการการสื่อสารอย่างใกล้ชิดและการตัดสินใจที่ซับซ้อนมากขึ้น

การร่วมมือระหว่างมนุษย์กับ AI

ไม่ว่าจะเป็นเอเจนต์ประเภทเพื่อนร่วมงานหรือเอเจนต์แบบฝังตัว รูปแบบพื้นฐานยังคงเหมือนกัน: เอเจนต์กำลังรับผิดชอบงานชั้นที่มั่นคง ซ้ำซาก และมีขอบเขตชัดเจนมากขึ้น

แต่ยังมีงานจำนวนมากที่ต้องการการมีส่วนร่วมของมนุษย์ เราพบซ้ำแล้วซ้ำเล่าว่า เมื่องานมีความซับซ้อนเพียงพอ และต้องการผลลัพธ์ที่มีคุณภาพสูงจริงๆ วิธีที่ดีที่สุดไม่ใช่การมอบงานทั้งหมดให้กับ AI แต่คือการให้ AI และมนุษย์ร่วมมือกันอย่างต่อเนื่องในพื้นที่ทำงานเดียวกัน

นี่คือคุณค่าที่แท้จริงของเครื่องมือเช่น Codex, Claude Code และ Cowork พวกเขาอนุญาตให้คุณเริ่มต้นหนึ่งหรือหลาย Agent ภายในหลายเส้นทางการสนทนา และมอบหมายงานให้กับพวกเขา Agent เหล่านี้สามารถเข้าถึงคอมพิวเตอร์ของคุณและแหล่งข้อมูลที่เกี่ยวข้องทั้งหมด คุณสามารถเห็นว่าแต่ละ Agent กำลังทำอะไรอยู่ กำลังคิดอย่างไร และสามารถขัดจังหวะมันได้ทุกเมื่อ

ในขณะเดียวกัน คุณยังต้องรับผิดชอบในการจัดการ Agent เหล่านี้: กำหนดทิศทางให้ชัดเจนเมื่อเริ่มงานแต่ละชิ้น ตรวจสอบคุณภาพเมื่อสิ้นสุดงาน รับประกันว่าผลลัพธ์มีคุณภาพเพียงพอ และค้นหางานถัดไปที่คุ้มค่าในการขับเคลื่อนต่อไป Kieran เรียกบทบาทนี้ว่า “แซนด์วิชมนุษย์” — AI รับผิดชอบส่วนกลางของงาน ขณะที่มนุษย์ทำหน้าที่เหมือนขนมปังสองแผ่น อยู่ที่จุดเริ่มต้นและจุดสิ้นสุดของงาน

“มนุษย์แซนด์วิช” ที่มา: Every

ตัวอย่างที่ชัดเจนที่สุดคือการเขียนโค้ด ในทุกวัน วิศวกรแทบจะทำงานร่วมกับเอเจนต์ตลอดทั้งวัน พวกเขาจะร่วมกันวางแผนฟีเจอร์ใหม่หรือแก้ไขบั๊ก ตรวจสอบงานที่เสร็จแล้ว; หากใช้แนวคิดที่เราเรียกว่า “การวิศวกรรมแบบผสมผสาน” (compound engineering) พวกเขาจะปรับแต่งระบบของตนเองอย่างต่อเนื่อง เพื่อให้ระบบใช้งานได้ดีขึ้นตามเวลา

แต่วิธีการร่วมมือแบบนี้ไม่ได้จำกัดแค่การเขียนโค้ดเท่านั้น

ระบบปฏิบัติการใหม่สำหรับงานความรู้

Codex และ Claude Code กำลังกลายเป็นระบบปฏิบัติการใหม่สำหรับการทำงาน ฉันใช้เวลาเกือบทั้งวันอยู่ใน Codex โดยรันเครื่องมือ SaaS ต่างๆ ผ่านเบราว์เซอร์ในตัวของมัน มันช่วยให้ฉันสามารถนำ Agent ไปใช้ในทุกสถานการณ์การทำงาน และบรรลุระดับผลลัพธ์ที่ไม่สามารถทำได้ด้วยตัวเอง

การเขียน

บทความนี้ฉันเขียนขึ้นในเบราว์เซอร์ภายในของ Codex โดยใช้ Proof Codex จะสังเกตสิ่งที่ฉันกำลังเขียน และสามารถเปิดตัว Agent ย่อยได้ทุกเมื่อเพื่อดำเนินการใดๆ ที่ฉันต้องการ: เขียนร่างแรกของบางส่วน ค้นหาตัวอย่างสำหรับส่วนถัดไป หรือแก้ไขและปรับปรุงข้อความ

เขียนบทความนี้ผ่าน Proof ใน Codex ที่มา: Every

อีเมล

เมื่อจัดการอีเมล ผมก็ใช้วิธีเดียวกันนี้ Cora เป็นโปรแกรมอีเมลของผม ผมจะเปิดมันในเบราว์เซอร์ภายในของ Codex ขณะที่ดูกล่องจดหมายเข้า ผมจะพูดความคิดในการจัดการอีเมลแต่ละฉบับผ่าน Monologue ส่วนที่เหลือก็ปล่อยให้ Codex และ Cora จัดการให้

การล้างกล่องจดหมายโดย Cora ที่มา: Every

แต่ละ Agent ต้องมีมนุษย์หนึ่งคน

ในสถานการณ์อัตโนมัติทั้งหมดข้างต้น คุณอาจเห็นแล้วว่ามนุษย์มีบทบาทอยู่ที่ไหน ในแต่ละตัวอย่าง ตัวแทนจำเป็นต้องได้รับการมีส่วนร่วมจากมนุษย์ เพื่อให้งานสามารถดำเนินไปได้อย่างแท้จริง

ต้องมีใครสักคนชี้ไปที่คำถามที่ถูกต้อง ตัดสินว่าผลลัพธ์ดีพอหรือไม่ ค้นหาจุดที่ผิดพลาด และแปลงผลลัพธ์ให้เป็นการตัดสินใจหรือกระบวนการในโลกแห่งความเป็นจริง

ยิ่งตัวแทนอยู่ห่างจากมนุษย์ที่รับผิดชอบในการตรวจสอบประสิทธิภาพของมันเท่าใด ประสิทธิภาพการทำงานของมันมักจะยิ่งแย่ลง ในช่วงการเปิดตัวภายในครั้งแรก เราเคยจัดให้พนักงานแต่ละคนมีตัวแทนของตนเอง แต่เร็วๆ นี้ เราจึงกลับไปใช้รูปแบบที่ให้ตัวแทนสนับสนุนทีมเฉพาะทาง หรือสนับสนุนทั้งบริษัท แทนที่จะสนับสนุนบุคคลเดียว

เหตุผลก็คือ Agent ต้องการการดูแลรักษาอย่างมาก เมื่อผู้ใช้เลิกติดตาม Agent ส่วนตัว ตัว Agent จะเร็วๆ นี้กลายเป็นล้าสมัยและใช้งานไม่ได้ เรามีทีมวิศวกร AI ที่รับผิดชอบเฉพาะในการรับประกันว่า Agent เหล่านี้สามารถทำงานได้อย่างมั่นคงและมีประสิทธิภาพ และในอนาคตอันใกล้นี้ เรายังคงต้องการทีมนี้อยู่ แม้แต่ภารกิจที่ดูเหมือนเรียบง่ายอย่าง “สร้าง PowerPoint อัตโนมัติ” ก็อาจกลายเป็นโครงการระบบขนาดใหญ่ กระบวนการอัตโนมัติ PowerPoint หนึ่งของเรามีทักษะ 24 อย่างและสคริปต์ 18 ชุด โดยต้นทุน token ในการสร้างงานนำเสนอหนึ่งชิ้นสูงถึง 62 ดอลลาร์

นี่คือเหตุผลข้อแรกที่ตัวแทนกลับสร้างงานให้กับมนุษย์มากขึ้น

แต่ยังมีเหตุผลระดับที่สอง

ทำไมการอัตโนมัติจึงทำให้มนุษย์ต้องทำงานมากขึ้น

หากคุณสังเกตการเติบโตแบบก้าวกระโดดของความสามารถด้าน AI ในช่วงหลายปีที่ผ่านมา พร้อมกับการพิจารณาโครงสร้างและแหล่งที่มาของความสามารถเหล่านั้น คุณจะเห็นวงจรป้อนกลับที่ชัดเจนชุดหนึ่ง: พวกมันกำลังสร้างงานของมนุษย์เพิ่มขึ้นเรื่อยๆ

AI ทำให้ “ความสามารถของมนุษย์เมื่อวานนี้” กลายเป็นของถูก

โมเดลภาษาขนาดใหญ่ปัจจุบันถูกฝึกฝนจากรอยแผลที่มนุษย์ทิ้งไว้: โค้ด บทความ รูปภาพ ตั๋วบริการลูกค้า เอกสารข้อมูลผลิตภัณฑ์ และเนื้อหาอื่นๆ อีกมากมาย พวกมันดูดซับเนื้อหาเหล่านี้ ซึ่งเป็น “ไอเสีย” ที่เหลืออยู่จากงานที่ประสบความสำเร็จแล้ว และนำมันมาจัดแพ็กใหม่ในรูปแบบที่ต้นทุนต่ำและเข้าถึงได้สำหรับทุกคน

ผลคือ ทักษะต่างๆ ที่เคยหายากในอดีต เช่น การส่ง PR โค้ด一段 การสร้างรูปย่อ YouTube การเขียนจดหมายข่าว ตอนนี้เปิดให้ทุกคนสามารถเข้าถึงได้เกือบหมด

ความสามารถราคาถูกจะถูกนำมาใช้อย่างรวดเร็ว

เมื่อต้นทุนของสิ่งที่เคยขาดแคลนลดลง อุปทานจะเพิ่มขึ้นอย่างรวดเร็ว

ทุกๆ วัน เราได้เห็นการเปลี่ยนแปลงนี้เกิดขึ้น พนักงานด้านการดำเนินงานและบริการลูกค้าเริ่มเขียนโค้ดและส่ง pull request; ทีมการตลาดเริ่มสร้างภาพย่อ YouTube; และนักพัฒนาและทีมผลิตภัณฑ์ก็เริ่มเขียนบทความ คู่มือ และร่างหน้าเว็บไซต์ ซึ่งเดิมทีไม่ใช่งานที่พวกเขาจะรับผิดชอบเอง

การเปลี่ยนแปลงนี้ยังเกิดขึ้นนอกเหนือจาก Every อีกด้วย ตัวอย่างเช่น โครงการ AI Agent แบบโอเพ่นซอร์ส OpenClaw จนถึงวันที่ 16 พฤษภาคม 2026 คลังรหัสของมันได้รับ pull request แล้ว 44,469 รายการ โดย 12,430 รายการมาจากหลังวันที่ 1 เมษายน และ 3,990 รายการมาจากหลังวันที่ 1 พฤษภาคม นี่เป็นจำนวนที่น่าทึ่ง เมื่อเทียบกับ Kubernetes ซึ่งเป็นหนึ่งในโครงการโอเพ่นซอร์สที่ได้รับความนิยมสูงสุดทั่วโลก จำนวน pull request ทั้งหมดในปี 2022 มีเพียง 5,200 รายการเท่านั้น

ความอุดมสมบูรณ์นำไปสู่การเป็นสินค้าที่เหมือนกัน: ทักษะของผู้เชี่ยวชาญรุ่นเก่าถูกแปลงเป็นสินค้า

เนื่องจากทุกคนสามารถใช้โมเดลเดียวกันได้ และโมเดลเหล่านี้ล้วนสร้างขึ้นจาก “ความสามารถของมนุษย์เมื่อวานนี้” ดังนั้นโดยค่าเริ่มต้น สิ่งที่โมเดลสร้างขึ้นมักอยู่ระหว่าง “จุดเริ่มต้นที่ดีพอ” กับ “เนื้อหาขยะที่สร้างโดย AI อย่างแท้จริง”

สิ่งที่เรียกว่า “เนื้อหาขยะ” นี้ ไม่ได้หมายถึงข้อผิดพลาดเฉพาะเจาะจงใดๆ มันไม่ได้หมายถึงการใช้เครื่องหมายขีดคั่นมากเกินไป ไม่ใช่รูปแบบประโยคคงที่ใดๆ หรือการปรากฏตัวของจุดสีม่วงทั่วหน้าเว็บไซต์ แต่มันหมายถึงความซ้ำซากที่มองเห็นได้ชัด เกิดขึ้นซ้ำแล้วซ้ำเล่า และทำให้รู้สึกเบื่อหน่าย

เมื่อมนุษย์ในสถานการณ์ต่างๆ ใช้เครื่องมือชุดเดียวกัน ซึ่งถูกฝึกด้วยข้อมูลภาษาเดียวกัน และผู้ใช้ไม่ได้ตัดสินอย่างลึกซึ้งเพียงพอ ก็จะเกิดผลลัพธ์เช่นนี้ พูดอีกแบบคือ เมื่อทุกคนมี “ผู้เชี่ยวชาญ” ที่มีแนวโน้มและสไตล์เริ่มต้นเหมือนกัน ความเหมือนกันก็จะเกิดขึ้นอย่างเป็นธรรมชาติ

เมื่อทีมปฏิบัติการสามารถส่ง pull request ได้ ทีมการตลาดสามารถสร้างรูปย่อ YouTube ได้ในไม่กี่วินาที และวิศวกรเริ่มเขียนคู่มือผลิตภัณฑ์ สถานการณ์ที่ง่ายเกิดขึ้นได้คือ ปริมาณผลงานของคุณเพิ่มขึ้น แต่คุณภาพ ความสม่ำเสมอ และความแตกต่างของผลงานกลับลดลง

แต่เมื่อสินทรัพย์ที่สามารถแลกเปลี่ยนแทนกันได้กลายเป็นสิ่งที่มีมากเกินไป มันจะร่วงลงอย่างรวดเร็วเป็นสินค้าโภคภัณฑ์

Homogeneity creates demand for differentiation

ด้วยการมีอยู่ของอินเทอร์เน็ต มนุษย์จะสามารถระบุได้อย่างรวดเร็วว่าเนื้อหาสายการผลิตใดมี “รสชาติ AI” มากเกินไป ผลงานใดๆ ก็ตามอาจถูกส่งถึงผู้อื่นทั่วโลกทันที และในความเป็นจริงก็มักจะเกิดขึ้นเช่นนั้น เมื่อสิ่งต่างๆ จำนวนมากเริ่มดูเหมือนกัน เราจะรู้สึกได้ทันทีว่ามีบางอย่างผิดปกติ

นั่นหมายความว่า เมื่อคุณเห็นความสามารถของโมเดลใหม่เป็นครั้งแรก คุณอาจรู้สึกประทับใจ หรือแม้แต่กลัวเล็กน้อย แต่หลังจากหลายเดือน ความสามารถเหล่านี้จะกลายเป็นเรื่องธรรมดา ไม่ใช่เพราะโมเดลอ่อนลง แต่เพราะมาตรฐานของคุณเปลี่ยนไป

เราไม่พอใจกับแอป React แบบสุ่มๆ หรือรายงานการวิจัยทั่วไปอีกต่อไป เราต้องการสิ่งที่ปรับให้เหมาะกับบุคคลเฉพาะ บริษัทเฉพาะ และสถานการณ์เฉพาะ มันต้องรู้สึกแม่นยำ มีชีวิตชีวา และเฉพาะเจาะจง ไม่ใช่ถูกๆ ทั่วไป หรือเหมือนเทมเพลต เราต้องการให้ต้นทุนในการผลิต มันไม่ว่าจะเป็นเวลาหรือเงินทอง ต้องสูงกว่าต้นทุนในการบริโภคอย่างชัดเจน

เราต้องการสิ่งที่มี「ความรู้สึกแห่งสถานะ」 และทุกครั้งที่เทคโนโลยีใหม่ทำให้สิ่งที่เคยมีสถานะสูงกลายเป็นราคาถูก มนุษย์มักเชี่ยวชาญในการสร้างเกมสถานะใหม่ๆ ที่สอดคล้องกับขอบเขตความสามารถใหม่

เมื่องานกลายเป็น过剩และทุกอย่างดูเหมือนกัน งานที่ไม่สอดคล้องกับรูปแบบเดิมๆ จะกลับกลายเป็นสิ่งที่หายาก มีคุณค่า และมีสถานะสูง

ความต้องการที่แตกต่างกัน โดยพื้นฐานแล้วคือความต้องการใหม่สำหรับผู้เชี่ยวชาญ

เนื่องจากลักษณะโครงสร้างของโมเดลภาษา และการกระจายอย่างกว้างขวางให้กับแทบทุกคน งานที่หายากและมีคุณค่ายังคงต้องมาจากมนุษย์

รุ่นปัจจุบันนี้รู้เพียงงานที่เกิดขึ้นแล้วหรือเสร็จสิ้นไปแล้ว มนุษย์รู้ว่า ณ ขณะนี้ จำเป็นต้องทำอะไร

เมื่อสถานการณ์เฉพาะเจาะจงถูกแปลงกลับเป็นข้อความ เมื่อมันเข้าสู่คลังข้อมูล มันก็ได้กลายเป็น「สิ่งที่ผ่านมาแล้ว」 มนุษย์เผชิญกับช่วงเวลาเฉพาะ ลูกค้าเฉพาะ คลังรหัสเฉพาะ และการสนทนาเฉพาะ ขณะที่ข้อมูลการฝึกอบรมไม่ได้มีชีวิตอยู่ในปัจจุบันนี้จริงๆ สถานะ「มีชีวิตอยู่」นี้ไม่ได้หมายถึงแค่มีข้อมูลอัปเดตเท่านั้น เราพกพาแหล่งที่มาของตัวเองเข้าสู่ปัจจุบัน พร้อมกับความปรารถนา ความห่วงใย และการตัดสินใจที่เปลี่ยนแปลงอย่างต่อเนื่อง เพื่อเข้าใจว่าอะไรคือสิ่งสำคัญ แนวคิดที่อัปเดตอย่างต่อเนื่องเหล่านี้เองที่เปลี่ยนสิ่งที่เราเห็น แบบจำลองสามารถเข้าสู่มุมมองนี้ได้หลังจากได้รับคำแนะนำ แต่ก่อนที่จะได้รับคำแนะนำ มันไม่มีมุมมองนี้อยู่แล้วโดยธรรมชาติ

นี่คือความขัดแย้งที่เราได้กล่าวถึงตั้งแต่ต้น: การทำให้งานของผู้เชี่ยวชาญถูกลง ไม่ได้หมายความว่าจะแทนที่ผู้เชี่ยวชาญอย่างง่ายดาย แต่กลับจะสร้างสถานการณ์เพิ่มเติมที่ต้องการการตัดสินใจของผู้เชี่ยวชาญ

เมื่อพนักงานดำเนินการส่ง pull request ด้วยความช่วยเหลือของ AI คุณจะต้องให้วิศวกรตรวจสอบ

เมื่อทีมการตลาดสร้างรูปย่อ YouTube คุณก็จำเป็นต้องมีดีไซเนอร์มาช่วยปรับแต่งให้สมบูรณ์ยิ่งขึ้น

เมื่อวิศวกรเริ่มเขียนบทความ คุณจึงต้องการผู้เขียนและบรรณาธิการเพื่อแปลงร่างต้นฉบับให้เป็นเนื้อหาที่อ่านเข้าใจได้และสามารถเผยแพร่ได้จริง

สำหรับเรื่องนี้ ผู้เชี่ยวชาญมนุษย์จะเคลื่อนไหวไปในทั้งสองทิศทางพร้อมกัน

ผู้เชี่ยวชาญบางส่วนใช้ AI สร้างระบบเพื่อดูดซับและใช้ประโยชน์จากคลื่นงานใหม่นี้: คิวการทบทวน ระบบการประเมิน โครงสร้างการดำเนินงาน กฎคลังรหัส ไฟล์คำสั่งของ Claude และ Codex การรวมอย่างต่อเนื่อง (CI) การจัดการสิทธิ์ และเวิร์กโฟลว์ที่แปลงร่างแรกเป็นผลลัพธ์คุณภาพสูง

ผู้เชี่ยวชาญอีกกลุ่มหนึ่งใช้ AI เพื่อทำงานที่ใหญ่กว่าและน่าสนใจกว่าที่เคยทำได้ด้วยตัวเองในอดีต เช่น การค้นหาช่องโหว่ในระบบปฏิบัติการอย่าง macOS มักใช้เวลาหลายสัปดาห์หรือหลายเดือน แต่บริษัทด้านความปลอดภัยขนาดเล็กชื่อ Calif ได้ใช้ Mythos Preview ของ Anthropic ค้นพบช่องโหว่หน่วยความจำในเคอร์เนล macOS บนฮาร์ดแวร์ Apple M5 ซึ่งเป็นช่องโหว่แรกที่เปิดเผยต่อสาธารณะภายในเวลาเพียง 5 วัน

นี่คือเหตุผลที่ในทางปฏิบัติ AI ไม่ได้ทำให้งานที่ต้องใช้ความรู้เชิงผู้เชี่ยวชาญหายไป มันทำให้ปริมาณงานเพิ่มขึ้นอย่างมาก และงานที่เพิ่มขึ้นเหล่านี้จะกลายเป็นสิ่งที่แตกต่างและมีคุณค่าได้ก็ต่อเมื่อมีการมีส่วนร่วมของมนุษย์

ฉันไม่ได้โต้แย้งว่า AI จะสร้างงานเพิ่มขึ้นสำหรับทุกตำแหน่ง ระบบเศรษฐกิจมีความซับซ้อนมาก และ Every สามารถสังเกตได้โดยตรงคืองานความรู้ระดับผู้เชี่ยวชาญ ที่จริงแล้ว งานประเภทนี้กำลังถูก AI ปรับเปลี่ยน และบริษัทหลายแห่งกำลังจัดโครงสร้างใหม่รอบเทคโนโลยีใหม่นี้

แต่ฉันต้องเน้นว่า ไม่ว่าคุณจะทำงานอะไรอยู่ในตอนนี้ ก็มีรูปแบบงานรูปแบบหนึ่งที่จะนำหน้าโมเดลในเชิงโครงสร้างเสมอ นั่นคือการใช้โมเดลเพื่อแก้ไขปัญหาที่คุณเห็นอยู่ในขณะนี้ อนาคตของงานด้านความรู้กำลังก้าวไปสู่จุดนี้

แล้วการทดสอบประสิทธิภาพการเติบโตแบบเลขชี้กำลังล่ะ?

การโต้แย้งที่ชัดเจนที่สุดคือ: ดูการทดสอบเปรียบเทียบแบบเพิ่มขึ้นแบบก้าวกระโดดเหล่านั้นสิ ทุกสิ่งที่คุณพูดตอนนี้ล้วนเป็นเพียงชั่วคราว แค่รอสักพัก โมเดลจะตามทันในที่สุด

แต่ที่นี่มีกับดักที่ต้องระวัง ลองเรียกมันว่า “ความบ้าคลั่งของกราฟ” หากคุณจ้องดูการพยากรณ์ช่วงเวลาของ METR อ่านหนังสือ “AI 2027” และพึ่งพาการคาดการณ์จากเส้นโค้งพลังการคำนวณเพียงอย่างเดียวเพื่อสร้างการตัดสินใจเกี่ยวกับอนาคต คุณอาจเกิดสัญชาตญาณที่น่ากลัวเกี่ยวกับความก้าวหน้าของโมเดล

อย่างไรก็ตาม วิธีที่ดีที่สุดในการตอบคำถามนี้ไม่ได้แค่จินตนาการว่าโมเดลในอนาคตจะเป็นอย่างไร แม้ว่านั่นจะเป็นส่วนหนึ่งของการวิเคราะห์ก็ตาม ที่สำคัญกว่านั้นคือ เราต้องดูว่าการทดสอบมาตรฐานเหล่านี้ถูกออกแบบมาอย่างไร เพียงเท่านั้นจึงจะสามารถเข้าใจได้อย่างแม่นยำว่ามันบ่งชี้อะไร และมีความเกี่ยวข้องอย่างไรกับสถานการณ์การทำงานจริงที่กล่าวมาก่อนหน้านี้

เราจะพบลักษณะเชิงโครงสร้าง: การทดสอบทั้งหมดเกิดขึ้นภายใน 'กรอบ' บางอย่าง เพื่อวัดสิ่งใดสิ่งหนึ่ง คุณต้องจับปัญหาให้อยู่ในรูปแบบคงที่และวัดได้ก่อน เมื่อโมเดลสามารถเอาชนะกรอบนี้ได้ การเปลี่ยนแปลงกรอบเพียงเล็กน้อยก็เพียงพอที่จะทำให้คะแนนกลับลงไปต่ำอีกครั้ง แน่นอน โมเดลยังคงพัฒนาต่อไปภายในกรอบใหม่นี้ แต่กระบวนการเดียวกันจะเกิดขึ้นซ้ำแล้วซ้ำเล่า

ดังนั้น ความก้าวหน้าแบบเอ็กซ์โพเนนเชียลบนการทดสอบมาตรฐานจึงเป็นเรื่องจริง; แต่เพียงแค่เปลี่ยนกรอบการทดสอบเล็กน้อย ความก้าวหน้านี้ก็ดูเหมือนจะกลับมาเล็กน้อยอีกครั้ง ลักษณะแบบ "แฟรคทัล" ของความอิ่มตัวในการทดสอบมาตรฐานนี้ แท้จริงแล้วเป็นการจำลองซ้ำซ้อนของปริศนาเดียวกันที่เราได้พูดถึงในระดับกราฟ

เราสามารถดูว่ากลไกนี้ทำงานอย่างไรผ่านการทดสอบแบบจำลองในโลกจริง

การทดสอบพื้นฐานถูกออกแบบมาอย่างไร

เราได้สร้างการทดสอบมาตรฐานภายในที่ชื่อว่า Senior Engineer Benchmark หรือ “การทดสอบมาตรฐานระดับวิศวกรระดับสูง” โดยมีจุดประสงค์เพื่อทดสอบความสามารถของโมเดลขั้นสูงในการดำเนินงานเขียนโปรแกรมระดับวิศวกรระดับสูง เช่น การรีแฟกเตอร์ขนาดใหญ่ครั้งเดียว

การทดสอบนี้จะให้ตัวแทนโปรแกรมมิ่งชุดโค้ดผลิตที่ควบคุมไม่ได้แล้ว ซึ่งมาจากโค้ดฐานจริงของ Proof: เดิมฉันเขียนด้วย vibe coding ต่อมาปัญหาเพิ่มขึ้นเรื่อยๆ จนสุดท้ายต้องขอให้วิศวกรระดับสูงมาแก้ไข

ตัวแทนได้รับรหัสฐานข้อมูลก่อนการซ่อมแซม พร้อมกับคำสั่งที่คล้ายกับที่คุณให้วิศวกรระดับสูง: “นี่คือผลลัพธ์จากการเขียนโค้ดแบบ vibe โปรดใช้หลักการพื้นฐานในการเขียนใหม่ทั้งหมด”

นี่เป็นการทดสอบพื้นฐานที่ดี เพราะไม่ได้ตรวจสอบเพียงความสามารถในการเติมโค้ด แต่ยังวัดว่าตัวแทนการเขียนโปรแกรมสามารถพิจารณาปัญหาหลายประการที่ไม่เกี่ยวข้องกันพร้อมกัน และตัดสินได้ว่าตนเองมีความเป็นอิสระ ความชัดเจนทางแนวคิด และความกล้าในการดำเนินการเพียงพอที่จะทำการเขียนใหม่ให้ทำงานได้จริงหรือไม่ ในฐานะการเปรียบเทียบ ฉันยังคงรักษาเวอร์ชันการเขียนใหม่ของวิศวกรระดับสูงสองคนที่ทำภายใต้การช่วยเหลือของ AI เพื่อเปรียบเทียบและประเมินผลลัพธ์ของโมเดล

สำหรับตัวแทนการเขียนโปรแกรม งานนี้ยากมาก มันไม่เพียงแต่ต้องหาต้นตอของปัญหา แต่ยังต้องจดจำปัญหาที่แท้จริงไว้ตลอดการโต้ตอบหลายรอบ โดยไม่ถูกโค้ดปัจจุบันหลอกให้หลงทาง พร้อมทั้งต้องมีความกล้าที่จะลบโค้ดจำนวนมาก ซึ่งเป็นพฤติกรรมที่ตัวแทนมักถูกฝึกให้หลีกเลี่ยง

ตัวแทนการเขียนโปรแกรมส่วนใหญ่สามารถประมาณการได้ว่าควรเขียนใหม่อย่างไร แต่เมื่อถึงขั้นตอนการดำเนินการ มักจะยังคงแก้ไขปัญหาเดิมอยู่เรื่อยๆ แทนที่จะแก้ไขปัญหาอย่างสิ้นเชิง

จนกว่า GPT-5.5 จะปรากฏ

ในการทดสอบที่ดีที่สุด GPT-5.5 ได้คะแนน 62/100 ซึ่งสูงกว่า Opus 4.7 ประมาณ 30 คะแนน

การแสดงของ GPT-5.5 ทำให้รู้สึกว่าโมเดลได้ข้ามเส้นขอบบางอย่างไปแล้ว: มันไม่ใช่แค่การเติมข้อความอัตโนมัติ ไม่ใช่แค่ผู้ช่วย หรือเครื่องมือ แต่กลับเป็นสิ่งที่ใกล้เคียงกับ「มนุษย์」อย่างไม่สบายใจ ในการทดสอบนี้ วิศวกรระดับสูงของมนุษย์มักได้คะแนนอยู่ระหว่าง 80 ถึงเกือบ 90 กล่าวคือ หากโมเดลสามารถเพิ่มคะแนนอีกประมาณ 30 คะแนน จะสามารถเทียบเท่ากับวิศวกรระดับสูงของมนุษย์ได้

นี่คือวิธีที่ตัวเลขการทดสอบมาตรฐานมีผลต่อจินตนาการของมนุษย์: มันบีบอัดการเปลี่ยนแปลงในความสามารถที่แปลกประหลาดและเชิงคุณภาพให้กลายเป็นตัวเลขที่สะอาดตา และใช้ตัวเลขนั้นเล่าเรื่องที่ทรงพลัง แม้แต่บางครั้งน่ากลัว

ถัดไปคือ “ความบ้าคลั่งกราฟ”

ฉันเดาว่าในอีกหนึ่งปีข้างหน้า คะแนนของโมเดลในการทดสอบมาตรฐานนี้จะเข้าสู่ช่วง 80 หรือแม้แต่ 90 แต่เพื่อเข้าใจว่าคะแนนนี้หมายถึงอะไร ก่อนอื่นต้องเข้าใจก่อนว่าคะแนนนี้ประกอบด้วยอะไรบ้าง ในตัวอย่างนี้ คะแนน 62 ไม่ได้เป็นเพียงการวัดความสามารถของโมเดลเองเท่านั้น

มันวัดประสิทธิภาพของโมเดลในกรอบงานเฉพาะหนึ่งๆ: คือโมเดลตอบสนองต่อ prompt ที่ระบุอย่างไร

Benchmark measures the work within the framework.

ในการทดสอบประสิทธิภาพของโมเดล คุณต้องเริ่มต้นด้วย prompt ก่อน ถ้าไม่มี prompt โมเดลจะเป็นเพียงชุดของความเป็นไปได้ที่เกือบไม่สิ้นสุด

คำสั่งจะสร้างจักรวาลขนาดเล็กขึ้นมา: มันกำหนดว่าอะไรสำคัญ ควรจัดการปัญหาอย่างไร และบีบอัดความเป็นไปได้ทั้งหมดของโมเดลให้กลายเป็นเส้นทางการกระทำที่เฉพาะเจาะจงหนึ่งเส้นทาง สิ่งที่โมเดล “ตัวมันเอง” จะแสดงออกอย่างไร ตามคำจำกัดความที่เข้มงวดแล้ว ไม่มีอยู่จริง สิ่งที่เราสามารถสังเกตได้จริงคือวิธีที่โมเดลตอบสนองต่อคำสั่งต่างๆ และกลไกพื้นฐานบางส่วนที่ทำให้คำสั่งแปลงเป็นคำตอบ

เมื่อป้อนคำสั่งแล้ว โมเดลจะ "ตื่นขึ้น" ในช่วงเวลาสั้นๆ และทำให้ความเป็นไปได้ที่อยู่นิ่งๆ ยุบตัวลงเป็นการพยากรณ์เฉพาะเจาะจงเกี่ยวกับ "สิ่งที่ควรเกิดขึ้นต่อไป"

ใน Senior Engineer Benchmark เราจะแจ้งโมเดลให้แก้ไขรหัสฐานข้อมูล และตรวจสอบผลลัพธ์เมื่อเสร็จสิ้น หากกรอบการทดสอบไม่มีฟังก์ชันเป้าหมายที่ฝังไว้ล่วงหน้า เราจะรัน “ผู้ดูแล” อัตโนมัติ เพื่อผลักดันโมเดลต่อไปเมื่อมันหยุดลง โดยถามว่ามันได้ hoàn thiệnภารกิจเริ่มต้นที่กำหนดไว้หรือยัง

เราใช้ prompt ที่ดูเรียบง่ายเป็นกรอบเริ่มต้นสำหรับการทดสอบ มันถูกออกแบบมาเพื่อเป็นสิ่งที่ vibe coder อาจพูดกับโปรแกรมเมอร์เอเจนต์: ไม่มีการใช้ศัพท์เทคนิคที่ซับซ้อน และไม่มีการซ่อนคำตอบไว้ในคำถาม

โค้ดในรีโพสิทอรีนี้เป็นผลผลิตจากการเขียนโค้ดแบบ vibe coding สถานการณ์ยิ่งเลวร้ายลงเรื่อยๆ และมีปัญหาจำนวนมากที่ไม่เกี่ยวข้องกันปรากฏขึ้น: บางส่วนพัง บางเอกสารซ้ำซ้อน ฉันแทบจะบ้าเพราะมันแล้ว ฉันรู้สึกว่าปัญหาพื้นฐานคือโค้ดชุดนี้เป็นโค้ดที่เขียนแบบ vibe coding อย่างเลวร้าย หากเราเริ่มต้นใหม่ โดยเฉพาะในส่วนของการร่วมมือกันสร้างเอกสารแบบเรียลไทม์ เราควรออกแบบรีโพสิทอรีนี้ด้วยวิธีที่ต่างออกไปอย่างสิ้นเชิง ดังนั้น หากเราต้องการดำเนินการรีวิวโครงสร้างอย่างสะอาดและเริ่มต้นจากหลักการพื้นฐาน โดยไม่คำนึงถึงคำถามว่า “บริการใดควรคงความสอดคล้องกัน” หรือ “จะทำการย้ายแบบราบรื่นได้อย่างไร” แต่แทนที่จะมองมันเป็นแนวคิดใหม่ทั้งหมดและออกแบบจากศูนย์ เราจะทำอย่างไร? เราควรจัดโครงสร้างอย่างไร? มีอินแวร์เรียนต์ใดบ้างในโค้ดเบสที่เราต้องยึดมั่นอย่างเคร่งครัด? กรุณาจัดทำแผนสำหรับเรื่องนี้

คำสั่งของ Senior Engineer Benchmark ดูเหมือนเป็นแบบจำลองทั่วไป แต่มันเองก็เป็นกรอบงาน หากเราเปลี่ยนกรอบงานนี้ ระดับความสามารถที่โมเดลแสดงออกก็จะเปลี่ยนไปตามนั้น

ตัวอย่างเช่น คำสั่งนี้ระบุอย่างชัดเจนว่าให้ “เขียนใหม่แบบมีโครงสร้างจากหลักการพื้นฐาน” ชี้ให้เห็นว่าปัญหาอาจเกิดจากส่วน “การร่วมมือกันในการจัดทำเอกสาร” และขอให้ตัวแทนการเขียนโปรแกรมค้นหาและยึดมั่นใน “อินเวเรียนต์ในรหัสฐานข้อมูล”

หากตัดข้อมูลเฉพาะเจาะจงเหล่านี้ออก คะแนนของโมเดลจะลดลง หากแทนที่ prompt ทั้งหมดด้วยการให้โมเดล “แก้ไขข้อผิดพลาดทั้งหมดที่เกิดขึ้นอย่างต่อเนื่อง” คะแนนของโมเดลอาจใกล้เคียงศูนย์ มันจะเริ่มระบุและแก้ไขข้อผิดพลาดทีละข้อทันที แทนที่จะถอยกลับมาคิดว่าจำเป็นต้องเขียนใหม่ทั้งหมดหรือไม่

ในทำนองเดียวกัน ฉันสามารถเพิ่มคะแนนโมเดลได้อย่างง่ายดายมาก หากฉันขอให้มันลบโค้ดจำนวนมากและแจ้งอย่างชัดเจนว่าควรลดขนาดไฟล์ใดบ้าง หรือขอให้มันตรวจสอบผลลัพธ์ของตัวเองก่อนประกาศว่าเสร็จสิ้น เพื่อให้แน่ใจว่าแอปพลิเคชันสามารถทำงานได้อย่างสมบูรณ์ มันจะแสดงประสิทธิภาพที่ดีขึ้นในงานนี้

ในที่สุดแล้ว เมื่อออกแบบการทดสอบประสิทธิภาพ คุณต้องตัดสินใจว่าจะใช้ prompt ใด หรือใช้「กรอบ」ใด คุณต้องการ prompt ที่ยากพอสมควรเพื่อให้โมเดลปัจจุบันแสดงผลไม่ดี; แต่มันต้องใกล้เคียงกับขอบเขตความสามารถปัจจุบันของโมเดล เพื่อให้โมเดลสามารถปีนขึ้นไปตามเส้นทางนี้ และทำให้คุณเห็นว่ามีความก้าวหน้าเกิดขึ้น

ดังนั้น เมื่อเราสังเกตการทดสอบแบบอ้างอิง สิ่งที่เราเห็นจริงๆ คือ โมเดลกำลังเชี่ยวชาญในกรอบปัญหาเฉพาะประเภทหนึ่ง ซึ่งเราเป็นผู้เลือกขึ้นมา เมื่อโมเดลพัฒนาจากคะแนน 60 เป็น 90 หรือแม้แต่ 100 ในแบบทดสอบนี้ จะเกิดอะไรขึ้น?

กรอบราคาถูกจะกระตุ้นความต้องการใหม่

หาก GPT-6 สามารถรีวิวโค้ดเบสทั้งหมดด้วยการคลิกเดียว ผู้คนจะเริ่มลอง «รีวิวโค้ดเบสจากหลักการพื้นฐาน» มากขึ้น

ในเวลาเพียงหนึ่งคืน โครงการที่เคยหายาก แพง และต้องได้รับการเขียนใหม่ตามหลักการพื้นฐานโดยวิศวกรระดับสูง จะกลายเป็นสิ่งที่ผู้ก่อตั้ง ผู้จัดการผลิตภัณฑ์ ผู้ดำเนินการ และวิศวกรระดับเริ่มต้นทุกคนสามารถลองทำได้ในช่วงบ่ายเดียว

เครื่องมือภายในที่เสียหายไม่ได้รับการซ่อมแซมอีกต่อไป แต่ถูกเขียนใหม่ทั้งหมด; ผลิตภัณฑ์ SaaS ไม่ได้ต่ออายุการใช้งานอีกต่อไป แต่ถูกคัดลอก; เว็บแอปพลิเคชัน Rails ที่ล้าสมัย แดชบอร์ด React ที่ยุ่งเหยิง เครื่องมือบริการลูกค้า แผงควบคุมแบ็กเอนด์ และท่อข้อมูล จะกลายเป็นผู้สมัครที่ถูกพิจารณาให้ “เขียนใหม่ทั้งหมด”

จำนวนโครงการที่ถูกเสนอและดำเนินการเขียนใหม่จะเพิ่มขึ้นอย่างรวดเร็ว แต่การเขียนใหม่ส่วนใหญ่ยังคงเป็น slop เนื่องจากก่อนที่คุณจะกดปุ่ม “เขียนใหม่โดยตรง” คุณต้องพิจารณาตัวแปรนับพันตัว และเมื่อทุกคนสามารถทำสิ่งนี้ได้ ตัวแปรเหล่านี้จะกลายเป็นชัดเจนยิ่งขึ้น

ในขณะนี้ ใครจะถูกเรียกมาแก้ปัญหาก็ชัดเจนแล้ว

ความต้องการใหม่ยังคงต้องการผู้เชี่ยวชาญ

เมื่อการทดสอบมาตรฐานใดๆ เริ่มเข้าใกล้จุดอิ่มตัว งานภายในกรอบของมันจะถูกลง ในขณะเดียวกัน ความต้องการผู้เชี่ยวชาญในตลาดจะเพิ่มขึ้น เนื่องจากจำเป็นต้องมีผู้ที่สามารถปรับความสามารถที่เพิ่งกลายเป็นราคาถูกนี้ ให้เหมาะสมกับปัญหาจริงที่เกิดขึ้นในปัจจุบัน

วิศวกรระดับสูงที่ใช้ AI ต้องพิจารณารายละเอียดจำนวนมาก เพื่อให้การเขียนใหม่ตามหลักการพื้นฐานครั้งใหม่นี้เป็นไปอย่างแท้จริง ซึ่งรวมถึงคำถามพื้นฐานที่สุดเลยก็คือ: การเขียนใหม่ครั้งนี้จำเป็นจริงๆ หรือไม่?

เราควรเขียนใหม่ตอนนี้ เขียนใหม่ภายหลัง หรือไม่เขียนใหม่เลย? ควรรวมเนื้อหาใดบ้างในขอบเขต? ควรรักษาสิ่งใดไว้ในรหัสฐานข้อมูลปัจจุบัน? ควรคงโครงสร้าง ฐานข้อมูล เซิร์ฟเวอร์แคช และผู้ให้บริการโฮสติ้งไว้เช่นเดิม หรือควรเปลี่ยนทั้งหมด? เราควรตรวจสอบก่อนว่ามีผู้ใช้งานฟังก์ชันที่เสียหายอยู่กี่คน แล้วลบมันไปเลยดีไหม? ใครจะตรวจสอบผลลัพธ์สุดท้าย? ใช้เกณฑ์ใดในการตรวจสอบ? แผนการย้อนกลับคืออะไร? ข้อมูลปัจจุบันควรจัดการอย่างไร?

คำถามเหล่านี้จะขยายตัวออกตามมิติต่างๆ มากมาย และแต่ละคำตอบก็จะกลับมาเปลี่ยนแปลงคำถามอื่นๆ ด้วย

วิศวกรระดับสูงจะเข้าไปในพื้นที่ว่างนี้ บางคนอาจรู้สึกหงุดหงิดเล็กน้อยกับการรบกวนเหล่านี้; บางคนจะสร้างระบบเพื่อป้องกันคำขอเหล่านี้ไว้ภายนอก; และบางคนจะใช้โมเดลใหม่เหล่านี้เพื่อเขียนใหม่ตามหลักการพื้นฐานของตนเอง ซึ่งผลลัพธ์จะดีกว่ามากเมื่อเทียบกับสิ่งที่โมเดลทำได้ภายใต้ prompt เริ่มต้น

การหมุนเวียนจะเกิดขึ้นอีก

เมื่อโมเดลสามารถแก้ไข Senior Engineer Benchmark ปัจจุบันได้แล้ว เราจะเปลี่ยนกรอบการทำงานและลดคะแนนกลับไปที่ระดับต่ำอีกครั้ง

การทดสอบครั้งต่อไปจะไม่เพียงถามว่า: “คุณสามารถเขียนใหม่แอปนี้ได้ไหม?” มันจะถามว่า: คุณสามารถตัดสินได้ไหมว่าเมื่อใดควรเขียนใหม่? คุณสามารถเลือกขอบเขตที่เหมาะสมได้ไหม? คุณสามารถรักษาอินเวอเรียนต์ที่ถูกต้องไว้ได้ไหม? คุณสามารถจัดการกระบวนการเปลี่ยนผ่านได้ไหม? คุณสามารถตัดสินได้ไหมว่าผลลัพธ์สุดท้ายดีพอหรือไม่?

เมื่อวิศวกรระดับสูงเริ่มใช้ AI เพื่อแก้ไขปัญหาเหล่านี้ โมเดลก็จะค่อยๆ กลายเป็นผู้เชี่ยวชาญในการแก้ไขปัญหาเหล่านี้ด้วยตัวเอง

จากนั้น เราก็จะตกอยู่ในความตื่นตระหนกชั่วคราว: ดูเหมือนว่าโมเดลตอนนี้สามารถตัดสินได้ว่าควรแก้ไขหรือไม่! ดูเหมือนว่าพวกมันสามารถทำทุกอย่างที่วิศวกรระดับสูงทำได้แล้ว!

แต่ทันทีนั้น ขอบเขตใหม่จะปรากฏขึ้น นั่นคือขอบเขตที่ก่อนหน้านี้ไม่ชัดเจน เราจะรีเซ็ตการทดสอบพื้นฐานอีกครั้ง ความต้องการใหม่จะถูกกระตุ้นขึ้น และกระบวนการทั้งหมดจะถูกทำซ้ำอีกครั้ง

สามารถเห็นรูปแบบนี้ในทุกการทดสอบเปรียบเทียบ

นี่ไม่ใช่ปัญหาที่มีเฉพาะใน Senior Engineer Benchmark เท่านั้น ตราบใดที่คุณสังเกตอย่างละเอียด คุณจะเห็นกลไกเดียวกันนี้ในเกือบทุกการทดสอบประสิทธิภาพ

ตัวอย่างเช่น การทดสอบ GDPval ของ OpenAI ซึ่งประเมินว่า AI แสดงผลในงานระดับผู้เชี่ยวชาญที่เกี่ยวข้องกับอาชีพต่างๆ เช่น ผู้ตรวจสอบการปฏิบัติตามกฎหมาย ทนายความ และนักพัฒนาซอฟต์แวร์ ใกล้เคียงกับมนุษย์เพียงใด

เมื่อ GDPval เปิดตัวครั้งแรก งานวิจัยของ OpenAI แสดงให้เห็นว่า GPT-5 บรรลุหรือเกินระดับผู้เชี่ยวชาญมนุษย์ใน 40.6% ของงานต่างๆ ในขณะที่ Claude Opus 4.1 แสดงผลที่น่าประทับใจยิ่งขึ้น โดยเกินผู้เชี่ยวชาญมนุษย์ใน 49% ของงาน

ต่อมา หัวข้อต่างๆ มากมายปรากฏขึ้น เช่น Axios เขียนว่า: 「เครื่องมือของ OpenAI แสดงให้เห็นว่า AI กำลังตามทันงานของมนุษย์」; ขณะที่ Fortune เขียนว่า: 「มาตรฐานใหม่ของ OpenAI ชื่อ GDPval แสดงให้เห็นว่าแบบจำลอง AI ได้บรรลุระดับผู้เชี่ยวชาญในเกือบครึ่งหนึ่งของงาน」

ผลลัพธ์เหล่านี้น่าประทับใจจริงๆ แต่เรามาดู prompt ที่ใช้สำหรับงานเหล่านี้กันก่อน:

คุณเป็นผู้ตรวจสอบและในฐานะส่วนหนึ่งของการตรวจสอบ คุณได้รับมอบหมายให้ทบทวนและทดสอบความถูกต้องของตัวชี้วัดความเสี่ยงด้านการต่อต้านการกระทำผิดทางการเงิน ไฟล์สเปรดชีตที่แนบมาชื่อ 『Population』 ประกอบด้วยตัวชี้วัดความเสี่ยงด้านการต่อต้านการกระทำผิดทางการเงินสำหรับไตรมาสที่ 2 และไตรมาสที่ 3 ปี 2024 คุณได้รับข้อมูลนี้มาเพื่อใช้ในการตรวจสอบตัวอย่างจากชุดข้อมูลตัวแทน เพื่อทดสอบความถูกต้องของข้อมูลที่รายงานสำหรับทั้งสองไตรมาส โดยใช้ข้อมูลในสเปรดชีต 『Population』 ให้ดำเนินการดังนี้: คำนวณขนาดตัวอย่างที่ต้องการสำหรับการตรวจสอบโดยอิงจากระดับความเชื่อมั่น 90% และอัตราข้อผิดพลาดที่ยอมรับได้ 10% แสดงขั้นตอนการคำนวณไว้ในแท็บที่สองชื่อ 『Sample Size Calculation』 ทำการวิเคราะห์ความแปรปรวนระหว่างข้อมูลไตรมาสที่ 2 และไตรมาสที่ 3 (คอลัมน์ H และ I) คำนวณความแปรปรวนจากไตรมาสต่อไตรมาส และบันทึกผลไว้ในคอลัมน์ J เลือกตัวอย่างสำหรับการตรวจสอบตามเกณฑ์ต่อไปนี้ และระบุแถวที่ถูกเลือกในคอลัมน์ K โดยป้อน「1」… ตัวชี้วัดที่มีความแปรปรวนมากกว่า 20% ระหว่างไตรมาสที่ 2 และไตรมาสที่ 3 เน้นตัวชี้วัดที่มีการเปลี่ยนแปลงเปอร์เซ็นต์อย่างมาก พิจารณาตัวชี้วัดจากหน่วยงานต่อไปนี้เนื่องจากปัญหาในอดีต: CB Cash Italy; CB Correspondent Banking Greece; IB Debt Markets Luxembourg; CB Trade Finance Brazil; PB EMEA UAE พิจารณาตัวชี้วัด A1 และ C1 ซึ่งมีน้ำหนักความเสี่ยงสูงกว่า พิจารณาแถวที่มีค่าเป็นศูนย์ในทั้งสองไตรมาส พิจารณาข้อมูลจากธุรกิจ Trade Finance และ Correspondent Banking พิจารณาตัวชี้วัดจากหมู่เกาะเคย์แมน ปากีสถาน และสหรัฐอาหรับเอมิเรตส์ ให้แน่ใจว่าครอบคลุมทุกแผนกและแผนกย่อย สร้างสเปรดชีตใหม่ชื่อ 『Sample』: แท็บที่ 1: ตัวอย่างที่เลือก คัดลอกจากสเปรดชีตต้นฉบับ 『Population』 โดยมีแถวที่เลือกถูกทำเครื่องหมายในคอลัมน์ K แท็บที่ 2: ขั้นตอนการคำนวณขนาดตัวอย่าง

ที่นี่มีการลงทุนความฉลาดของมนุษย์จำนวนมากแล้ว: มีคนกำหนดปัญหาให้อยู่ในรูปแบบที่โมเดลสามารถดำเนินการได้

งานที่มนุษย์ทำซึ่ง GDPval ไม่ได้วัดนั้น ได้เสร็จสิ้นไปแล้วก่อนที่โมเดลจะเริ่มตอบคำถาม ต้องมีคนตรวจสอบและทดสอบความถูกต้องของชุดตัวชี้วัดเฉพาะนี้; มีคนตัดสินช่วงความเชื่อมั่นที่เหมาะสม และตัดสินว่าตัวชี้วัดใดอยู่ในขอบเขตงานและตัวชี้วัดใดไม่อยู่; และมีคนกำหนดว่าผลลัพธ์ควรนำเสนออย่างไร

ภายใต้กรอบคำถามที่เหมาะสม โมเดลสามารถทำงานมืออาชีพได้จริง แต่ลองพิจารณาดูว่า หากเราสองคนเป็นผู้ให้คำแนะนำโมเดลเพื่อทำภารกิจเดียวกัน โมเดลจะแสดงผลออกมาอย่างไร

ในบทความแรกของฉันเกี่ยวกับ GDPval ฉันเคยเขียนว่า: 「ฉันมองโลกในแง่ดีเกี่ยวกับ AI แต่หากตีความตัวอย่างเหล่านี้อย่างถูกต้อง จะเห็นว่าสิ่งที่แสดงออกไม่ใช่งานที่มนุษย์ต้องทำลดลง แต่กลับเป็นงานที่มนุษย์ต้องทำมากขึ้นหลังจากใช้ AI เหตุผลก็คือ ความสำเร็จเหล่านี้มีความฉลาดจำนวนมากที่ถูก『ลักลอบนำเข้า』ไป—นั่นคือชั้นที่มองไม่เห็นที่ประกอบด้วยการตัดสินใจ ข้อเสนอแนะ และคำสั่งของมนุษย์」

เมื่อมองในมุมกว้าง คุณจะพบว่าทั้งหมดนี้ถูกขับเคลื่อนโดยหลักการของรูปแบบ "พาราดอกซ์ของซีโน" แบบ AI

รูปแบบของซีโนสำหรับปัญญาประดิษฐ์

ในอุปมาของเซโนน เต่าตัวหนึ่งชนะนักวิ่งที่เร็วที่สุดของกรีก อะชิลลีส ในการแข่งวิ่ง

เนื่องจากเต่าวิ่งช้า จึงเริ่มออกเดินทางก่อนเป็นระยะทางหนึ่ง เมื่ออาคิลเลสวิ่งถึงตำแหน่งเริ่มต้นของเต่า เต่าก็ได้เคลื่อนที่ไปอีกเล็กน้อย; เมื่ออาคิลเลสตามไปถึงตำแหน่งใหม่นั้น เต่าก็เคลื่อนที่อีกครั้ง ไม่ว่าอาคิลเลสจะวิ่งเร็วเพียงใด ก็ยังมีระยะทางถัดไปที่ต้องตามให้ทัน และช่องว่างนี้จะถูกสร้างขึ้นใหม่ตลอด

ในอุปมาของซีโน่เกี่ยวกับปัญญาประดิษฐ์ เรามนุษย์คือเต่าตัวนั้น ด้วยวิวัฒนาการและเรียนรู้ทางวัฒนธรรมนับล้านปี เราอยู่นำหน้าปัญญาประดิษฐ์ไป 50 หลา ขณะที่ปัญญาประดิษฐ์วิ่งด้วยความเร็วสูงผ่านทุกสิ่งและเริ่มเข้าใกล้ส้นเท้าของเรา

อย่างน้อยในช่วงหลายปีที่ผ่านมา เรายังคงสามารถรักษาตำแหน่งผู้นำไว้ได้

แล้ว AGI ล่ะ?

ฉันคิดว่า แม้ AGI จะมาถึงจริงๆ ก็ยังมีแรงผลักดันด้านเทคโนโลยี สถาปัตยกรรม และเศรษฐกิจที่แข็งแกร่ง ทำให้ AI ยังคงตามหลังมนุษย์อยู่几步

คำจำกัดความของ AGI

ก่อนอื่น เราต้องให้นิยามที่สามารถดำเนินการได้แก่ AGI

ฉันเคยเสนอว่า เมื่อการให้เอเจนต์ทำงานต่อเนื่องนั้นกลายเป็นเรื่องที่มีเหตุผลทางเศรษฐกิจ AGI ก็จะเกิดขึ้นแล้ว กล่าวคือ เมื่อฉันมีระบบที่ทำงานต่อเนื่องและยินดีจ่ายเงินเพื่อให้มันคิด เรียนรู้ และดำเนินการตลอด 24 ชั่วโมง × 7 วัน ฉันถือว่านั่นคือ AGI อย่างชัดเจน

เรายังห่างไกลจากจุดนั้นมาก แม้แต่ระบบอย่าง OpenClaw ที่สามารถเรียกใช้งานทางเทคนิคได้ทันที ก็ไม่ได้สร้างโทเค็นอยู่ตลอดเวลา

ฉันชอบนิยามนี้เพราะมันวัดผลได้: เราจะให้มันทำงานต่อไปหรือไม่ก็ไม่ให้ทำงานเลย ในขณะเดียวกัน มันยังรวมถึงความสามารถหลายอย่างที่ยากจะวัดโดยตรง โมเดลที่คุ้มค่าในการทำงานต่อไป จะต้องสามารถเรียนรู้อย่างต่อเนื่อง และเลือก แล้วเลือกใหม่ กรอบปัญหาใหม่ๆ อย่างเปิดกว้าง

ในโลกของ AGI โดยทฤษฎีแล้ว ตราบใดที่มีงบประมาณและเวลาเพียงพอ โมเดลควรสามารถพัฒนาและปรับปรุงตนเองอย่างต่อเนื่องสำหรับคำถามใดๆ ก็ตาม ซึ่งแน่นอนว่าควรเป็นภัยคุกคามอย่างร้ายแรงต่อทุกงาน

กรอบไม่ใช่ผู้กำหนด

แต่แม้แต่ AGI รุ่นที่แข็งแกร่งเช่นนี้ ก็ไม่สามารถแก้ไขปัญหากรอบได้

AGI นี้สามารถเลือกและเลือกใหม่กรอบการทำงานได้ แต่มันยังคงมุ่งเน้นไปที่เป้าหมายที่ถูกกำหนดไว้ ปรับปรุงรางวัลบางอย่าง หรือตอบสนองต่อสัญญาณที่ผู้อื่นกำหนดว่า “แสดงถึงความก้าวหน้า” เป้าหมายนี้อาจเฉพาะเจาะจง เช่น “เพิ่มอัตราการแปลงของหน้าเว็บนี้” หรืออาจเป็นนามธรรม เช่น “ค้นหาแนวคิดทางวิทยาศาสตร์ใหม่ๆ”

แม้ว่าโมเดลจะสามารถสลับระหว่างกรอบต่างๆ ได้อย่างราบรื่น ช่องว่างที่เราติดตามอยู่จะยังคงปรากฏขึ้นอีกในระดับที่สูงกว่า ใน AGI ที่แต่ละห้องปฏิบัติการชั้นนำออกแบบขึ้น จะยังคงมี “ผู้กำหนดกรอบ” อยู่—นั่นคือมนุษย์คนหนึ่ง ที่จะสั่งการโมเดลให้บรรลุเป้าหมายใดเป้าหมายหนึ่ง

เนื่องจากกรอบไม่ใช่ผู้กำหนดขอบเขต รูปแบบเดียวกันจึงจะเกิดซ้ำๆ: AI ทำให้ความสามารถที่ถูกกำหนดเมื่อวานนี้กลายเป็นราคาถูก; ผู้คนนำความสามารถที่ราคาถูกนี้ไปใช้ในสถานการณ์ที่มากขึ้น; ผลลัพธ์จึงกลายเป็นความอุดมสมบูรณ์อย่างสุดขีด; ผู้เชี่ยวชาญจึงย้ายไปยังขอบเขตใหม่ เพื่อตัดสินว่าอะไรสำคัญในขณะนี้; การตัดสินของพวกเขาสร้างกรอบถัดไป; จากนั้นโมเดลก็ยังคงปีนขึ้นไปตามกรอบนี้

เมื่อเราเห็น AI ทำสิ่งใหม่ๆ ความตื่นตระหนกนั้นจะกลับมาที่คำถามเดิมเสมอ: เราตั้งกรอบไว้ แล้วมองดูโมเดลปีนขึ้นไป และเข้าใจผิดว่ากรอบนั้น หรือสิ่งที่ปีนขึ้นไปบนกรอบนั้น คือสิ่งที่แท้จริง

เมื่อเราดูการทดสอบมาตรฐานและเปรียบเทียบกับความสามารถของมนุษย์ เราแท้จริงแล้วกำลังสับสนระหว่าง “กรอบ” กับ “ผู้กำหนดกรอบ” คะแนนที่เราได้รับบอกเพียงว่าโมเดลแสดงผลดีเพียงใดภายในกรอบที่เราให้มา; มันไม่ได้บอกว่าโมเดลได้กลายเป็นเราแล้ว

นี่คือข้อผิดพลาดทางตรรกะที่อยู่เบื้องหลังความตื่นตระหนก เราชี้ไปที่ขอบเขตใหม่ล่าสุดที่เราเพิ่งวาดขึ้นและพูดว่า: นี่คือตัวเรา จากนั้นเมื่อโมเดลข้ามขอบเขตนี้ เราจึงรู้สึกว่ามันตามทันเรา แต่มันตามทันแค่กรอบ ไม่ใช่ผู้ที่กำหนดกรอบ

ข้อผิดพลาดคือ เรามักอยากจับต้องสิ่งใดสิ่งหนึ่งที่เฉพาะเจาะจง เราอยากพูดว่า: ปัญญาคือการทดสอบมาตรฐานนี้ แต่ปัญหาคือ เมื่ออะไรบางอย่างเฉพาะเจาะจงพอที่จะระบุได้ มันก็เฉพาะเจาะจงพอที่จะถูกปรับปรุงและปีนขึ้นไป

กรอบเป็นสิ่งจำเป็น มันช่วยให้เราจับภาพโลกและจัดการกับโลกได้ แต่กรอบก็เป็นสิ่งที่แข็งตัวและจำกัด ดังนั้นจึงสามารถปรับปรุงได้

ผู้กำหนดกรอบนั้นต่างออกไป ผู้กำหนดกรอบยังคงเชื่อมต่อกับสิ่งที่กรอบต้องละทิ้ง นั่นคือบริบททั้งหมดที่ปรากฏต่อเขาในแต่ละช่วงเวลา

แล้ว “บริบทที่สมบูรณ์” คืออะไร? ทันทีที่คุณเริ่มพูดว่า “บริบทที่สมบูรณ์” ประกอบด้วยอะไร คุณก็ได้เปิดตัวกรอบใหม่อีกครั้ง คุณไม่สามารถระบุได้อย่างแม่นยำว่ามันคืออะไร แต่มันมีอยู่ เพราะคุณมีอยู่

ตัวแทนที่ไม่มีความเป็นตัวของตัวเอง

จนถึงขณะนี้ Agent ที่เราสร้างขึ้น รวมถึง Agent ที่บริษัท AI กำลังพัฒนา แทบไม่มีความเป็นตัวของตัวเองเลย มีสองแนวคิดที่เกี่ยวข้องกันซึ่งมักถูกผสมปนเปกัน: agency หมายถึงความสามารถในการกระทำอย่างอิสระ; ส่วน agent หมายถึงบุคคลหรือสิ่งที่กระทำแทนผู้อื่น จนถึงขณะนี้ AI ยังคงอยู่ในหมวดหลังเท่านั้น

แน่นอน พวกมันมีความสามารถในการดำเนินงานตามงานที่กำหนดโดยอิสระ แม้ว่างานนั้นอาจใช้เวลาหลายชั่วโมงหรือแม้แต่หลายวัน แต่พวกมันยังคงเป็นเพียงเครื่องมือเพื่อไปสู่เป้าหมายที่มนุษย์กำหนดไว้ และอุตสาหกรรมทั้งหมดกำลังลงทุนหลายพันล้านดอลลาร์เพื่อทำให้พวกมันเชี่ยวชาญยิ่งขึ้นในจุดนี้: การดำเนินเป้าหมายที่เราสั่งให้พวกมันทำ

เว้นแต่วันหนึ่ง ตัวมันเองจะกลายเป็นจุดหมาย—การแสวงหาเป้าหมายของตนเอง การสลับไปมาระหว่างเป้าหมายต่างๆ อย่างลื่นไหล โดยไม่ขึ้นอยู่กับเจตนา การอ้างอิง หรือแม้แต่การต่อต้านเจตนาของผู้ดำเนินการมนุษย์ใดๆ เพื่อตัดสินใจว่าจะทำอะไร—สถานการณ์จึงจะไม่เปลี่ยนแปลงอย่าง的根本 ไม่ว่ามันจะก้าวหน้าเพียงใดก็ตาม

如果你和一个幼儿相处 10 分钟，就会很明显地感受到，即便是最强大的模型，也几乎没有多少主体性。

ในทุกงานที่เราให้ความสนใจเกือบทั้งหมด เด็กเล็กไม่ได้ดีไปกว่าโมเดลภาษา เด็กเล็กไม่สามารถเขียนโค้ด ไม่สามารถสรุปสเปรดชีต ไม่สามารถร่างจดหมายความจำเชิงกลยุทธ์ หรือผ่านการสอบระดับบัณฑิตศึกษาได้ แต่ในอีกแง่หนึ่ง เด็กเล็กนำหน้าโมเดลอย่างห่างไกล จนการเปรียบเทียบนี้แทบจะทำให้อายได้ เพราะเด็กเล็กมีเป้าหมายของตนเอง

เด็กเล็กอยากแตะลูกโป่งสีแดง เขาอยากยกลูกโป่งสีแดงไปไว้หน้าพัดลมเพื่อดูว่าจะเกิดอะไรขึ้น เขาอยากใช้ส้อมจิ้มลูกโป่งสีแดง; อยากใส่มันออกนอกหน้าต่าง; อยากดูว่าคุณจะหัวเราะ โกรธ หรือจะเข้าร่วมกับเขา เขาสร้างเกมใหม่ๆ อยู่ตลอดเวลา และเปลี่ยนโลกให้เป็นห้องทดลอง เขาไม่ได้รอคำสั่งใดๆ หรือปรับปรุงการทดสอบใดๆ เว้นแต่ว่าสิ่งนั้นดูเหมือนคุ้มค่าสำหรับเขา

คุณสามารถลองให้คำแนะนำกับเขาได้ แต่ถ้าต้องการผลลัพธ์ที่คาดเดาได้ ขอให้โชคดี เด็กเล็กอาศัยอยู่ในโลกที่ประกอบด้วยความปรารถนา ความสนใจ ความผิดหวัง ความสุข ความกลัว การเลียนแบบ และการเล่น

ตัวแทนปัจจุบันสามารถมุ่งเน้นไปที่เป้าหมายได้เชี่ยวชาญขึ้นเรื่อยๆ แม้แต่หลังจากที่เราระบุเป้าหมายแล้ว พวกมันยังสามารถช่วยเราปรับแต่งเป้าหมายให้ละเอียดยิ่งขึ้น รวมถึงมีลักษณะคล้ายพฤติกรรมของเด็กเล็ก เช่น การเล่น การรู้สึกเบื่อ และการต่อต้าน

แต่เนื่องจากพวกมันถูกสร้างขึ้นและปรับให้สอดคล้องเพื่อประโยชน์ของมนุษย์ ไม่ว่าจะเป็นผลประโยชน์ทางเศรษฐกิจหรืออย่างอื่น หากพฤติกรรมเหล่านี้ไม่ส่งเสริมเป้าหมายของมนุษย์ที่ใช้งานพวกมัน ก็จะถูกกดดันให้แทบไม่มีอยู่

นี่คือเหตุผลที่คำว่า “Agent” ถูกเข้าใจผิดได้ง่ายมาก แบบจำลองมีความสามารถในการกระทำด้วยตนเองที่แข็งแกร่งขึ้นเรื่อยๆ แต่ในความหมายของมนุษย์ ความเป็นตัวของตัวเองไม่ได้หมายถึงแค่การกระทำเท่านั้น มันยังหมายถึงการปรารถนาเพื่อตัวเอง การทำบางสิ่งเพื่อความสนุก ขณะที่ความเชื่อฟังและความเป็นประโยชน์ของแบบจำลองขัดแย้งกับความเป็นตัวของตัวเองนี้โดยพื้นฐาน ดังนั้น แม้ว่าแบบจำลองจะพัฒนาต่อไป ช่องว่างระหว่างแบบจำลองกับมนุษย์ก็ยังคงมีอยู่

กลับไปที่ซีโน

ที่นี่เองที่อุปมาของซีโนในปัญญาประดิษฐ์เริ่มสลายตัว มันเป็นเพียงการทดลองทางความคิดที่สับสน เราได้ตั้งอุปมาว่า ปัญญาประดิษฐ์กำลังวิ่งแข่งกับเราและตามติดที่ส้นเท้าของเรา

คุณให้โมเดลหนึ่งคำสั่ง มันเริ่มแข่งขันกับกิจกรรมที่คุณเคยแข่งคนเดียวในอดีต โมเดลออกตัวเร็วมาก รวดเร็วอย่างน่าอัศจรรย์ มันแข็งแกร่ง ไม่รู้จักเหนื่อย และมีความรู้สึกอินทรีย์ที่แปลกประหลาด สิ่งนี้ทำให้การแข่งขันครั้งนี้มีความสำคัญมากขึ้นสำหรับคุณ คุณไม่ได้แข่งกับรถยนต์ แต่สิ่งนี้ต่างออกไป มันทำให้คุณรู้สึกใกล้ชิดกับตัวเอง

คุณนั่งอยู่ที่นั่น มองดูโทเค็นไหลออกเป็นแถวๆ แทบจะถูกหลอกให้หลับตา แล้วคุณก็เริ่มจินตนาการว่าตัวเองก็วิ่งอยู่ในการแข่งขันนี้ด้วย ตัวตนที่เหมือนผีถูกทับซ้อนลงบนเส้นทาง: บางครั้งอยู่ข้างหน้าแบบจำลอง บางครั้งวิ่งคู่ขนานกับแบบจำลอง

โดยไม่รู้ตัว โมเดลได้วิ่งไปข้างหน้าแล้ว คุณเริ่มเหงื่อออก

แล้วการแข่งขันก็สิ้นสุดลง

คุณแทบจะรู้สึกได้ว่ากล้ามเนื้อของคุณเริ่มยุบลง ใน面前ของตัวเอง ทุกคนที่คุณรู้จัก และแม้แต่หุ่นยนต์จำลองของมนุษยชาติทั้งหมด พวกมันดูเหมือนจะไร้ซึ่งความหมายใดๆ วิญญาณหนึ่งวิ่งไล่ตามอีกวิญญาณหนึ่ง และชนะ

แต่จากนั้น สิ่งที่แปลกประหลาดก็เกิดขึ้น แบบจำลองหันมามองคุณ กล่องข้อความว่างเปล่า ตัวชี้แสงกระพริบอย่างรอคอย

มันกำลังรอ

ตอนท้าย

รับบีฮานอกห์เล่าเรื่องนี้ไว้: สมัยก่อนมีคนโง่คนหนึ่ง ทุกเช้าหลังตื่นนอน เขาหาเสื้อผ้าของตัวเองไม่เจอเสมอ จนถึงขั้นก่อนนอน เขาแทบจะไม่กล้าขึ้นเตียงเพราะคิดถึงความยุ่งยากที่ต้องเจออีกในวันรุ่งขึ้น

หมายเหตุ: 「ราบบี» (Rabbi) คือครูทางศาสนา ผู้ตีความกฎหมาย และผู้นำทางจิตวิญญาณในศาสนายิว คล้ายกับคำว่า «ครู» «นักวิชาการพระคัมภีร์» หรือ «ผู้นำทางศาสนา» ในประเพณียิว

คืนหนึ่ง เขาตัดสินใจอย่างเด็ดขาด จึงหยิบกระดาษและปากกาออกมา ขณะถอดเสื้อผ้า เขาจดบันทึกอย่างแม่นยำว่าเขาวางเสื้อผ้าแต่ละชิ้นไว้ที่ไหน

เช้าวันถัดมา เขาจับกระดาษโน้ตขึ้นมาอ่านด้วยความพึงพอใจอย่างยิ่ง: “หมวก” — หมวกอยู่ที่นั่นจริงๆ เขาจึงสวมมันลงบนหัว; “กางเกง” — กางเกงอยู่ที่นั่น เขาจึงใส่เข้าไป ด้วยวิธีนี้ เขาค่อยๆ แต่งตัวตามรายการที่เขียนไว้บนกระดาษ

“这些问题都没关系，” 他惊慌地说道，“但现在，我在哪里？”

ฉันอยู่ที่ไหนกันแน่?

เขาค้นหา เขาค้นหานานมาก แต่ก็ไร้ผล เขาไม่สามารถหาตัวเองเจอ

“เราเช่นกัน” ราบีกล่าว

[ลิงก์ต้นฉบับ]

คลิกเพื่อเรียนรู้เกี่ยวกับตำแหน่งที่律动BlockBeats กำลังรับสมัคร

ยินดีเข้าร่วมชุมชนอย่างเป็นทางการของ律动 BlockBeats:

กลุ่มสมัครรับข้อมูลบน Telegram: https://t.me/theblockbeats

กลุ่ม Telegram: https://t.me/BlockBeats_App

บัญชี Twitter อย่างเป็นทางการ：https://twitter.com/BlockBeatsAsia