Anthropic รับวิศวกร 1,000 คน ในราคา 280 ดอลลาร์ต่อภารกิจ เพื่อปรับปรุงรหัส Claude

iconMetaEra
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
Anthropic ประกาศโครงการเพื่อปรับปรุง Claude Code โดยจ้างวิศวกร 1,000 คนผ่าน Snorkel AI เพื่อทำการทดสอบ A/B แต่ละงานจ่ายเงิน 280 ดอลลาร์สหรัฐและใช้เวลาหนึ่งชั่วโมง การประกาศโครงการเน้นความพยายามในการปรับปรุงความปลอดภัยและความน่าเชื่อถือของโค้ด การติดตามข้อมูลเงินเฟ้อไม่เกี่ยวข้องโดยตรง แต่ยังคงเป็นตัวชี้วัดสำคัญสำหรับนักลงทุน เป้าหมายคือการปรับปรุงผลลัพธ์ของโมเดลโดยใช้ข้อเสนอแนะจากผู้เชี่ยวชาญ
Anthropic ใช้โครงการ Marlin ในการฝึก Claude Code โดยโครงการดังกล่าวจ้างวิศวกรซอฟต์แวร์ภายนอกประมาณ 1,000 คนผ่านบริษัทข้อมูล Snorkel AI เพื่อให้พวกเขาทำการทดสอบ A/B บนรหัสที่โมเดลสร้างขึ้น ในอัตราค่าตอบแทน 280 ดอลลาร์ต่อภารกิจ

ผู้เขียนบทความ แหล่งที่มา: 新智元

เมื่อเร็วๆ นี้ บทความหนึ่งได้เปิดเผย "เคล็ดลับความก้าวหน้า" ของ Claude Code

Business Insider ระบุว่า Anthropic มีโครงการเฉพาะเพื่อปรับปรุง Claude Code โดยใช้ข้อเสนอแนะจากซอฟต์แวร์เอ็นจิเนียร์ประมาณ 1,000 คน

โครงการนี้อยู่ภายในบริษัทข้อมูล Snorkel AI โดยมีรหัสชื่อว่า «Marlin»

ตั้งแต่เดือนมกราคมปีนี้ โบริส เชนรี หัวหน้าทีม Claude Code ได้เปิดเผยว่าเขาไม่ได้เขียนโค้ดด้วยมือเลยมากกว่าสองเดือนแล้ว โดยหนึ่งวันเขาให้ Claude ส่งคำขอรับรอง (Pull Request) 22 รายการ และวันก่อนหน้านั้นส่งถึง 27 รายการ ทั้งหมดเขียนโดยโมเดล

ยังมีรายงานว่าโค้ดภายในของ Anthropic ส่วนใหญ่ถูกสร้างขึ้นโดย AI

จุดที่น่าสนใจอยู่ที่นี่

ในขณะเดียวกัน วิศวกรหลักของ Anthropic ได้ส่งงานเขียนโค้ดจำนวนมากให้โมเดลจัดการ ขณะที่พวกเขาก็จ่ายเงินจ้างวิศวกรภายนอกประมาณ 1,000 คน เพื่อสอน Claude Code อย่างละเอียดว่า “โค้ดที่ดี” คืออะไร

ซื้ออะไรอยู่ที่ 280 ดอลลาร์ต่อชั่วโมง

ตามที่ Business Insider รายงาน วิศวกรภายนอกที่โครงการ Marlin ว่าจ้างมีพื้นฐานด้านวิศวกรรมซอฟต์แวร์ งานของพวกเขาฟังดูเหมือนการทบทวนโค้ดจริงๆ

ขั้นตอนโดยทั่วไปเป็นดังนี้ ก่อนอื่นเลือก repository หนึ่งจากรายการที่มีหลายพัน repository บน GitHub จากนั้นสร้าง PR ซึ่งเป็นขั้นตอนที่นักพัฒนาส่งการเปลี่ยนแปลงโค้ด และเขียนคำแนะนำเพื่ออธิบายงานให้ชัดเจน

โมเดลจะสร้างรหัสสองชุด และงานถัดไปของวิศวกรภายนอกคือการทดสอบ A/B: เปรียบเทียบผลลัพธ์ทั้งสองชุด เพื่อเลือกชุดที่ดีกว่า

ค่าตอบแทนสำหรับแต่ละงานอยู่ที่ 280 ดอลลาร์สหรัฐ โดยใช้เวลาประมาณหนึ่งชั่วโมง บางงานต้องมีการติดต่อสื่อสารกับทีมตรวจสอบของ Snorkel หลายรอบ

เกณฑ์การประเมินคือการพิจารณาความถูกต้อง ความปลอดภัย ความน่าเชื่อถือ และความสามารถในการดูแลรักษาของรหัสที่ใช้งานในสภาพแวดล้อมผลิต

ยกตัวอย่างจริงสองตัวอย่าง

ในงานหนึ่ง วิศวกรภายนอกขอให้โมเดลรีแฟกเตอร์วิธีการจัดการข้อมูลการดำเนินการ (execution metadata) เพื่อให้โค้ดชัดเจนขึ้นและดูแลรักษาง่ายขึ้น โดยไม่เปลี่ยนฟังก์ชันการทำงาน

ในงานอีกชิ้นหนึ่ง วิศวกรภายนอกได้ดำเนินการแก้ไขความปลอดภัยสำหรับแพลตฟอร์มเครื่องเรียนรู้แบบเปิดแหล่งที่มา MLflow โดยเฉพาะอย่างยิ่งเพื่อจัดการช่องโหว่การฝังคำสั่งที่อาจเกิดขึ้นเมื่อโหลดโมเดลและดาวน์โหลดแพ็กเกจ Python ข้อกำหนดของวัสดุมีความชัดเจน: ต้องป้องกันการฝังคำสั่งโดยไม่กระทบต่อตัวเลือก pip (ตัวจัดการแพ็กเกจ Python) ที่ถูกต้อง

ข้อกำหนดของงานเหล่านี้เกินขอบเขตของการทำป้ายกำกับข้อมูล และดูเหมือนจะต้องการให้วิศวกรผู้เชี่ยวชาญถ่ายทอดการตัดสินใจในหัวของตนว่า “เขียนแบบนี้ดีกว่า” ไปยังโมเดลอย่างตรงไปตรงมา

ชัดเจนว่า Anthropic ไม่ได้ซื้อโค้ด แต่เป็นการตัดสินใจของนักโปรแกรมมิ่งผู้เชี่ยวชาญว่าจะเขียนโค้ดให้ปลอดภัยและสะอาดกว่าเดิมอย่างไร

ทำไมต้องเป็นวิศวกร

ทำไม Anthropic ต้องยุ่งยากขนาดนี้? เพราะ Claude Code ไม่ใช่แค่ช่องแชทสำหรับเขียนโค้ดอีกต่อไป

Anthropic นิยามมันว่าเป็นตัวแทน AI ระดับโปรเจกต์ มันสามารถอ่านโค้ดทั้งหมดในรีพอสิทอรี วางแผนข้ามไฟล์ ดำเนินการแก้ไขโดยตรง รันการทดสอบ และปรับปรุงตนเองตามผลลัพธ์ที่ล้มเหลว

คำจำกัดความของ Claude Code จากเว็บไซต์ของ Anthropic: ตัวแทนอัจฉริยะที่สามารถอ่านคลังรหัส แก้ไขข้ามไฟล์ รันการทดสอบ และส่งมอบรหัสที่ถูกส่งแล้ว

นั่นหมายความว่ามันจะดำเนินการเปลี่ยนไฟล์ รันงาน และเข้าถึงโค้ดทั้งหมด

Anthropic เองก็ตระหนักถึงความสำคัญของเรื่องนี้ จึงได้พูดถึงปัญหาสิทธิ์ของ Claude Code, sandbox และ approval fatigue ซ้ำแล้วซ้ำเล่าในบล็อกด้านวิศวกรรม

โดยค่าเริ่มต้น การเปลี่ยนแปลงไฟล์ที่มีความเสี่ยงสูงหรือการดำเนินการคำสั่งต้องได้รับการอนุมัติจากผู้ใช้; เพื่อลดความเหนื่อยล้าจากการอนุมัติซ้ำๆ Anthropic ยังได้แนะนำการแยกสภาพแวดล้อม (sandboxing) เพื่อให้ Claude Code สามารถทำงานได้อย่างปลอดภัยภายในขอบเขตของระบบไฟล์และเครือข่ายที่กำหนดไว้

เมื่อ AI สามารถรันคำสั่งและแก้ไขโค้ดออนไลน์ได้ ค่าใช้จ่ายจากการผิดพลาดก็เปลี่ยนไปอย่างสิ้นเชิง เป้าหมายการฝึกอบรมจึงเปลี่ยนตาม: จากการ “เขียนให้ถูกต้อง” ขึ้นสู่การ “เขียนให้ปลอดภัย เชื่อถือได้ และดูแลรักษาได้”

สิ่งเหล่านี้ไม่สามารถสร้างขึ้นได้จากข้อมูลโค้ดทั่วไป มันเคยถูกซ่อนอยู่ในการทบทวนโค้ดของวิศวกรผู้เชี่ยวชาญ และเป็นประสบการณ์ที่ถ่ายทอดจากคนสู่คน ตอนนี้ Anthropic ต้องการจ้างผู้เชี่ยวชาญด้านการเขียนโปรแกรมจากมนุษย์ เพื่อเปลี่ยนสิ่งนี้ให้กลายเป็นข้อมูลที่สามารถซื้อได้

Snorkel ผู้ค้าอาวุธข้อมูลที่ถูกมองข้าม

ตัวละครหลักของเรื่องทั้งหมดคือ Snorkel

บริษัทนี้ก่อตั้งขึ้นจาก斯坦福AI Lab ในปี 2019 และมุ่งเน้นไปที่แนวทางเดียวเท่านั้น: ข้อมูลคือปัจจัยที่ตัดสินความสำเร็จหรือความล้มเหลวของ machine learning ไม่ใช่โมเดลหรือกำลังการประมวลผล

ผู้ก่อตั้งสำคัญสองคนของ Snorkel คือ Alex Ratner และอาจารย์ที่ปรึกษาของเขาที่สแตนฟอร์ด Chris Ré ซึ่งพวกเขาบอกว่าเป็นแหล่งทางวิชาการหลักของ Snorkel

อเล็กซ์ รัตเนอร์ ผู้ร่วมก่อตั้งและซีอีโอของ Snorkel AI

ในปี 2015 Snorkel ยังเป็นเพียง “โครงการช่วงบ่าย” ของ Ratner ขณะกำลังศึกษาปริญญาเอก: แทนที่จะจ่ายเงินจำนวนมากจ้างคนมาติดป้ายข้อมูลทีละรายการ ควรใช้โปรแกรมและกฎระเบียบเพื่อทำ “การเรียนรู้แบบมีการควบคุมอ่อน” (weak supervision) เพื่อให้โมเดลสามารถเรียนรู้ได้โดยไม่ต้องพึ่งการติดป้ายข้อมูลด้วยมือทีละรายการ

ด้วยแนวคิดนี้ Snorkel ได้รวบรวมงานวิจัยมากกว่า 60 ชิ้น และเครื่องมือแบบเปิดแหล่งที่มาได้รับการใช้งานโดย Google และ Intel จนกระทั่งถูกแยกออกมาเป็นบริษัทอย่างเป็นทางการในปี 2019

คริส เร ผู้ร่วมก่อตั้ง Snorkel AI และศาสตราจารย์จากสแตนฟอร์ด

คริส เร ผู้เป็นอาจารย์ของรัตเนอร์ ก็เป็นคนที่เก่งไม่แพ้กัน

เขาเป็นศาสตราจารย์จากสแตนฟอร์ด ผู้ได้รับรางวัลแมคอาเธอร์ เจเนียส ผู้ประกอบการต่อเนื่อง ซึ่งมีโครงการที่ถูกแอปเปิลซื้อไป และก่อตั้ง SambaNova ที่มีมูลค่าเคยแตะ 5 พันล้านดอลลาร์สหรัฐ

ที่น่าสนใจที่สุดคือการเปลี่ยนแปลงของบริษัทนี้

Snorkel ต้องการแก้ปัญหาใหญ่ที่สุดประการหนึ่ง นั่นคือ “การติดป้ายข้อมูลด้วยมือช้า แพง และไม่เสถียร” ในเวลานั้น นักพัฒนา AI ใช้เวลาประมาณ 80% ไปกับการติดป้ายข้อมูลด้วยมือ ดังนั้น ความฝันเริ่มต้นของ Snorkel คือการปลดปล่อยมนุษย์ให้พ้นจากงานการติดป้ายข้อมูลให้มากที่สุด

แต่เมื่อเข้าสู่ยุคของโมเดลขั้นสูงสุด ทรัพยากรที่หายากและมีค่าที่สุดกลับกลับมาอยู่ที่มนุษย์อีกครั้ง เพียงแต่เปลี่ยนเป็นรสนิยมและการตัดสินใจของผู้เชี่ยวชาญอย่างปริญญาเอก แพทย์ ทนายความ และวิศวกรผู้มีประสบการณ์สูง บริษัทที่เริ่มต้นด้วยการ “ใช้คนน้อย” กลับมีธุรกิจที่ทำกำไรสูงสุดในตอนนี้ คือการจัดตั้งทีมผู้เชี่ยวชาญราคาแพงเพื่อฝึกฝน AI ขั้นสูงสุด โดย Marlin เป็นเพียงหนึ่งในโครงการเหล่านั้น

Workflow ของมันสอดคล้องกับความต้องการของโครงการ Marlin พอดี

เว็บไซต์ของ Snorkel อธิบายกระบวนการทำงานชุดนี้ว่า: ก่อนกำหนดงาน มาตรฐานการให้คะแนน และตัวตรวจสอบ เพื่อกำหนดว่า “อะไรคือสิ่งที่ดี” จากนั้นจึงดำเนินการกระบวนการรีวิวโดยผู้เชี่ยวชาญ โดยมีผู้เขียน ผู้รีวิวหลายคน และผู้ตัดสินสุดท้ายตรวจสอบทีละขั้นตอน พร้อมบันทึกประวัติทั้งหมด

เว็บไซต์ของ Snorkel แสดงว่า: เมื่อเกิดความไม่เห็นด้วยในการให้คะแนน การตัดสินจะถูกดำเนินการเพื่อแก้ไข และบันทึกการเปลี่ยนแปลงเกณฑ์การให้คะแนน ทุกการเปลี่ยนแปลงสามารถติดตามได้ว่าใคร เมื่อใด และอ้างอิงจากอะไร

มันยังจัดเตรียมสภาพแวดล้อมและข้อมูลการประเมินให้พร้อม ทำให้ภารกิจเดียวกันสามารถรันซ้ำได้บนรุ่นโมเดลต่างๆ เพื่อให้ได้คะแนนที่สามารถทำซ้ำและเปรียบเทียบได้ และเพื่อให้คะแนนสะอาดและเปรียบเทียบได้ ผู้ให้คะแนนต้องไม่ได้รับอิทธิพลจากเวอร์ชันต่างๆ เหตุผลที่วิศวกรภายนอกไม่รู้ว่าพวกเขากำลังประเมินเวอร์ชันใด ก็เพราะเหตุผลนี้

ราคาเองก็บ่งชี้ได้ดีเช่นกัน

Snorkel มีตำแหน่งงานสัญญาด้านกฎหมายที่เปิดรับทั่วไป โดยแต่ละงานคุณภาพสูงจ่ายระหว่าง 10 ถึง 100 ดอลลาร์สหรัฐ ในขณะที่งานวิศวกรรมซอฟต์แวร์ของ Marlin จ่ายงานละ 280 ดอลลาร์สหรัฐ ใช้เวลาประมาณหนึ่งชั่วโมง คิดเป็นค่าจ้างต่อชั่วโมงใกล้เคียงกับสองเท่าครึ่งของค่าจ้างในอุตสาหกรรมเดียวกัน (Scale AI และ Mercor จ่ายนักพัฒนาถึงชั่วโมงละ 110 ดอลลาร์สหรัฐ) ผู้เชี่ยวชาญชั้นนำยังสามารถมีรายได้ต่อสัปดาห์เกิน 3,000 ดอลลาร์สหรัฐ

ข้อเสนอแนะจากวิศวกรภายนอกที่ Snorkel จ้างมีราคาสูงจริงๆ

รายชื่อลูกค้ารวมถึง Google, Mistral, Anthropic ในเดือนพฤษภาคม 2025 Snorkel ระดมทุนรอบ D ด้วยมูลค่า 1.3 พันล้านดอลลาร์สหรัฐ

เคท เจนเซน หัวหน้ารายได้ของ Anthropic กล่าวว่า เพื่อปลดปล่อยศักยภาพของ Claude อย่างเต็มที่ จำเป็นต้องใช้วิธีการประเมินใหม่ที่รวมผู้เชี่ยวชาญด้านสาขาและข้อมูลย้อนกลับจากมนุษย์ โดย Anthropic จะยังคงร่วมมือกับบริษัทเช่น Snorkel

บริษัทต่างๆ เช่น Snorkel, Scale, Mercor ในอดีตถูกมองว่าเป็น “แพลตฟอร์มการติดป้ายกำกับ” แต่ตอนนี้พวกมันกลายเป็นซัพพลายเชนที่ซ่อนอยู่เบื้องหลังบริษัทโมเดลขั้นสูง

เป็นกองทัพผู้เชี่ยวชาญที่มองไม่เห็นและกระจายตัวทั่วโลก ที่ให้ข้อมูลแก่ AI ที่ฉลาดที่สุด

ผู้เล่นรายใหญ่หลายราย

กำลังแย่งข้อมูลชนิดเดียวกัน

ไม่ใช่แค่ Anthropic ที่ซื้อความสามารถด้านวิศวกรรมจริง การแข่งขันครั้งนี้มีผู้เล่นสำคัญหลายรายเข้าร่วม แต่ละรายมีวิธีการต่างกัน

Cursor กำลังเดินตามเส้นทางข้อมูลผลิตภัณฑ์

มันระบุอย่างเป็นทางการว่า: เมื่อผู้ใช้เปิดใช้งานโหมดความเป็นส่วนตัว โค้ดจะไม่ถูกใช้โดยมันหรือบุคคลที่สามในการฝึกอบรมภายใต้任何 circumstances; เฉพาะเมื่อปิดโหมดความเป็นส่วนตัว จึงอาจใช้ข้อมูลจากคลังโค้ด คำแนะนำ การแก้ไข และชิ้นส่วนของโค้ด เพื่อปรับปรุงฟังก์ชัน AI และฝึกโมเดล

โมเดล Tab ของ Cursor ผลิตตัวอักษรการแก้ไขมากกว่า 1 พันล้านตัวต่อวัน โดยปริมาณคำขอเพิ่มขึ้นประมาณ 100 เท่าเมื่อเทียบกับรุ่นแรก ยิ่งไปกว่านั้น Composer ซึ่งได้รับการฝึกด้วยการเรียนรู้แบบเสริมแรง (RL) ช่วยให้โมเดลเรียนรู้การเรียกใช้เครื่องมือต่างๆ เช่น การแก้ไขและการค้นหา ในสภาพแวดล้อมงานเขียนโค้ดจำนวนมาก เพื่อจัดการงานวิศวกรรมที่มีระยะเวลายาวนานขึ้น

ไปที่ Composer 2.5 ล่าสุด เพื่อจัดการงานระยะยาวที่ต้องใช้การดำเนินการหลายร้อยขั้นตอน

มัสก์ใช้วิธีการผูกพันทุน/ตัวเลือกการซื้อกิจการ

ในเดือนกุมภาพันธ์ปีนี้ xAI ถูกผนวกเข้ากับ SpaceX ในปลายเดือนเมษายน SpaceX ได้รับสิทธิ์ในการซื้อ Anysphere บริษัทแม่ของ Cursor ด้วยมูลค่า 60,000 ล้านดอลลาร์สหรัฐในปีนี้ หรือจ่ายล่วงหน้า 10,000 ล้านดอลลาร์สหรัฐเพื่อร่วมมืออย่างลึกซึ้ง มาสก์ให้ความสนใจกับข้อมูลพฤติกรรมของนักพัฒนาที่ใช้งานจริงที่สุดในโลกที่ Cursor มี

วันที่ 25 พฤษภาคม มาสก์ประกาศบน X ว่าได้ฝึกโมเดลพื้นฐานรุ่นใหม่ Grok V9-Medium เสร็จสิ้นแล้ว โดยมีพารามิเตอร์ 1.5 ล้านล้าน ซึ่งมากกว่าโมเดลที่ใช้งานอยู่ปัจจุบันถึง 3 เท่า เขาเน้นย้ำว่านี่ยังเป็นผลลัพธ์ก่อนการฝึกเพิ่มเติมด้วยข้อมูล Cursor เมื่อเสร็จสิ้นการฝึกเพิ่มแล้ว “ความสามารถด้านการเขียนโปรแกรมจะแข็งแกร่งขึ้นมาก” โดยคาดว่าโมเดลนี้จะเปิดตัวในช่วงกลางเดือนมิถุนายน

ดังนั้น V9 จะเป็น Grok ตัวแรกที่ระบบically "กิน" ข้อมูลพฤติกรรมของนักพัฒนาจริง

Codex ของ OpenAI ต่อมาได้เดินตามเส้นทางนี้เช่นกัน Codex ที่เปิดตัวในปี 2025 ขับเคลื่อนด้วย codex-1 ซึ่ง OpenAI ระบุว่าได้รับการฝึกฝนผ่านการเรียนรู้แบบเสริมแรงบนงานเขียนโค้ดจริง โดยมีเป้าหมายเพื่อเขียนโค้ดที่ใกล้เคียงกับสไตล์ของมนุษย์ สอดคล้องกับแนวทาง PR และสามารถรันการทดสอบซ้ำๆ จนกว่าจะผ่าน; แต่ละงานจะถูกดำเนินการใน sandbox ที่แยกจากกันและติดตั้งคลังโค้ดของคุณไว้แล้ว

ตอนนี้ Codex ได้รับการอัปเกรดเป็นแพลตฟอร์มการเขียนโค้ดแบบ agentic ของ OpenAI ที่ขับเคลื่อนโดยโมเดลการเขียนโค้ดขั้นสูงสุดของพวกเขา; ผู้ใช้รายสัปดาห์เกิน 5 ล้านคน

สิ่งที่พวกเขาแข่งขันกันนั้น แท้จริงแล้วคือสิ่งเดียวกัน: ข้อมูลกระบวนการ เพียงแต่เส้นทางต่างกัน

Anthropic มีโมเดลอยู่แล้ว แต่ขาดข้อมูลย้อนกลับจากสภาพแวดล้อมการพัฒนาจริง จึงจ่ายเงินจ้างวิศวกรประมาณ 1,000 คน เพื่อแยกกระบวนการวิศวกรรมซอฟต์แวร์ออกเป็นข้อมูลที่สามารถเรียนรู้ได้;

Cursor มีผลิตภัณฑ์และพฤติกรรมผู้ใช้จริง รวมถึงโมเดลการเขียนโปรแกรมที่พัฒนาขึ้นเอง เช่น Tab, Composer แต่เมื่อเทียบกับ OpenAI และ Anthropic จุดอ่อนที่ขาดหายไปของมันคือฐานโมเดลพื้นฐานทั่วไปและพลังการประมวลผลสำหรับการฝึกอบรมขนาดใหญ่

มัสก์ก็ขาดข้อมูลเช่นกัน จึงพยายามใช้เงินหลายสิบพันล้านดอลลาร์เพื่อซื้อช่องทางเข้าสู่ผลิตภัณฑ์ที่สามารถสร้างข้อมูลพฤติกรรมของนักพัฒนาอย่างต่อเนื่อง;

ไม่มีข้อขาดแคลนทั้งในด้านโมเดลและผลิตภัณฑ์ของ OpenAI จึงสร้างสภาพแวดล้อมจำลองขึ้นเอง เพื่อให้โมเดลสามารถทดลอง ทดสอบ แก้ไข และปรับปรุงซ้ำแล้วซ้ำเล่าผ่านการเรียนรู้ด้วยการเสริมแรงในงานเขียนโค้ดจริง

หลายวิธีการที่แตกต่างกัน แต่ไปในทิศทางเดียวกัน โดยใช้ข้อมูลที่ใกล้เคียงกับสภาพแวดล้อมจริงในการฝึกโมเดล AI สำหรับการเขียนโปรแกรมของตนเอง

ป้อมปราการที่แท้จริง

รสนิยมและการตัดสินใจของมนุษย์

มีบทความชื่อ SWE-chat ที่รวบรวมการสนทนาการเขียนโค้ดของตัวแทนจริงเป็นครั้งแรกในขนาดใหญ่: 6,000 ชุด มากกว่า 63,000 คำสั่งของผู้ใช้ และการเรียกใช้เครื่องมือ 355,000 ครั้ง

มันได้ตัวเลขที่เจ็บปวด: รหัสที่ตัวแทนสร้างขึ้น มีเพียง 44% เท่านั้นที่สุดท้ายแล้วถูกนำไปใช้ในคำขอของผู้ใช้ มากกว่าครึ่งหนึ่งถูกลบ แก้ไข หรือปฏิเสธ

การทดสอบ SWE-chat: การเขียนโค้ดแบบ vibe ครอบคลุม 41% ของการสนทนา แต่โค้ดที่เขียนโดยตัวแทนมีเพียง 44% เท่านั้นที่ถูกส่งเข้าสู่การส่งงาน; ผู้ใช้ใน 44% ของรอบการโต้ตอบได้แก้ไข รายงานข้อผิดพลาด หรือหยุดการโต้ตอบเพื่อทบทวนผลลัพธ์ของโมเดล

นี่แสดงให้เห็นว่า benchmark รุ่นเก่าอย่าง HumanEval ได้รับการปรับแต่งจนถึงขีดจำกัดแล้ว การดูแค่คะแนนไม่มีความหมายมากนัก สนามรบที่แท้จริงอยู่ที่ข้อมูลจากการพัฒนาจริง ซึ่งประกอบด้วยการทดลอง ความผิดพลาด และการเริ่มต้นใหม่ซ้ำๆ

ยิ่งโมเดลแข็งแกร่งเท่าใด ยิ่งต้องใช้เงินซื้อสิ่งที่มนุษย์ยังไม่ถูกแทนที่: สัญชาตญาณด้านวิศวกรรม

Anthropic จ่าย 280 ดอลลาร์ต่อภารกิจ เพื่อจ้างวิศวกรประมาณ 1,000 คน来做 A/B การลงคะแนน: งานที่ดูยุ่งยากชุดนี้ คือสิ่งที่พวกเขาต้องการซื้อ

ผู้ใดที่สามารถแปลงข้อมูลจากไซต์งานให้เป็นข้อมูลที่โมเดลสามารถประมวลผลได้ ผู้นั้นจะถือบัตรเข้าสู่ขั้นตอนถัดไปของการเขียนโปรแกรมด้วย AI

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา