GPT Image 2 รั่วไหล: รูปภาพที่สร้างโดย AI ตอนนี้เลียนแบบเอกสารและหน้าจอภาพจริงได้

คุณยังมีความประทับใจเกี่ยวกับการสร้างภาพจากข้อความที่ยังคงอยู่ที่ Nano Banana อยู่หรือเปล่า?

แต่ลูก ยุคสมัยก็เปลี่ยนไปแล้ว

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

ต้นเดือนเมษายน โมเดลภาพสามตัวที่ไม่เปิดเผยชื่อปรากฏบนแพลตฟอร์มประเมิน LM Arena โดยมีรหัสชื่อว่า maskingtape-alpha, packingtape-alpha และ gaffertape-alpha ซึ่งจากนั้นก็หายไปภายในไม่กี่ชั่วโมง

OpenAI ยังไม่ได้ประกาศอย่างเป็นทางการเกี่ยวกับโมเดลนี้ แต่จากข้อมูลเมตาที่คืนจาก API และบันทึกการทดสอบจากผู้ใช้ มันได้รับชื่อที่ได้รับการยอมรับอย่างกว้างขวางว่า GPT Image 2

GPT Image 2

ภาพหน้าจอไม่สามารถใช้เป็นหลักฐานได้อีกต่อไป

ในช่วงไม่กี่ปีที่ผ่านมา จุดอ่อนที่ชัดเจนที่สุดอย่างหนึ่งของโมเดลสร้างภาพจาก AI คือข้อความในภาพ ในยุค DALL-E 3 หากคุณสั่งให้มันเขียนคำว่า "Hello" ในภาพ ผลลัพธ์ที่ได้อาจเป็น "Hellp" หรือแม้แต่ "Hl10" ตัวอักษรดูเหมือนกำลังมึนเมากับการยืนไม่ตรงแถว GPT Image 1 ดีขึ้นมาก และสามารถจัดการป้ายกำกับภาษาอังกฤษที่เรียบง่ายได้ ถึง GPT Image 1.5 อัตราความแม่นยำในการเรนเดอร์ข้อความภาษาอังกฤษใกล้เคียงกับ 95% แต่ยังคงมีข้อบกพร่องชัดเจนเมื่อจัดการกับภาษาที่ไม่ใช่อักษรละติน เช่น ภาษาจีน ภาษาญี่ปุ่น และภาษาเกาหลี

แต่ภาพตัวอย่างที่รั่วไหลของ GPT Image 2 ได้เปลี่ยนความประทับใจนี้

GPT Image 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT Image 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

ข้อความในรูปภาพ ควรเป็นอย่างไรก็ควรเป็นอย่างนั้น ภาษาจีนชัดเจน รูปแบบตัวอักษรถูกต้อง ลายเส้นสมบูรณ์ มีผู้ทดสอบสร้างรูปภาพที่มีลักษณะเหมือนบัตรประจำตัวประชาชน โดยแสดงชื่อ ที่อยู่ และหมายเลขบัตรประจำตัวอย่างถูกต้องทั้งหมด การจัดเรียงเป็นระเบียบ ดูเหมือนภาพถ่ายของเอกสารจริงในแวบแรก

GPT Image 2

นี่เป็นข่าวดี การพัฒนาการเรนเดอร์ข้อความหมายความว่าการสร้างอินโฟกราฟิก โปสเตอร์ แพ็กเกจจิ้งผลิตภัณฑ์ และกราฟที่มีการจัดรูปแบบซับซ้อน ทำได้เชื่อถือได้มากขึ้น

แต่เหรียญย่อมมีสองด้าน โมเดลที่สามารถสร้างภาพจำลองเอกสารปลอมและเรนเดอร์หน้าจออินเตอร์เฟซได้อย่างแม่นยำ ทำให้ความเชื่อที่ว่า “หน้าจอภาพถ่ายสามารถใช้เป็นหลักฐานได้” ดูน่าสงสัยยิ่งขึ้น

เมื่อเปรียบเทียบกัน นี่คือความแตกต่างหลักของซีรีส์ GPT Image กับโมเดลอื่นๆ Midjourney ยังไม่สามารถพัฒนาการเรนเดอร์ข้อความได้เลย ส่วนซีรีส์ Stable Diffusion ก็ยังคงมีปัญหาเดิมๆ ตามผลการทดสอบ Arena ที่รั่วไหลออกมา GPT Image 2 โดดเด่นเหนือ Midjourney ในสี่ด้าน ได้แก่ การเรนเดอร์ข้อความ การปฏิบัติตามคำสั่ง ความสมจริงของภาพถ่าย และความรู้เกี่ยวกับโลก โดยข้อได้เปรียบหลักของ Midjourney ยังคงอยู่ที่สไตล์ศิลปะและการควบคุมด้านความงาม

GPT Image 2

มันรู้จริงๆ ไหมว่าโลกนี้ดูเป็นยังไง

ผู้ทดสอบให้โมเดลสร้างหน้าราคาผลิตภัณฑ์ GPT-8 สมมติ ผลลัพธ์ที่ได้จัดเรียงตามสไตล์เว็บไซต์อย่างเป็นทางการของ OpenAI ปุ่มและฟอนต์ดูเหมือนถูกตัดมาจากอินเทอร์เฟซจริง และโครงสร้างระดับของตารางราคาถูกต้อง

GPT Image 2

GPT Image 2 สามารถสร้างภาพที่คล้ายกับอินเทอร์เฟซซอฟต์แวร์จริงอย่างมาก รวมถึงหน้าต่างเบราว์เซอร์ อินเทอร์เฟซแอปมือถือ และกราฟการนำเสนอข้อมูล ความแม่นยำสูงกว่าผลิตภัณฑ์รุ่นก่อนหน้าอย่างมาก

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@levelsio https://x.com/levelsio/status/2040333489476681758

สิ่งนี้จะนำไปสู่การใช้งานจริงที่น่าสนใจหลายประการ นักออกแบบเมื่อสร้างต้นแบบผลิตภัณฑ์ ไม่จำเป็นต้องเปิด Figma แล้ววาดกรอบมากมาย แต่สามารถอธิบายอินเทอร์เฟซที่ต้องการด้วยข้อความเท่านั้น และจะได้รูปภาพอ้างอิงที่สามารถใช้พูดคุยกับทีมได้ทันที เมื่อสร้างเอกสารสำหรับนักลงทุน ไม่ต้องรอให้โปรแกรมเมอร์เขียนโค้ดก่อนจึงจะแสดงภาพหน้าจอผลิตภัณฑ์ได้ ในขณะเขียนเอกสาร ตัวอย่างอินเทอร์เฟซที่ใช้ประกอบภาพสามารถสร้างขึ้นได้โดยตรง โดยไม่ต้องนั่งกังวลว่าจะหาภาพหน้าจอจากไหน

GPT Image 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

เรื่องการสร้างภาพ ตอนนี้ไม่ได้เป็นแค่ “การสร้างภาพ” อีกต่อไป

OpenAI ได้ประกาศว่า DALL-E 2 และ DALL-E 3 จะหยุดให้บริการอย่างเป็นทางการในวันที่ 12 พฤษภาคม 2026 DALL-E 3 บน Azure OpenAI ได้ถูกปลดระวางล่วงหน้าในเดือนกุมภาพันธ์

DALL-E เป็นจุดเริ่มต้นของหลายคนในการสัมผัสกับ AI ในการสร้างภาพ ตั้งแต่ผลงานในยุคแรกๆ ที่ยังไม่ชัดเจนจนถึงปัจจุบัน ใช้เวลาเพียงไม่กี่ปี

ในขณะเดียวกัน Google ซึ่งเพิ่งยืนยันตำแหน่งในอุตสาหกรรมด้วย Nano Banana Pro เมื่อต้นปี 2026 อาจรู้สึกถึงแรงกดดัน รายงานการทดสอบเบื้องต้นแสดงว่า GPT Image 2 สามารถเอาชนะ Nano Banana Pro ได้ในสามด้านคือความสมจริง การเรนเดอร์ข้อความ และความรู้เกี่ยวกับโลก ซึ่งการชนะสามครั้งติดต่อกันแบบนี้ไม่ค่อยเกิดขึ้น

สำหรับผู้สร้างสรรค์ ความรู้สึกนั้นซับซ้อน ศิลปินภาพประกอบ ดีไซเนอร์กราฟิก และช่างภาพ ไม่ได้เผชิญกับหัวข้อนี้เป็นครั้งแรก นับตั้งแต่เปิดตัว GPT Image 1 จำนวนตำแหน่งดีไซเนอร์อิสระลดลงประมาณ 18% AI จริงๆ แล้วได้แทนที่การตัดสินใจว่า “ฉันจะจ้างคน来做เรื่องนี้” ในบางสถานการณ์ แต่มันก็กำลังสร้างวิธีการทำงานใหม่ๆ ที่ทำให้บุคคลหนึ่งคนสามารถทำสิ่งต่างๆ ได้มากขึ้น

ความเร็วในการพัฒนาของโมเดลภาพถ่าย ไม่ได้ทิ้งเวลาให้ผู้ใช้ปรับตัวอีกต่อไป GPT Image 1 จากการเปิดตัวจนถึงเวอร์ชัน 1.5 ใช้เวลาเพียงไม่กี่เดือน จาก 1.5 ถึง 2 ก็ใช้เวลาประมาณหกเดือน แต่ละรุ่นแก้ไขจุดอ่อนหลักของรุ่นก่อนหน้า และเปิดโอกาสใหม่ๆ ขึ้นมา

GPT Image 2 ยังอยู่ในขั้นตอนการทดสอบ A/B โดยผู้ใช้ ChatGPT บางส่วนได้รับสิทธิ์เข้าถึงแบบสุ่มแล้ว ช่วงเวลาเปิดตัวอย่างเป็นทางการมักคาดการณ์ว่าจะเกิดขึ้นในเดือนพฤษภาคม ใกล้เคียงกับการเลิกใช้งาน DALL-E หากต้องการทดลองใช้งานล่วงหน้า ขณะนี้สามารถลองโชคบนแพลตฟอร์มประเมิน LM Arena

GPT Image 2

ที่อยู่ทดสอบ: https://arena.ai

ตามข้อเสนอแนะจากชุมชนและข้อได้เปรียบที่รู้จักของโมเดลนี้ แม่แบบคำแนะนำต่อไปนี้สามารถเพิ่มโอกาสความสำเร็จของคุณให้สูงสุด:

คำแนะนำ UI/ภาพหน้าจอ: ภาพหน้าจอแอปพลิเคชันธนาคารบนโทรศัพท์ที่ดูเหมือนจริง แสดงบันทึกการซื้อขายอย่างชัดเจน โดยวันที่ จำนวนเงิน และชื่อผู้ขายสามารถอ่านได้ชัดเจน หน้าจอ iPhone 16 ถืออย่างเป็นธรรมชาติ พร้อมพื้นหลังร้านกาแฟ

คำแนะนำป้ายผลิตภัณฑ์: ภาพถ่ายผลิตภัณฑ์ขวดเบียร์แบบมือทำที่มีความละเอียดเหมือนภาพถ่ายจริง รายละเอียดป้ายชัดเจน แสดงชื่อโรงเบียร์ «Oakridge Brewing Co.» ปริมาณแอลกอฮอล์ 6.8% สัญลักษณ์ภูเขา และรายการส่วนผสม แสงสว่างในโรงเรือน พื้นหลังสีขาว

คำแนะนำป้าย: ภาพทิวทัศน์ย่านตรอกยามค่ำคืนในโตเกียว มองเห็นป้ายไฟนีออนหลายแห่งที่ใช้ภาษาญี่ปุ่นและอังกฤษ รวมถึงป้ายร้านราเม็งที่เขียนว่า «Ichiban Ramen — Est. 1987» ป้ายบาร์คาราโอเกะ และป้ายโฆษณาที่ส่องแสงต่างๆ ทางเท้าที่เปียกชื้นหลังฝนตกสะท้อนแสงไฟ

อินเทอร์เฟซ/คำใบ้ความรู้ทั่วไป: ภาพหน้าจอวิดีโอ YouTube ที่ดูเหมือนจริง แสดงวิดีโอชื่อ “วิธีการประกอบคอมพิวเตอร์ในปี 2026” ที่มีผู้ดู 2.3 ล้านครั้ง พร้อมช่องความคิดเห็นที่สมจริง วิดีโอแนะนำด้านข้าง และข้อมูลช่อง แสดงในมุมมองเบราว์เซอร์บนเดสก์ท็อป

คำเตือนหน้าจอแบบกว้าง: นี่คือภาพแบบหน้าจอกว้างเหมือนภาพยนตร์ ถ่ายภาพด้านนอกของร้าน IKEA ในช่วงเวลาพลบค่ำ แสดงป้าย IKEA ที่ส่องแสง ที่จอดรถที่มีรถยนต์จริงจัง และผู้ซื้อที่เดินเข้าออก แสงช่วงทองคำ รูปแบบ 16:9

ไม่ได้ระบุแหล่งที่มาของรูปภาพและอ้างอิง: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

บทความนี้มาจาก微信号 "APPSO" โดยผู้เขียน: ค้นพบผลิตภัณฑ์แห่งอนาคต