GPT Image 2 bị rò rỉ: Hình ảnh do AI tạo ra hiện nay có thể mô phỏng tài liệu và ảnh chụp màn hình thật

Bạn vẫn còn hình dung về văn sinh ảnh qua Nano Banana sao?

Nhưng con ơi, thời đại lại thay đổi rồi.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@0115hippo https://x.com/0115hippo/status/2044722124611539160

Đầu tháng 4, ba mô hình hình ảnh ẩn danh đã xuất hiện trên nền tảng đánh giá LM Arena với các mã hiệu là maskingtape-alpha, packingtape-alpha và gaffertape-alpha. Vài giờ sau, chúng biến mất.

OpenAI chưa chính thức công bố mô hình này, nhưng dựa trên dữ liệu siêu dữ liệu trả về từ API và các bản ghi kiểm tra từ phía người dùng, nó đã có một cái tên được chấp nhận rộng rãi: GPT Image 2.

GPT Image 2

Ảnh chụp màn hình không còn có thể dùng làm bằng chứng nữa

Trong vài năm qua, một trong những điểm yếu rõ rệt nhất của các mô hình tạo hình ảnh AI là văn bản trong hình ảnh. Trong thời đại DALL-E 3, khi bạn yêu cầu nó viết “Hello” trong hình ảnh, kết quả có thể là “Hellp” hoặc thậm chí “Hl10”, các chữ cái xiêu vẹo như đang say rượu. GPT Image 1 đã cải thiện đáng kể, có thể xử lý các nhãn tiếng Anh đơn giản. Đến GPT Image 1.5, độ chính xác trong việc hiển thị văn bản tiếng Anh đã đạt gần 95%, nhưng vẫn còn rõ ràng những khuyết điểm khi xử lý các ngôn ngữ không thuộc hệ chữ Latin như tiếng Trung, tiếng Nhật và tiếng Hàn.

Tuy nhiên, các hình ảnh rò rỉ của GPT Image 2 đã thay đổi ấn tượng này.

GPT Image 2

@MrLarus https://x.com/MrLarus/status/2044824800909054181

GPT Image 2

@akokoi1 https://x.com/akokoi1/status/2044789531615056175

Văn bản trong hình ảnh là gì thì giữ nguyên như vậy. Tiếng Trung rõ ràng, kiểu chữ chính xác, các nét bút đầy đủ. Có người đã thử tạo một hình ảnh kiểu chứng minh thư, tên, địa chỉ, số chứng từ đều được hiển thị chính xác, bố cục ngăn nắp, nhìn sơ qua giống như ảnh của tài liệu thật.

GPT Image 2

Đây là một tin tốt. Sự tiến bộ trong xử lý văn bản có nghĩa là việc tạo ra infographics, áp phích, bao bì sản phẩm và các biểu đồ có bố cục phức tạp trở nên đáng tin cậy hơn.

Nhưng đồng tiền luôn có hai mặt. Một mô hình có thể tạo ra hình ảnh giấy tờ giả y như thật và render chính xác các ảnh chụp giao diện người dùng khiến việc “ảnh chụp màn hình có thể được dùng làm bằng chứng” trở nên ngày càng đáng nghi.

So sánh với nhau, đây cũng là sự khác biệt cốt lõi giữa GPT Image và các mô hình khác. Midjourney cho đến nay vẫn chưa có tiến triển nào trong việc xử lý văn bản, trong khi các mô hình Stable Diffusion cũng gặp phải những vấn đề cũ. Theo kết quả kiểm tra Arena bị rò rỉ, GPT Image 2 vượt trội hơn Midjourney ở bốn khía cạnh: xử lý văn bản, tuân thủ lệnh, độ chân thực của ảnh và kiến thức thế giới, trong khi ưu thế của Midjourney chủ yếu vẫn nằm ở phong cách nghệ thuật và kiểm soát thẩm mỹ.

GPT Image 2

Liệu nó có thực sự biết thế giới này trông như thế nào không?

Một người thử nghiệm yêu cầu mô hình tạo ra một trang định giá sản phẩm giả tưởng GPT-8, và kết quả hình ảnh có bố cục đúng phong cách trang web chính thức của OpenAI, vị trí nút bấm và lựa chọn phông chữ giống như được chụp từ giao diện thực tế, đồng thời logic phân cấp bảng giá cũng chính xác.

GPT Image 2

GPT Image 2 có thể tạo ra hình ảnh cực kỳ giống với giao diện phần mềm thực tế, bao gồm cửa sổ trình duyệt, giao diện ứng dụng di động và biểu đồ trực quan hóa dữ liệu, độ chân thực vượt trội so với thế hệ trước.

GPT Image 2

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

GPT Image 2

@levelsio https://x.com/levelsio/status/2040333489476681758

Điều này sẽ mang lại một số ứng dụng thực tế rất thú vị. Khi thiết kế mẫu sản phẩm, người thiết kế không cần mở Figma để vẽ hàng loạt khung, mà chỉ cần mô tả bằng văn bản giao diện mong muốn, và ngay lập tức sẽ có một hình ảnh tham khảo để thảo luận với nhóm. Khi làm bản trình bày cho nhà đầu tư, bạn không cần chờ lập trình viên viết mã để hiển thị một “ảnh chụp màn hình sản phẩm”. Khi viết tài liệu, các ví dụ giao diện dùng để minh họa có thể được tạo ra trực tiếp, thay vì phải nhìn vào trang trống và suy nghĩ tìm ảnh chụp màn hình ở đâu.

GPT Image 2

@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597

Việc tạo hình ảnh đã không còn đơn thuần là "tạo hình ảnh" nữa

OpenAI đã thông báo rằng DALL-E 2 và DALL-E 3 sẽ chính thức ngừng hoạt động vào ngày 12 tháng 5 năm 2026. DALL-E 3 trên Azure OpenAI đã được loại bỏ sớm vào tháng 2.

DALL-E là nơi nhiều người lần đầu tiên tiếp xúc với AI tạo hình ảnh, chỉ trong vài năm ngắn ngủi từ những tác phẩm ban đầu mờ nhạt đến ngày nay.

Trong khi đó, Google, vừa mới khẳng định vị thế ngành vào đầu năm 2026 với Nano Banana Pro, có thể sẽ cảm thấy áp lực. Các báo cáo thử nghiệm ban đầu cho thấy GPT Image 2 vượt trội hơn Nano Banana Pro đồng thời ở ba khía cạnh: độ chân thực, khả năng hiển thị văn bản và kiến thức thế giới — một chiến thắng ba lần liên tiếp không phổ biến.

Đối với các nhà sáng tạo, cảm xúc là phức tạp. Các họa sĩ minh họa, nhà thiết kế đồ họa, nhiếp ảnh gia đã không còn lần đầu tiên đối mặt với chủ đề này. Kể từ khi GPT Image 1 ra mắt, số lượng vị trí thiết kế đồ họa tự do đã giảm khoảng 18%. AI thực sự đã thay thế quyết định “Tôi cần thuê người làm việc này” trong một số tình huống, nhưng đồng thời nó cũng tạo ra những cách làm việc mới, giúp một người có thể làm được nhiều việc hơn.

Tốc độ tiến hóa của các mô hình tạo hình ảnh đã không còn để lại nhiều thời gian cho người dùng thích nghi. Từ khi ra mắt GPT Image 1 đến phiên bản 1.5 chỉ mất vài tháng. Từ 1.5 đến 2, khoảng nửa năm. Mỗi thế hệ đều giải quyết những điểm yếu cốt lõi của thế hệ trước, đồng thời mở ra những khả năng mới.

GPT Image 2 hiện vẫn đang trong giai đoạn thử nghiệm A/B, một số người dùng ChatGPT đã được cấp quyền truy cập ngẫu nhiên. Thời gian ra mắt chính thức được dự đoán sẽ rơi vào khoảng tháng 5, xung quanh thời điểm DALL-E ngừng hoạt động. Nếu muốn trải nghiệm sớm, hiện tại bạn có thể thử may mắn trên nền tảng đánh giá LM Arena.

GPT Image 2

Địa chỉ thử nghiệm: https://arena.ai

Dựa trên phản hồi từ cộng đồng và những ưu điểm đã biết của mô hình này, mẫu lời nhắc sau đây có thể tối đa hóa cơ hội thành công của bạn:

Giao diện người dùng / Hình ảnh chụp màn hình: Một hình ảnh chụp màn hình ứng dụng ngân hàng trên điện thoại với độ chi tiết như ảnh thật, hiển thị rõ ràng lịch sử giao dịch, trong đó ngày tháng, số tiền và tên thương gia đều có thể đọc rõ. Màn hình iPhone 16, cầm điện thoại một cách tự nhiên, nền là cửa hàng cà phê.

Ghi chú sản phẩm: Hình ảnh sản phẩm chai bia thủ công chụp như ảnh thật, chi tiết nhãn rõ ràng, hiển thị tên nhà máy bia «Oakridge Brewing Co.», nồng độ cồn 6.8%, biểu tượng núi và danh sách thành phần. Ánh sáng trong nhà xưởng, nền trắng.

Ghi chú hình ảnh: Một cảnh đường phố vào ban đêm ở Tokyo, hiển thị nhiều biển hiệu neon song ngữ Nhật - Anh, bao gồm biển hiệu quán ramen ghi «Ichiban Ramen — Est. 1987», biển hiệu quán karaoke và nhiều bảng quảng cáo phát sáng khác. Mặt đường ướt sau cơn mưa phản chiếu ánh sáng.

Giao diện / Gợi ý kiến thức thế giới: Một ảnh chụp màn hình video YouTube chân thực như thật, hiển thị video có tên “Cách lắp ráp máy tính vào năm 2026” với 2,3 triệu lượt xem, kèm theo phần bình luận thực tế, các video đề xuất bên cạnh và thông tin kênh. Giao diện trình duyệt trên máy tính để bàn.

Prompt màn hình rộng: Đây là một bức ảnh dạng màn hình rộng như phim, chụp ngoại thất cửa hàng IKEA vào lúc hoàng hôn, hiển thị biển hiệu IKEA phát sáng, bãi đỗ xe với những chiếc xe hơi chân thực và những người mua sắm ra vào. Ánh sáng hoàng hôn, định dạng 16:9.

Không ghi nguồn hình ảnh và tham khảo: https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide

Bài viết này đến từ tài khoản chính thức WeChat "APPSO", tác giả: Phát hiện sản phẩm của tương lai