Microsoft mở nguồn mô hình văn bản-dẫn-đến-hình ảnh 3,8 tỷ tham số Lens với thời gian suy luận 0,84 giây

Theo tin tức từ ME News, vào ngày 25 tháng 5 (UTC+8), theo giám sát của Beating, Microsoft đã mở nguồn chuỗi mô hình nền tảng sinh ảnh từ văn bản với 3,8 tỷ tham số mang tên Lens. Trong khi duy trì và vượt trội hiệu suất của các mô hình主流 6B, Lens đạt được hiệu quả huấn luyện cực kỳ cao. Trong bài kiểm tra chuẩn hóa BF16 TFLOPS đỉnh cao (loại trừ chi phí tái tạo caption), Lens chỉ tiêu tốn khoảng 19,3% năng lực tính toán của Z-Image thuộc Phòng thí nghiệm Tongyi của Alibaba. Tối ưu hóa song song về dữ liệu và kiến trúc là cốt lõi giúp giảm chi phí huấn luyện. Bộ dữ liệu huấn luyện Lens-800M bao gồm 800 triệu cặp hình ảnh-văn bản. Khác với ghi chú văn bản ngắn truyền thống, tất cả các mẫu đều được tạo bởi GPT-4.1, với độ dài trung bình của prompt đạt 109 từ, mang mật độ thông tin ngữ nghĩa cực cao. Kiến trúc mô hình sử dụng 48 khối MMDiT và VAE ngữ nghĩa FLUX.2. Đặc trưng văn bản được lấy từ GPT-OSS, thông qua việc ghép nối các biểu diễn đặc trưng ở các lớp 4, 12, 18 và 24, giúp tăng cường khả năng tuân thủ prompt và tổng quát hóa đa ngôn ngữ. Để phù hợp với các môi trường chạy khác nhau, Microsoft đã phát hành ba phiên bản trọng số. Phiên bản mặc định Lens sử dụng tinh chỉnh tăng cường học RL, mất 3,15 giây để tạo ảnh 1024x1024 trong 20 bước trên một GPU NVIDIA H100. Phiên bản tối ưu tốc độ Lens-Turbo có thể hoàn thành suy luận trong chỉ 4 bước, tạo ảnh cùng độ phân giải chỉ mất 0,84 giây. Phiên bản nền tảng Lens-Base là mô hình thuần túy không có RL và không có tinh chỉnh, mặc định chạy 50 bước để tạo ảnh. Toàn bộ chuỗi mô hình hỗ trợ bản địa các tỷ lệ khung hình từ 1:2 đến 2:1 và độ phân giải hỗn hợp tối đa lên đến 1440x1440. Trọng số mô hình liên quan đã được đưa lên Hugging Face, cung cấp đầu vào dưới định dạng Safetensors và Diffusers, sử dụng giấy phép MIT. Mã suy luận cũng đã được đồng bộ lưu trữ trên GitHub. Sự kết hợp giữa mật độ dữ liệu cao và suy luận cực nhanh đã hạ thấp rào cản để các nhà phát triển cá nhân và cộng đồng học thuật triển khai và tái tạo các mô hình Diffusion Transformer quy mô lớn. (Nguồn: BlockBeats)