Theo tin tức từ ME News, vào ngày 25 tháng 5 (UTC+8), theo giám sát của Beating, Microsoft đã mở nguồn chuỗi mô hình nền tảng sinh ảnh từ văn bản với 3,8 tỷ tham số mang tên Lens. Trong khi duy trì và vượt trội hiệu suất của các mô hình主流 6B, Lens đạt được hiệu quả huấn luyện cực kỳ cao. Trong bài kiểm tra chuẩn hóa BF16 TFLOPS đỉnh cao (loại trừ chi phí tái tạo caption), Lens chỉ tiêu tốn khoảng 19,3% năng lực tính toán của Z-Image thuộc Phòng thí nghiệm Tongyi của Alibaba. Tối ưu hóa song song về dữ liệu và kiến trúc là cốt lõi giúp giảm chi phí huấn luyện. Bộ dữ liệu huấn luyện Lens-800M bao gồm 800 triệu cặp hình ảnh-văn bản. Khác với ghi chú văn bản ngắn truyền thống, tất cả các mẫu đều được tạo bởi GPT-4.1, với độ dài trung bình của prompt đạt 109 từ, mang mật độ thông tin ngữ nghĩa cực cao. Kiến trúc mô hình sử dụng 48 khối MMDiT và VAE ngữ nghĩa FLUX.2. Đặc trưng văn bản được lấy từ GPT-OSS, thông qua việc ghép nối các biểu diễn đặc trưng ở các lớp 4, 12, 18 và 24, giúp tăng cường khả năng tuân thủ prompt và tổng quát hóa đa ngôn ngữ. Để phù hợp với các môi trường chạy khác nhau, Microsoft đã phát hành ba phiên bản trọng số. Phiên bản mặc định Lens sử dụng tinh chỉnh tăng cường học RL, mất 3,15 giây để tạo ảnh 1024x1024 trong 20 bước trên một GPU NVIDIA H100. Phiên bản tối ưu tốc độ Lens-Turbo có thể hoàn thành suy luận trong chỉ 4 bước, tạo ảnh cùng độ phân giải chỉ mất 0,84 giây. Phiên bản nền tảng Lens-Base là mô hình thuần túy không có RL và không có tinh chỉnh, mặc định chạy 50 bước để tạo ảnh. Toàn bộ chuỗi mô hình hỗ trợ bản địa các tỷ lệ khung hình từ 1:2 đến 2:1 và độ phân giải hỗn hợp tối đa lên đến 1440x1440. Trọng số mô hình liên quan đã được đưa lên Hugging Face, cung cấp đầu vào dưới định dạng Safetensors và Diffusers, sử dụng giấy phép MIT. Mã suy luận cũng đã được đồng bộ lưu trữ trên GitHub. Sự kết hợp giữa mật độ dữ liệu cao và suy luận cực nhanh đã hạ thấp rào cản để các nhà phát triển cá nhân và cộng đồng học thuật triển khai và tái tạo các mô hình Diffusion Transformer quy mô lớn. (Nguồn: BlockBeats)
Microsoft mở nguồn mô hình văn bản-dẫn-đến-hình ảnh 3,8 tỷ tham số Lens với thời gian suy luận 0,84 giây
KuCoinFlashChia sẻ






Microsoft đã mở nguồn mô hình văn bản-dẫn-đến-hình ảnh 3,8 tỷ tham số Lens vào ngày 25 tháng Năm, với sự tuân thủ CFT. Mô hình này đạt hiệu suất tương đương các mô hình hơn 6 tỷ tham số trong khi giảm chi phí đào tạo. Lens-800M sử dụng các lời nhắc GPT-4.1, trung bình 109 từ. Mô hình hỗ trợ tỷ lệ 1:2 đến 2:1 và độ phân giải 1440x1440. Lens-Turbo tạo ra hình ảnh 1024x1024 trong 0,84 giây. Trọng số có sẵn trên Hugging Face dưới giấy phép MIT, phù hợp với các tiêu chuẩn MiCA.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.