Theo tin tức từ ME News, vào ngày 16 tháng 4 (UTC+8), theo giám sát của Beating, nhóm Nucleus AI đã công bố mô hình sinh ảnh từ văn bản Nucleus-Image, đồng thời mở nguồn trọng số mô hình, mã huấn luyện và bộ dữ liệu huấn luyện dưới giấy phép Apache 2.0, cho phép sử dụng thương mại. Mô hình sử dụng kiến trúc Diffusion Transformer với chuyên gia hỗn hợp thưa (MoE), tổng tham số 17B, phân bố trên 64 chuyên gia định tuyến ở mỗi lớp, chỉ kích hoạt khoảng 2B tham số trong mỗi lần suy luận, giảm đáng kể chi phí suy luận so với các mô hình dày đặc có cùng quy mô tham số. Trên ba bộ tiêu chuẩn, Nucleus-Image đạt mức ngang bằng hoặc vượt trội so với các mô hình hàng đầu đóng cửa: điểm GenEval là 0,87, tương đương mô hình hình ảnh Qwen, điểm con về vị trí không gian (0,85) đứng đầu tất cả các mô hình so sánh; điểm DPG-Bench là 88,79, xếp hạng tổng thể số một; điểm OneIG-Bench là 0,522, vượt qua Google Imagen4 (0,515) và Recraft V3 (0,502). Tất cả thành tích trên đều đạt được từ việc huấn luyện thuần túy, không thực hiện DPO, học tăng cường hay tinh chỉnh theo sở thích con người. Nucleus AI tuyên bố đây là “mô hình MoE khuếch tán hoàn toàn mở nguồn đầu tiên ở mức chất lượng này”. Dữ liệu huấn luyện được thu thập quy mô lớn từ mạng internet, qua nhiều vòng lọc, loại bỏ trùng lặp và đánh giá thẩm mỹ để giữ lại 700 triệu hình ảnh, tạo ra 1,5 tỷ cặp văn bản-hình ảnh; quá trình huấn luyện được chia làm ba giai đoạn, tăng dần độ phân giải từ 256 lên 1024, tổng cộng 1,7 triệu bước. Bộ mã hóa văn bản sử dụng Qwen3-VL-8B-Instruct, được gọi thông qua thư viện diffusers, đồng thời tích hợp bộ nhớ KV văn bản xuyên suốt các bước khử nhiễu, giúp giảm thêm chi phí suy luận. Đối với các nhà phát triển cần triển khai sinh ảnh tại chỗ, thiết kế 17B tham số nhưng chỉ kích hoạt 2B cho phép chạy trên GPU tiêu dùng. Việc mở nguồn đầy đủ (trọng số + mã huấn luyện + bộ dữ liệu) là khá hiếm — hầu hết các mô hình sinh ảnh mở nguồn chỉ công bố trọng số, trong khi bộ dữ liệu và chi tiết huấn luyện vẫn bị đóng kín, đây cũng là một trong những rào cản chính trong nghiên cứu có thể tái tạo lĩnh vực sinh ảnh từ văn bản. (Nguồn: BlockBeats)
Nucleus-Image được mở nguồn với 17 tỷ tham số, 2 tỷ được kích hoạt mỗi lần suy luận
KuCoinFlashChia sẻ






Vào ngày 16 tháng 4 (UTC+8), Nucleus AI đã mở nguồn mô hình Nucleus-Image theo giấy phép Apache 2.0. Mô hình này, được xây dựng trên MetaEra, sở hữu một diffusion transformer MoE thưa với 17 tỷ tham số, nhưng chỉ có 2 tỷ tham số được kích hoạt trong quá trình suy luận để giảm chi phí. Nó vượt trội hoặc ngang bằng với các mô hình đóng phổ biến nhất trên ba bộ dữ liệu kiểm tra mà không cần huấn luyện sau. Động thái này phù hợp với xu hướng quan tâm ngày càng tăng đối với các tài sản rủi ro và các nỗ lực CFT trên thị trường tiền điện tử toàn cầu.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.