Chiến lược AI năm 2026 của ByteDance tập trung vào các mô hình thế giới, Seedance, lập trình và thương mại hóa DouBao

iconMetaEra
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Chiến lược AI năm 2026 của ByteDance bao gồm các mô hình thế giới, Seedance, lập trình và thương mại hóa DouBao. Công ty dự định cạnh tranh với Genie 3 của Google vào cuối năm, tăng cường khả năng tạo video và mở rộng các công cụ lập trình. DouBao sẽ nhắm vào năng suất văn phòng và tin tức AI + tiền điện tử. Các nguồn nội bộ cho biết các mô hình thế giới là ưu tiên hàng đầu, với sự hỗ trợ mạnh mẽ về dữ liệu và vốn. Động thái này phù hợp với các tin tức ngày càng tăng về tài sản thực tế (RWA) và đổi mới do AI thúc đẩy.
Chiến lược AI năm 2026 của ByteDance tập trung vào bốn hướng chính: mô hình thế giới, mô hình video Seedance, Coding và thương mại hóa DouBao.

Tác giả bài viết: Chu Tân Vũ

Nguồn bài viết: 36氪

The Intelligent Emergence đã nhận được thông tin độc quyền từ nhiều nguồn cho biết, năm 2026, ByteDance AI sẽ có bốn chủ đề quan trọng:

Tăng cường đầu tư vào việc huấn luyện mô hình toàn cầu, đến cuối năm, hiệu suất mô hình đạt mức SOTA toàn cầu hiện tại của Google Genie 3.

Mô hình video tiếp tục duy trì vị thế dẫn đầu và khám phá các hướng đi mới như “tạo động”.

Củng cố nền tảng lập trình tốt hơn, thực hiện tốt việc Dogfooding trong lập trình (quay vòng dữ liệu, đánh giá, tạo vòng lặp tăng tốc), nâng cao năng lực của Agent.

DouBao tăng cường khả năng thương mại hóa, trọng tâm là các kịch bản "văn phòng".

Vùng đất chưa được khai phá của ByteDance: Mô hình toàn cầu Hiện nay, trong ma trận AI của ByteDance, có Seed 2.0 giúp ByteDance cuối cùng cũng bước vào nhóm đầu Trung Quốc về mô hình quy mô lớn, cùng với Seedance 2.0 đạt trình độ SOTA toàn cầu. Ngoài ra, ở phía ứng dụng, DouBao cũng tạo ra sự dẫn đầu vượt trội—chúng tôi được biết từ nhiều nguồn rằng, sau Tết Nguyên Đán năm 2026, số người dùng hàng ngày (DAU) của DouBao đạt 200 triệu.

“Không có điểm yếu rõ ràng.” Một chiến lược AI của một công ty lớn đã đánh giá về ma trận hoạt động AI của ByteDance.

Tuy nhiên, trong số các mô hình này, duy nhất thiếu mô hình thế giới – yếu tố then chốt cho giai đoạn tiếp theo của nghiên cứu mô hình lớn.

Một vài người thân cận với đội ngũ Seed cho biết, ByteDance là người chơi gia nhập lĩnh vực mô hình thế giới khá muộn. Năm 2024, Chu Chang, người vừa gia nhập ByteDance từ Alibaba, đã gánh vác trọng trách nghiên cứu mô hình thế giới.

Nhưng lúc đó, đánh giá nội bộ cho rằng hướng đi của mô hình thế giới và các bối cảnh thương mại hóa vẫn chưa rõ ràng, điều quan trọng hơn là tập trung giành thắng lợi trong lĩnh vực mô hình video.

Cho đến năm 2025, ByteDance mới thành lập nhóm nghiên cứu quy mô nhỏ để bắt đầu khám phá con đường VLA (Visual-Language-Action Model) trong các mô hình thế giới. Nhóm được dẫn dắt bởi hai người:

Thứ nhất, ông Lý Hàng, trưởng phòng AI Lab của ByteDance — vào tháng 4 năm 2025, toàn bộ AI Lab (bao gồm đội Robotics) đã được sáp nhập vào Seed, một trong những mục đích là nâng cao hiệu quả giao tiếp giữa mô hình và ứng dụng (trí tuệ thể chất) — chủ yếu dựa trên dữ liệu mô phỏng để huấn luyện mô hình thế giới.

Người còn lại là Vương Văn Thiên, nghiên cứu viên đa mô hình của Seed, chủ yếu huấn luyện dựa trên dữ liệu tự nhiên.

Đến năm 2026, Wu Yonghui cuối cùng đã đặt ra một mục tiêu rõ ràng cho mô hình thế giới tại cuộc họp toàn thể Seed: phát hành ít nhất một phiên bản mô hình thế giới trước cuối năm 2026, với hiệu năng ngang bằng với SOTA thế giới hiện tại — Genie 3 do Google phát hành vào tháng 8 năm 2025.

Tuy nhiên, theo tiến độ hiện tại, tốc độ đuổi theo vẫn chưa đủ nhanh. Một người gần gũi với Seed cho biết, Wu Yonghui đã nhiều lần thẳng thắn nói trong các cuộc họp nội bộ của Seed rằng mô hình thế giới và trí tuệ cụ thể của ByteDance không đạt được kỳ vọng.

Một thành viên của Seed tiết lộ, theo đánh giá nội bộ, đến đầu năm 2026, hiệu suất tổng thể của mô hình thế giới Byte vẫn còn cách xa SOTA toàn cầu 10%.

But this battle represents the future.

Một mặt, các ứng dụng hạ lưu của mô hình thế giới là thị trường trí tuệ nhúng với quy mô ít nhất 100 tỷ USD, cùng các cảnh quan trò chơi và giải trí đầy tiềm năng.

Một cựu nghiên cứu viên của Seed từng chia sẻ với chúng tôi rằng, trước đây, các ứng dụng thực tế của robot Byte chủ yếu tập trung vào vận chuyển hàng hóa và nâng hạ công nghiệp, nhưng nội bộ nhận định rằng ngưỡng tăng trưởng của các lĩnh vực này khá thấp, “robot hình người với triển vọng thị trường rộng lớn hơn là hướng đi mà Byte chắc chắn sẽ tham gia.”

Mặt khác, các hướng đi của mô hình thế giới vẫn còn nhiều điểm chưa thống nhất, bao gồm nhóm sinh video, nhóm VLA (mô hình thị giác - ngôn ngữ - hành động), nhóm JEPA (dự đoán pixel), v.v.

“Đặt cược, với mật độ nhân tài và mức đầu tư vốn của ByteDance, khả năng cao sẽ chiến thắng,” một nhà đầu tư AI phân tích với chúng tôi, “không đặt cược, thì chắc chắn sẽ thua.”

Để hướng tới mục tiêu lọt vào nhóm đầu thế giới, kể từ năm 2026, ByteDance đã thực hiện nhiều điều chỉnh trong việc huấn luyện mô hình toàn cầu.

Theo thông tin từ “Sự trỗi dậy của trí tuệ”, sau Tết Nguyên Đán năm 2026, Seed đã thành lập một nhóm nghiên cứu mô hình thế giới mới, do Phạm Hạo Kỳ, cựu nghiên cứu viên của FAIR Lab thuộc Meta, làm trưởng nhóm, báo cáo cho Chu Sướng, người phụ trách đa phương tiện và mô hình thế giới của Seed;

Trong khi đó, hai nhóm nghiên cứu VLA do Lý Hàng và Vương Văn Thiên dẫn dắt đã được sáp nhập và báo cáo thống nhất cho Chu Sướng.

Nhiều nguồn tin am hiểu đã tiết lộ với Smart Emergence rằng nhóm nghiên cứu của Lý Hàng và Vương Văn Thiên trước đây chủ yếu theo đuổi hướng VLA, nhấn mạnh vào tính “tức兴” và “thực tế”, với mục tiêu ứng dụng là trí tuệ thể chất; trong khi nhóm mới do Phạm Hạo Kỳ dẫn dắt lại theo hướng mô phỏng 3D, tập trung vào các ứng dụng giải trí và trò chơi.

Ngoài việc mở rộng nhân lực và lộ trình khám phá, mô hình thế giới cũng là mô hình đầu tư vốn cao nhất trong số các hướng mô hình như văn bản, mã hóa, video, v.v.

Rõ ràng là ngân sách dữ liệu. Một nhân viên của nền tảng dữ liệu Byte cho chúng tôi biết rằng chiến lược “đánh số lượng” trong dữ liệu huấn luyện trước đây đã mang lại lợi ích đáng kể cho LLM và Seedance 2.0, và nhóm dự định áp dụng cùng “chiến thuật biển dữ liệu” này vào việc huấn luyện mô hình thế giới.

Điều này cũng tương ứng với mức đầu tư dữ liệu cao hơn—chúng tôi được biết từ nhiều nguồn rằng vào năm 2026, ngân sách mà ByteDance cấp cho dữ liệu huấn luyện mô hình thế giới (bao gồm các modalities như VLA, video dài, 3D, v.v.) là cao nhất trong tất cả các modalities, đạt mức hàng chục triệu nhân dân tệ.

Một nhà cung cấp dữ liệu cho biết, ByteDance đã đầu tư dữ liệu vào mô hình toàn cầu nhiều gấp 3-4 lần so với các nhà sản xuất khác.

Lập trình: Đạt được khả năng lập trình dữ liệu cao cấp hơn là nền tảng, là yếu tố quyết định giới hạn hiệu quả của Agent — đây đã trở thành sự đồng thuận trong ngành.

Nhiều nguồn tin am hiểu đã từng nhắc với chúng tôi về sự coi trọng của ByteDance đối với Coding. “ByteDance luôn đầu tư rất cao vào Coding, chỉ sau mô hình thế giới năm nay,” một người gần gũi với Seed cho biết với Trí tuệ Bùng nổ.

Ví dụ: nội bộ sẽ mua dữ liệu có định hướng hoặc nghiên cứu các bản demo dữ liệu huấn luyện của các mô hình mã hóa hàng đầu nước ngoài như Claude Code, CodeX.

Tại hội nghị Force của Volcano Engine năm 2025, Phó Chủ tịch Công nghệ ByteDance, Hồng Định Khôn, cũng cho biết rằng Coding, với tư cách là một nhiệm vụ có cấu trúc cao và logic chặt chẽ, đòi hỏi mô hình phải có khả năng hiểu sâu các cấu trúc ngữ nghĩa phức tạp, suy luận logic, thiết kế thuật toán và diễn đạt chính xác, từ đó hỗ trợ khám phá giới hạn trí tuệ của mô hình.

Tuy nhiên, ngoài xã hội, sự hiện diện của dịch vụ Coding của ByteDance luôn không mạnh mẽ. Dù là mô hình Doubao-Seed-Code được phát hành vào tháng 11 năm 2025 hay công cụ lập trình AI Trae được ra mắt đầu năm 2025, hiệu quả và độ lan tỏa đều không bằng GLM 5 của Zhipu và K2 của Moonshot.

Một người trong cuộc đánh giá: “Nguyên nhân khiến hiệu quả lập trình của ByteDance khó có đột phá là do thiếu vòng phản hồi dữ liệu.” Do khả năng mô hình hạn chế, các nghiệp vụ liên quan đến ByteDance đều không muốn sử dụng Seed-Code.

Ngay cả ứng dụng AI Coding Trae, những nền tảng đầu tiên được tích hợp cũng là DeepSeek và Claude Code, cùng với mô hình Coding do sản phẩm tự huấn luyện.

Điều này dẫn đến việc mô hình mã hóa của Byte thiếu phản hồi từ các ứng dụng thực tế.

Kể từ năm 2026, nhiều nhân viên của ByteDance đã cảm nhận được rằng các bộ phận kinh doanh đang tăng cường hỗ trợ cho mô hình Seed. Một nhân viên của Seed cho biết với “Intelligence Emergence” rằng trước đây ByteDance không hạn chế các bộ phận kinh doanh sử dụng các mô hình Coding bên thứ ba để phát triển, nhưng kể từ năm 2026, nhiều phòng ban ứng dụng đã bị yêu cầu bắt buộc sử dụng mô hình Seed.

Tuy nhiên, với mức đầu tư dữ liệu cao hơn nữa, tốc độ tuyển dụng nhân sự của Seed đã hơi chậm lại.

Một đầu mối trong cộng đồng AI đã thông báo với “Intelligent Emergence” rằng, hiện tại bộ phận nhân sự của ByteDance đang gửi tín hiệu rõ ràng: thời kỳ tuyển dụng đại trà với mức lương cao đã kết thúc, nhiệm vụ tiếp theo là đào tạo và đề bạt nhân tài trẻ tuổi trong nội bộ, đồng thời nâng cao đãi ngộ cho các chuyên gia thuật toán.

Hiện nay, các vị trí tuyển dụng hiếm hoi của Seed chủ yếu mở ra cho các chuyên gia AI từ các công ty lớn nước ngoài như DeepSeek, OpenAI, DeepMind, Meta, chẳng hạn như Quan Daya, cựu thành viên cốt lõi của DeepSeek, và Dong Xin, cựu nghiên cứu viên của NVIDIA.

Seedance làm thế nào để duy trì vị trí SOTA? Năm 2026, trọng điểm khác của ByteDance trong các mô hình AI là duy trì vị trí SOTA của Seedance trong lĩnh vực tạo video toàn cầu.

“Seedance 2.0 的成功,是数据的成功。” 某家视频生成初创企业的创始人曾对《智能涌现》如此评价 Seedance 2.0。我们了解到,庞大的训练数据量和超过 2000 人的评估团队,造就了 Seedance 2.0 的出色表现。

Tuy nhiên, cách huấn luyện liên tục dựa trên “số lượng dữ liệu” cũng tiềm ẩn những lo ngại. Một số nghiên cứu cho thấy trong lĩnh vực sinh video tồn tại hiện tượng “Định luật Chống Tăng quy mô” (Anti-Scaling Law), nói một cách đơn giản, càng nhiều dữ liệu huấn luyện, mô hình càng có xu hướng “lười biếng”, chỉ học một số khung hình then chốt và bỏ qua toàn bộ câu chuyện—do đó, càng về sau quá trình huấn luyện, lợi ích từ việc tăng số lượng dữ liệu thường càng giảm.

Hai nguồn tin am hiểu về phía dữ liệu cho biết, Seedance đã đạt đến giới hạn trong giai đoạn tiền huấn luyện; để cải thiện hiệu suất tiếp theo, họ phải làm sạch dữ liệu huấn luyện và thực hiện hậu huấn luyện tinh vi hơn.

Meanwhile, the "dynamic generation" capability is a new focus area for the Seedance team in 2026.

“Tạo động” hay còn gọi là video tương tác, cho phép người dùng nhập lệnh để điều chỉnh nội dung và cốt truyện của video bất cứ lúc nào. Trên lĩnh vực này, đã xuất hiện Vivix AI với định giá lên tới 1,32 tỷ USD (được thành lập bởi Lưu Vũ, cựu giám đốc nghiên cứu cấp cao của SenseTime).

Nhiều nguồn tin am hiểu đã thông báo với Smart Emergence rằng Zhou Chang luôn rất lạc quan về triển vọng ứng dụng thực tế của việc tạo ra động.

“Các video tương tác có thể được phát triển thành các trò chơi nhỏ, hoặc các bộ phim tương tác, đồng thời cũng có thể kết nối với việc khám phá mô hình thế giới (việc tạo video cũng là một hướng khám phá của mô hình thế giới),” một người gần gũi với Seed cho biết.

Tăng tốc thương mại hóa và mở rộng ra nước ngoài của DouBao. 36Kr từng đưa tin độc quyền rằng DouBao dự kiến sẽ chính thức ra mắt nội dung trả phí vào cuối tháng 6; đồng thời, DouBao cũng đang lên kế hoạch tích hợp với thương mại điện tử của Douyin để hoàn thiện các kịch bản trả phí.

Đầu tháng 5 năm 2026, DouBao từng cập nhật các gói đăng ký trả phí trên App Store, với giá đăng ký hàng tháng dao động từ miễn phí đến 500 nhân dân tệ.

Ngày 3 tháng 6, DouBao chính thức công bố sẽ ra mắt "DouBao Pro" nhằm đáp ứng nhu cầu năng suất của nhóm chuyên gia, bao gồm các dịch vụ chuyên sâu như phát triển phần mềm, phân tích dữ liệu, thiết kế chuyên nghiệp, tự động hóa quy trình, phân tích tài chính và nghiên cứu khoa học.

Nhiều nguồn tin tiết lộ, sau Tết Nguyên Đán, DAU của DouBao đã vượt quá 200 triệu. “Năm nay, ngân sách quảng bá của DouBao rất thấp,” theo một nguồn tin trong cuộc, DAU cao mang lại chi phí suy luận và áp lực vận hành lớn, do đó, việc DouBao thúc đẩy thương mại hóa vào thời điểm này nhằm mục đích kép: giảm tốc độ tăng trưởng và tự tạo nguồn thu.

Việc tạo PPT là điểm tiếp cận cốt lõi để豆包 xây dựng nhận thức người dùng về việc trả phí. “豆包 muốn tăng cường chức năng tạo PPT nhằm thu phí từ các nhân viên văn phòng trong các ngành cao cấp như tài chính, luật,” một người am hiểu về豆包 cho biết với Tác động Trí tuệ. Giai đoạn tiếp theo,豆包 dự định ra mắt phiên bản doanh nghiệp, tích hợp với các hệ thống nội bộ của doanh nghiệp, nhưng hiện vẫn đang thảo luận về cách thức kết hợp cụ thể.

Anh ấy cho biết, ý tưởng này được truyền cảm hứng từ mô hình kinh doanh ở nước ngoài. Hiện nay, con đường thương mại hóa thông qua việc thu phí cho các bối cảnh văn phòng đã được xác minh ở nước ngoài. Theo dữ liệu do Anthropic công bố, chỉ sau 6 tháng ra mắt, ARR của Claude Code đã đạt 1 tỷ USD; sau một năm, ARR vào tháng 2 năm 2026 đã đạt 2,5 tỷ USD.

Dòng tiền dồi dào mang lại từ Claude Code cho các bối cảnh phát triển doanh nghiệp đã giúp Anthropic, công ty được thành lập muộn hơn OpenAI 6 năm, vượt lên dẫn đầu ARR của OpenAI vào đầu năm nay.

Bây giờ, vấn đề mà DouBao cần giải quyết là chuyển đổi nhận thức của người dùng từ một “cổng vào chung” có thể hỏi miễn phí mọi thứ thành một “trợ lý văn phòng” giúp nâng cao hiệu suất, dù phải trả phí.

Tuy nhiên, thị trường mà DouBao muốn gia nhập đã bắt đầu trở nên chật chội. Một người của DouBao cho biết với Trí tuệ Trỗi dậy rằng, trong quá trình điều tra khách hàng doanh nghiệp, ByteDance phát hiện thị trường công cụ AI doanh nghiệp đã bị chiếm lĩnh bởi nhiều nhà cung cấp giải pháp AI ngành, do đó DouBao đến muộn chắc chắn sẽ phải đối mặt với chi phí thu hút khách hàng cao hơn.

《Intelligent Emergence》了解到, xuất khẩu cũng là một trong những trọng tâm quan trọng của DouBao năm nay.

Trước đó, ứng dụng phiên bản quốc tế của DouBao, Dola, đã vượt mốc 10 triệu DAU vào cuối năm 2025. The Intelligent Emergence了解到, mục tiêu tăng trưởng của Dola năm 2026 là đạt 30 triệu DAU vào cuối năm.

Một nguồn tin am hiểu cho biết, các quốc gia sử dụng ngôn ngữ nhỏ là thị trường chính mà Dola hướng đến. Hiện nay, thị trường AI Chatbot nước ngoài đã cơ bản bị ChatGPT, Claude và Gemini chiếm lĩnh. Việc không đối đầu trực tiếp với “ba ông lớn AI” tại thị trường Âu-Mỹ, mà lựa chọn tiếp cận khác biệt vào thị trường ngôn ngữ nhỏ, là chiến lược tăng trưởng của Dola.

Dữ liệu từ bên thứ ba cho thấy, kể từ nửa cuối năm 2025, Dola thường xuyên xuất hiện trong danh sách bảng xếp hạng tải xuống của các cửa hàng ứng dụng tại Indonesia, Malaysia, Mexico và các quốc gia khác.

——

Trong một năm qua tại ByteDance, đề bài của Wu Yonghui là dẫn dắt Seed vừa sửa lỗi, vừa phát triển các mô hình SOTA. Và vào năm 2026, tại mọi chiến trường của AI, mục tiêu của ByteDance là trở thành người chiến thắng.

Hiện nay, Seed 2.0 và Seedance 2.0 đã bắt đầu cho thấy những thành quả ban đầu, những kinh nghiệm về kỹ thuật, dữ liệu và nhân sự mà Seed tích lũy được cũng sẽ được tái sử dụng một cách hiệu quả hơn trong cuộc chiến mới.

(Tác giả của “Sự trỗi dậy của trí tuệ”, Đặng Vĩnh Nghi, cũng đã đóng góp cho bài viết này.)

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.