Artikel ini akan menganalisis mendalam status penempatan cip AI buatan sendiri oleh raksasa global, membuktikan mengapa pelaburan besar-besaran dalam cip buatan sendiri adalah pilihan tak terelakkan bagi raksasa teknologi, berdasarkan logik ekonomi dan teknikal asas, serta meramalkan cabaran yang dihadapi dan akhir struktur kekuatan pengiraan.

Penulis artikel, sumber: 0x9999in1, ME News

Pengenalan

Sejak letusan AI generatif pada akhir 2022, industri teknologi global memasuki gelombang perlombaan senjata baru yang berpusat pada model besar. Dalam perlombaan ini, kekuatan pengiraan menjadi infrastruktur dasar yang menentukan kejayaan atau kegagalan. Nvidia, berdasarkan pengalaman panjangnya dalam bidang unit pemprosesan grafik am (GPU) dan kuasa mutlak ekosistem perisian CUDA, memperoleh keuntungan paling besar daripada gelombang AI ini. Namun, margin kotor yang melebihi 70% serta kapasiti yang tidak mencukupi telah menyebabkan penyedia perkhidmatan awan (CSP) dan raksasa teknologi AI global mengalami kecemasan pengiraan sebagai “pekerja Nvidia”.

Berdasarkan latar belakang ini, «ME News Think Tank» memperhatikan bahawa raksasa teknologi global sedang mempercepat peralihan fokus strategik mereka ke peranti keras asas, memicu gelombang tanpa precedent dalam «pengembangan cip AI sendiri». Dari Google, Amazon, Microsoft, dan Meta di Amerika Utara, hingga Huawei, Baidu, Alibaba, dan ByteDance di China, usaha raksasa dalam pembuatan cip telah berubah dari awalnya «percubaan» menjadi «strategi inti» yang menentukan kelangsungan hidup perusahaan. Artikel ini akan menganalisis secara mendalam status penempatan cip AI sendiri oleh raksasa global, membuktikan dari segi ekonomi dan logik teknis asas mengapa pelaburan besar-besaran dalam cip sendiri merupakan pilihan tak terelakkan bagi raksasa teknologi, serta meramalkan cabaran yang dihadapi dan akhir struktur kekuatan pengiraan.

Status quo penempatan cip AI buatan sendiri oleh raksasa teknologi global terkemuka

Saat ini, cip AI buatan sendiri oleh syarikat besar global terutama berfokus pada awan (pusat data), dibahagikan kepada dua skenario utama: latihan (Training) dan inferens (Inference). Berbeza dengan pendekatan NVIDIA yang mengejar keupayaan generik, syarikat-syarikat besar lebih banyak menggunakan arsitektur litar terpadu khusus (ASIC), dengan mengorbankan sebahagian keupayaan generik untuk mendapatkan nisbah kecekapan yang ekstrem dalam skenario perniagaan dalaman tertentu.

Tiga pemain utama pengeluar awan di Amerika Utara dan pelopor yang menembus pasaran

Empat raksasa awan Utara Amerika (empat Hyperscalers) memiliki perbezaan masa dalam langkah mereka untuk mengembangkan cip sendiri, tetapi kini telah masuk sepenuhnya, membentuk "kolam pelindung" terhadap ketergantungan kepada kekuatan pengiraan NVIDIA.

Google: Peneraju dan tolok ukur mutlak dalam jalan self-developed

Google adalah raksasa pertama di dunia yang menyedari bahawa pembelajaran mendalam menuntut perubahan baru terhadap peranti keras asas. Pada tahun 2015, Google telah melancarkan Unit Pemprosesan Tensor (TPU) generasi pertama secara dalaman. Selepas hampir sepuluh tahun pengembangan, TPU semasa kini telah berkembang kepada generasi keenam (Trillium).

Kelebihan Google terletak pada ekosistem tertutupnya: dari peranti keras TPU di tingkat bawah, compiler XLA dan kerangka kerja JAX di tingkat tengah, hingga model besar Gemini di tingkat atas. Kolaborasi peranti lunak dan peranti keras end-to-end ini membolehkan Google melatih model besar multimodal terkemuka di dunia tanpa bergantung pada kluster GPU NVIDIA. Peningkatan ketara dalam lebar pita antar-koneksi dan memori berpemandu tinggi (HBM) pada TPU v5p dan Trillium membuktikan bahawa Google telah memiliki kemampuan rangkaian kluster berskala super yang mampu bersaing dengan NVLink NVIDIA.

Amazon (AWS): Berpusat pada kos dan pilihan pelanggan

Sejarah AWS dalam pembuatan cip bermula pada tahun 2015 dengan pengambilalihan Annapurna Labs. Dalam bidang AI, AWS mengembangkan dua garis produk: Trainium (utama untuk latihan) dan Inferentia (utama untuk inferens). Strategi AWS sangat pragmatis: ia tidak cuba menggantikan GPU sepenuhnya dengan cip buatan sendiri, tetapi menyediakan pilihan pengiraan yang berkesan dari segi kos kepada pelanggan awan AWS. Menurut data rasmi AWS, penggunaan cip Inferentia2 untuk inferens model besar meningkatkan prestasi setiap watt sebanyak 50% berbanding contoh Amazon EC2 sejenis.

Microsoft dan Meta: Dari Membayar Secara Pasif kepada Mengambil Inisiatif Membongkar Keadaan

Microsoft dan Meta adalah pembeli terbesar sebelumnya untuk H100/A100 NVIDIA. Untuk menyokong latihan OpenAI serta perniagaan Copilot sendiri, Microsoft secara rasmi melancarkan cip AI buatan sendiri, Azure Maia 100, pada akhir 2023. Cip ini menggunakan proses 5nm TSMC, direka khas untuk latihan dan inferens awan.

Jalan Meta pula sangat sejajar dengan bisnisnya sendiri. Cip MTIA (Meta Training and Inference Accelerator) yang dilancarkannya awalnya direka khas untuk model rekomendasi pembelajaran mendalam (DLRM), untuk mengoptimumkan penghantaran iklan di Facebook dan Instagram. Seiring dengan ledakan model besar open-source siri Llama, cip MTIA generasi baharu secara signifikan meningkatkan sokongan untuk inferensi AI generatif, dengan tujuan mengurangkan kos inferensi yang mahal akibat seribu miliar panggilan.

Penggantian tempatan dan kebangkitan ekosistem oleh raksasa China

Berbeza dengan logik syarikat besar di Amerika Utara yang mencari “pengurangan kos dan peningkatan kecekapan”, raksasa teknologi China lebih menekankan aspek strategik “pertahanan minimum” dan “keselamatan rantaian bekalan” dalam pembangunan cip AI sendiri, menghadapi larangan eksport cip AI high-end Amerika.

Huawei: Pilar utama kekuatan komputasi tempatan

Siri Huawei Ascend adalah satu-satui produk tempatan yang mampu menggantikan NVIDIA A100/H20 dalam latihan kluster berskala super besar. Ascend 910B menggunakan arsitektur Da Vinci, yang secara mendalam diintegrasikan dengan kerangka tempatan seperti CANN (Computing Architecture for Neural Networks) dan MindSpore. Saat ini, lebih daripada separuh model besar terkemuka di negara ini (seperti Xinghuo dari iFlytek dan Zhipu AI) telah selesai atau sedang menjalani penyesuaian dan latihan berdasarkan infrastruktur komputasi Ascend.

Pendekatan praktikal raksasa internet: Baidu, Alibaba, dan ByteDance

Baidu's Kunlun Xin adalah salah satu cip AI buatan sendiri pertama yang diluncurkan oleh perusahaan internet besar di Tiongkok, dan kini telah beriterasi ke generasi ketiga, mendukung sepenuhnya inferensi dan sebagian fine-tuning model besar Wenxin Yiyan. Alibaba's Pingtouge Semiconductor meluncurkan Hanguang 800, yang terutama berfokus pada skenario inferensi berfrekuensi tinggi seperti pencarian e-commerce dan pengenalan gambar di dalam Alibaba. ByteDance, sebagai perusahaan dengan kebutuhan daya komputasi algoritma rekomendasi terbesar di dunia, meskipun masuk lebih lambat, kini secara aktif bekerja sama dengan raksasa desain dan produksi cip seperti TSMC dan Broadcom untuk menyesuaikan cip AI ASIC khusus, guna mengatasi konsumsi inferensi harian besar dari model besar DouBao serta TikTok/Douyin.

Jadual 1: Gambaran keseluruhan penempatan cip AI oleh raksasa teknologi utama global

Analisis Mendalam: Mengapa syarikat besar perlu melabur banyak wang dalam pembangunan cip AI sendiri?

Mengembangkan cip AI dengan proses canggih (seperti 5nm/3nm) memerlukan biaya peluncuran berjuta-juta dolar AS, serta mempertahankan pasukan besar dalam reka bentuk cip dan pengesahan perisian. Menghadapi rintangan yang sangat tinggi ini, raksasa teknologi terus berlumba-lumba, menurut «ME News Think Tank», ini disebabkan oleh logik perniagaan yang jelas, permainan rantaian bekalan, dan hukum teknologi asas.

Kos pengiraan tinggi dan ketidakbolehlanjutan model perniagaan

Model perniagaan AI generatif semasa ini menghadapi risiko "inversi" yang serius. Melatih model besar setara GPT-4 dengan triliunan parameter memerlukan puluhan ribu GPU H100 beroperasi selama beberapa bulan, dengan perbelanjaan modal peranti keras (CapEx) sahaja mencapai ratusan juta dolar AS. Selepas model dideploy, kos inferens berterusan menjadi lubang tanpa dasar.

NVIDIA memiliki kapitalisasi pasaran melebihi satu trilion dolar AS kerana secara esensinya mengenakan cukai “kekuatan pengiraan” yang tinggi ke atas seluruh industri AI. GPU generik perlu menangani fungsi-fungsi seperti render grafik (Graphics), pengiraan titik terapung presisi ganda (FP64), dan sebagainya, yang mengambil ruang transistor cip yang besar, tetapi tidak berguna sama sekali dalam pembelajaran mendalam tulen (yang terutama bergantung pada FP16, FP8, atau bahkan INT8). Pembeli besar GPU sebenarnya membayar untuk “silikon gelap (Dark Silicon)” yang tidak digunakan ini.

Dengan menggunakan cip ASIC khusus yang dikembangkan sendiri, perusahaan besar dapat menghilangkan semua fungsi yang tidak perlu, mengalokasikan setiap inci persegi luas silikon untuk pengoptimalan pengiraan tensor dan lebar pita memori. Menurut penilaian industri, dalam skenario inferensi berskala besar tertentu, kos pengiraan sekali lalu (TCO) cip ASIC khusus hanya 1/3 hingga 1/5 daripada GPU generik. Bagi perusahaan seperti Meta dan ByteDance yang memerlukan ribuan miliar panggilan inferensi setiap hari, apabila cip buatan sendiri dideploy secara berskala, pengurangan perbelanjaan operasi (OpEx) tahunan akan berjumlah puluhan miliar dolar. Menginvestasikan beberapa ratus juta dolar untuk mengembangkan cip demi mendapatkan pengurangan kos puluhan miliar dolar adalah perhitungan ekonomi yang sangat pasti.

Penghedaran keselamatan rantaian bekalan dan risiko geopolitik

Selain kos, kerentanan rantaian bekalan adalah pedang Damokles yang menggantung di atas kepala raksasa teknologi. NVIDIA mempunyai kuasa mutlak dalam pengagihan kapasiti, dan tempoh penghantaran untuk kad grafik utama seperti H100/B200 sering berlangsung selama berbulan-bulan. Tanpa kuasa pengiraan, kemajuan perniagaan AI syarikat besar akan terhenti.

Membangun cip sendiri pada dasarnya meningkatkan “kuasa tawar-menawar” terhadap NVIDIA. Walaupun syarikat besar mungkin tidak dapat sepenuhnya melepaskan diri daripada NVIDIA dalam latihan model paling mutakhir, penggunaan cip buatan sendiri di sisi inferens dan sistem cadangan akan mengurangkan ketergantungan mutlak terhadap GPU generik luaran, dengan demikian memberikan lebih banyak kekuatan dalam rundingan pembelian.

Bagi perusahaan China, pengembangan chip sendiri adalah pilihan yang tak terelakkan. Disebabkan oleh peraturan pengawasan eksport BIS Departemen Perdagangan Amerika, perusahaan tempatan tidak dapat memperoleh chip komersial dengan kepadatan pengiraan dan lebar pita sambungan tertinggi. Melalui pengembangan sendiri dan menggabungkan sistem pembuat semikonduktor tempatan atau bukan Amerika, membina asas pengiraan yang boleh dikendalikan sendiri adalah jalan tunggal untuk memastikan kedaulatan AI negara dan kesinambungan perniagaan pusat data perusahaan.

Pengoptimuman perisian dan peranti secara bersamaan serta rintangan persaingan yang berbeza

Pada masa ini, di mana Hukum Moore semakin melambat, peningkatan prestasi yang semata-mata bergantung pada proses pembuatan cip (seperti dari 5nm ke 3nm dan seterusnya ke 2nm) menunjukkan kesan marjinal yang semakin berkurang. Terobosan kuasa pengiraan masa depan semakin bergantung kepada “perisian yang mentakrifkan peranti keras” dan “reka bentuk bersama perisian-dan-peranti keras (Hardware-Software Co-design)”.

GPU generik mesti kompatibel dengan ribuan aplikasi dan algoritma yang berbeza, oleh itu arsitekturnya mesti bersifat sederhana. Sebaliknya, cip buatan sendiri oleh syarikat besar boleh dioptimasi secara khusus berdasarkan jenis data, ciri kejarangan, dan corak komunikasi model besar inti mereka.

Sebagai contoh, jika fokus bisnis syarikat besar ialah inferens model bahasa besar dengan konteks sangat panjang, cip buatan sendiri mereka boleh direka untuk memaksimumkan kapasiti SRAM pada cip atau lebar pita memori HBM, bukan sekadar mengejar puncak kuasa pengiraan (FLOPS). Kemampuan untuk “mencetak” algoritma AI mereka sendiri ke dalam lapisan silikon bawah membina pengalaman prestasi yang sukar disalin oleh pesaing, seterusnya membina parit pertahanan yang mendalam.

Cabaran sebenar dan jalan keluar bagi cip AI buatan sendiri

Walaupun nilai strategik cip AI buatan sendiri jelas, ia bukanlah jalan yang mudah. Membuat cip secara sembarangan tidak hanya boleh menyebabkan dana besar hilang sia-sia, tetapi juga boleh melambatkan kelajuan pengulangan perniagaan AI sendiri.

Melintasi rintangan ekosistem: Seberapa dalam parit pertahanan CUDA?

Rintangan paling menakutkan NVIDIA bukanlah prestasi peranti keras, tetapi ekosistem perisian CUDA yang telah dioperasikan selama hampir dua dekad. Saat ini, sebahagian besar pembangun AI di seluruh dunia dan pustaka algoritma AI terkemuka (seperti operator bawah tanah PyTorch) sangat terikat pada CUDA.

Tantangan terbesar yang dihadapi chip buatan sendiri oleh syarikat besar ialah “mudah dibuat tetapi sukar digunakan”. Walaupun proses pelancaran berjaya, jika pembangun perlu menghabiskan berbulan-bulan untuk menulis semula kod lapisan bawah agar sesuai dengan kompilator chip baru, chip tersebut tidak akan dapat dipromosikan di dalam syarikat.

Untuk memecahkan kebuntuan, industri sedang mengambil tindakan mengelilingi CUDA. Di satu sisi, syarikat-syarikat besar sedang secara aktif mengembangkan kompilator milik sendiri (seperti XLA dari Google); di sisi lain, bahasa pengaturcaraan sumber terbuka Triton yang diperkenalkan oleh OpenAI diharapkan akan menjadi penyelesaian. Triton bertujuan untuk menyediakan bahasa dengan peringkat abstraksi yang lebih tinggi daripada CUDA, di mana pembangun hanya perlu menulis kod sekali, dan kompilator Triton akan mengubahnya menjadi kod mesin yang sesuai dengan pelbagai peranti bawah (seperti GPU Nvidia, GPU AMD, dan ASIC milik pelbagai pihak). Apabila ekosistem perantara seperti Triton atau yang serupa matang, masa penguncian CUDA akan dikurangkan secara ketara, dan kos pemindahan cip buatan sendiri oleh syarikat besar akan berkurang secara signifikan.

Permainan antara kos pengembangan yang besar dan kesan skala

Industri cip adalah pasaran yang sangat menekankan "kesan skala" dengan pemenang menguasai seluruh pasaran. NVIDIA dapat mengagihkan kos penyelidikan dan pembangunan yang besar kepada jutaan unit GPU yang dihantar secara global. Manakala cip buatan sendiri oleh syarikat besar biasanya hanya digunakan secara dalaman atau oleh pelanggan awan mereka sendiri, dengan jumlah penghantaran mungkin hanya dalam lingkungan puluhan ribu atau ratusan ribu.

Jika skala yang mencukupi tidak dapat dicapai, kos per unit untuk cip buatan sendiri akan jauh lebih tinggi berbanding pembelian langsung GPU generik. Oleh itu, cip AI buatan sendiri pasti hanya menjadi “permainan berani yang hanya boleh dimainkan oleh segelintir raksasa”. Bagi perusahaan teknologi menengah hingga kecil, usaha untuk mengembangkan cip AI dasar secara sendiri tidak hanya tidak berterusan dari segi kewangan, tetapi juga tidak mampu mengikuti ritme inovasi teknologi daripada pembuat cip profesional seperti NVIDIA; pilihan yang lebih bijak ialah menerima perkhidmatan awan komputasi yang sedia ada.

Jadual 2: Perbandingan kelebihan dan kekurangan GPU komersial umum dengan cip ASIC buatan sendiri oleh syarikat besar

Analisis: Perkembangan akhir dalam struktur kekuatan pengiraan masa depan

Berdasarkan analisis di atas, «ME News Think Tank» membuat penilaian berikut terhadap landskap kekuatan AI global dalam 3-5 tahun ke depan:

Dari "satu unggul, banyak kuat" menuju "pemisahan vertikal": GPU menguasai latihan, ASIC menguasai inferensi

NVIDIA akan tetap menjadi raja yang tak tergantikan dalam menjelajahi batas model AI terkini (Frontier Models) untuk jangka waktu yang panjang, kerana dalam latihan parameter berskala super besar yang sangat kompleks, algoritma masih mengandungi ketidakpastian yang tinggi, dan tahap ini sangat memerlukan keupayaan generik GPU serta fleksibiliti dan kemampuan pembaikan ralat ekosistem CUDA.

Namun, dalam peringkat inferens selepas model matang serta pelaksanaan harian dalam aplikasi internet berskala besar (seperti cadangan video pendek, penulisan semula enjin carian), kos tinggi GPU generik akan memaksa syarikat beralih sepenuhnya kepada ASIC buatan sendiri. Pusat data masa depan akan menjadi heterogen: beberapa kluster GPU yang sangat mahal digunakan untuk “membuat ilmu” (melatih model besar generasi seterusnya), manakala kluster ASIC buatan sendiri dalam jumlah besar bertanggungjawab menangani miliaran panggilan pengguna C-end setiap hari.

Custom Silicon menjadi piawaian dalam perkhidmatan awan

Seperti pusat data besar hari ini yang mereka sendiri papan induk dan sistem penyejukan server, penyesuaian mendalam ke peringkat bawah cip akan menjadi peralatan standard untuk penyedia awan terkemuka (CSP). Kemampuan untuk mereka cip sendiri akan menjadi daya saing utama penyedia awan apabila menjual perkhidmatan AI kepada pelanggan. Penyedia awan yang tidak mampu mereka peranti keras bawahannya akan kehilangan ruang keuntungan bersih sepenuhnya dalam perang harga masa depan, dan menjadi semata-mata “penyewa kedua ruang mesin”.

Secara keseluruhan, pembangunan cip AI sendiri oleh raksasa teknologi bukanlah untuk memusnahkan NVIDIA sepenuhnya, tetapi merupakan peperangan untuk merebut kembali kuasa pembahagian keuntungan asas di era AI. Dengan mencapai kebebasan komputasi di sisi inferens dan bisnis inti dalaman, raksasa teknologi sedang mengambil semula kawalan atas aset teknologi dan keuntungan perniagaan. Dalam perubahan mendalam yang melibatkan perpaduan perisian dan perkakasan ini, komputasi bukan lagi sekadar barang yang boleh dibeli, tetapi merupakan aset strategik paling penting syarikat.

Sumber rujukan:

Semianalysis. (2024). Ekonomi Inferensi AI: GPU vs Silikon Khusus.
Stanford University HAI. (2024). Laporan Indeks Kecerdasan Buatan 2024.
Bloomberg Technology. (2023). Microsoft akan memperkenalkan cip AI untuk mengurangkan ketergantungan pada Nvidia.
Patterson, D., et al. (2021). Emisi Karbon dan Latihan Jaringan Saraf Besar. arXiv preprint.
AWS Official Blog. (2023). Amazon EC2 Inf2 Instances untuk AI Generatif Berprestasi Tinggi dengan Kos Rendah.