- Mô hình AI hiện tại thường yêu cầu trung tâm dữ liệu lớn với hàng chục ngàn GPU. Sự cạnh tranh giữa các tỷ phú công nghệ như Elon Musk và Mark Zuckerberg đang diễn ra mạnh mẽ.
- Musk sở hữu khoảng 100.000 GPU trong một trung tâm dữ liệu và dự kiến mua thêm 200.000, trong khi Zuckerberg có kế hoạch đạt 350.000 GPU.
- Việc tăng số lượng GPU không đảm bảo hiệu suất tốt hơn do sự phức tạp trong việc đồng bộ hóa dữ liệu và thời gian xử lý không hiệu quả.
- Các nhà khoa học máy tính đang tìm kiếm giải pháp ít tốn kém hơn cho việc đào tạo mô hình AI trong tương lai, có thể bao gồm việc phân phối đào tạo giữa các trung tâm dữ liệu nhỏ.
- Phương pháp DiLoCo, được phát triển bởi Arthur Douillard từ Google DeepMind, cho phép đào tạo trên nhiều trung tâm dữ liệu mà không cần liên kết chặt chẽ giữa các GPU.
- DiLoCo giảm tải thông tin chia sẻ 500 lần giữa các "hòn đảo" trung tâm dữ liệu, cải thiện hiệu suất đào tạo.
- Mặc dù mô hình tập trung có thể đạt được hiệu suất cao hơn, nhưng mô hình phân tán thể hiện khả năng tổng quát tốt hơn khi được thử nghiệm với dữ liệu chưa gặp bao giờ.
- Vincent Weisser từ Prime Intellect đã áp dụng DiLoCo để đào tạo mô hình Intellect-1 với 10 tỷ thông số trên 30 cụm GPU ở 8 thành phố trên 3 lục địa.
- Trong các thử nghiệm, cụm GPU hoạt động hiệu quả 83% thời gian, tốt hơn nhiều so với mô hình tập trung.
- Prime Intellect đã sử dụng mỗi cụm gồm 8 GPU và chưa đến 14 cụm hoạt động cùng một lúc, cho thấy sự khả thi của mô hình phân tán ngay cả khi quy mô nhỏ.
- Một trong những mục tiêu chính của việc phân phối đào tạo là làm giảm sự tập trung quyền lực trong lĩnh vực AI, trong khi vẫn giữ chi phí thấp hơn so với các trung tâm dữ liệu lớn.
- Một viễn cảnh tương lai là việc sử dụng máy tính tiêu dùng như iPhone để tham gia vào quá trình đào tạo AI, mặc dù điều này đòi hỏi các bước đột phá về công nghệ.
📌 Mô hình AI trong tương lai có thể không cần trung tâm dữ liệu khổng lồ, thay vào đó là phương pháp phân phối đào tạo giữa các trung tâm nhỏ góp phần giảm chi phí và cải thiện hiệu suất. Các nghiên cứu như DiLoCo cho thấy tiềm năng của phương pháp này.
https://www.economist.com/science-and-technology/2025/01/08/training-ai-models-might-not-need-enormous-data-centres
Huấn luyện các mô hình AI có thể không cần trung tâm dữ liệu khổng lồ
Cuối cùng, các mô hình có thể được huấn luyện mà không cần bất kỳ phần cứng chuyên dụng nào
Một mạng lưới trái tim pixel
Minh họa: Mariaelena Caputi
Ngày 8 tháng 1 năm 2025
Chia sẻ
Từng có thời, những người giàu nhất thế giới thi đua về du thuyền, máy bay phản lực và đảo tư nhân. Giờ đây, cuộc cạnh tranh "đo lường sức mạnh" được chuyển sang các cụm máy tính. Cách đây chỉ 18 tháng, OpenAI đã huấn luyện GPT-4, khi đó là mô hình ngôn ngữ lớn (LLM) tiên tiến nhất, trên một mạng lưới khoảng 25.000 bộ xử lý đồ họa (GPU) tiên tiến nhất của Nvidia. Hiện tại, Elon Musk và Mark Zuckerberg, lần lượt là giám đốc của X và Meta, đang “khoe” số chip của họ: Musk tuyên bố sở hữu 100.000 GPU trong một trung tâm dữ liệu và dự định mua thêm 200.000. Zuckerberg nói rằng anh sẽ đạt 350.000 GPU.
Cuộc đua xây dựng các cụm máy tính lớn hơn để phát triển các mô hình trí tuệ nhân tạo (AI) ngày càng mạnh mẽ không thể kéo dài mãi. Mỗi chip bổ sung không chỉ tăng khả năng xử lý mà còn làm tăng gánh nặng tổ chức để giữ cho toàn bộ cụm máy hoạt động đồng bộ. Càng nhiều chip, càng tốn thời gian để các chip trong trung tâm dữ liệu trao đổi dữ liệu hơn là làm công việc hữu ích. Đơn giản chỉ tăng số lượng GPU sẽ dẫn đến lợi ích giảm dần.
Do đó, các nhà khoa học máy tính đang tìm kiếm những cách thông minh hơn, ít tốn tài nguyên hơn để huấn luyện các mô hình AI trong tương lai. Giải pháp có thể là từ bỏ các cụm máy tính tùy chỉnh khổng lồ (và chi phí đầu tư ban đầu liên quan) hoàn toàn, thay vào đó phân phối nhiệm vụ huấn luyện giữa nhiều trung tâm dữ liệu nhỏ hơn. Một số chuyên gia cho rằng, đây có thể là bước đầu tiên hướng tới một mục tiêu tham vọng hơn: huấn luyện các mô hình AI mà không cần bất kỳ phần cứng chuyên dụng nào.
Việc huấn luyện một hệ thống AI hiện đại bao gồm việc nạp dữ liệu—ví dụ như các câu văn hoặc cấu trúc của một protein—với một số phần bị ẩn đi. Mô hình sẽ đoán nội dung của các phần bị ẩn. Nếu đoán sai, mô hình sẽ được tinh chỉnh qua một quy trình toán học gọi là “lan truyền ngược” (backpropagation) để trong lần dự đoán tiếp theo, kết quả sẽ gần đúng hơn một chút.
Tôi biết bạn đang gặp rắc rối
Vấn đề xuất hiện khi muốn làm việc “song song”—để 2, hoặc 200.000 GPU thực hiện lan truyền ngược cùng lúc. Sau mỗi bước, các chip phải chia sẻ dữ liệu về các thay đổi mà chúng đã thực hiện. Nếu không, sẽ không có một lần huấn luyện duy nhất, mà sẽ có 200.000 chip huấn luyện 200.000 mô hình riêng lẻ. Bước này, gọi là “lưu trữ tạm thời” (checkpointing), có thể trở nên phức tạp rất nhanh. Chỉ có một liên kết giữa 2 chip, nhưng có tới 190 liên kết giữa 20 chip và gần 20 tỷ liên kết đối với 200.000 chip. Thời gian cần để lưu trữ tạm thời tăng lên tương ứng. Trong các đợt huấn luyện lớn, khoảng một nửa thời gian thường được dành cho bước này.
Tất cả thời gian bị lãng phí đó đã khiến Arthur Douillard, một kỹ sư tại Google DeepMind, nảy ra một ý tưởng. Tại sao không giảm bớt số lần lưu trữ tạm thời? Vào cuối năm 2023, anh cùng các đồng nghiệp đã công bố một phương pháp mang tên “Distributed Low-Communication Training of Language Models” (Huấn luyện mô hình ngôn ngữ phân tán với giao tiếp thấp), hay DiLoCo. Thay vì huấn luyện trên 100.000 GPU, tất cả đều giao tiếp với nhau ở mọi bước, DiLoCo mô tả cách phân phối việc huấn luyện trên các “đảo” khác nhau, mỗi đảo vẫn là một trung tâm dữ liệu cỡ lớn. Trong nội bộ các đảo, lưu trữ tạm thời vẫn diễn ra như bình thường, nhưng giữa các đảo, gánh nặng giao tiếp giảm tới 500 lần.
Có những sự đánh đổi. Các mô hình được huấn luyện theo cách này dường như khó đạt được hiệu năng đỉnh như các mô hình được huấn luyện trong các trung tâm dữ liệu đơn lẻ. Nhưng điều thú vị là, tác động này dường như chỉ tồn tại khi các mô hình được đánh giá trên các nhiệm vụ mà chúng đã được huấn luyện: dự đoán dữ liệu bị thiếu. Khi được yêu cầu thực hiện các dự đoán chưa từng được đưa ra trước đó, các mô hình dường như tổng quát hóa tốt hơn. Khi yêu cầu trả lời một câu hỏi lý luận có dạng không nằm trong dữ liệu huấn luyện, chúng có thể vượt trội so với các mô hình được huấn luyện theo cách truyền thống. Điều này có thể là do mỗi đảo tính toán có sự tự do nhất định để phát triển theo hướng riêng của nó giữa các bước lưu trữ, trước khi bị kéo trở lại nhiệm vụ. Giống như một nhóm sinh viên đại học chăm chỉ tự lập nhóm nghiên cứu thay vì chỉ tham dự các bài giảng chung, kết quả cuối cùng có thể kém tập trung vào nhiệm vụ cụ thể, nhưng lại có trải nghiệm rộng hơn.
Vincent Weisser, người sáng lập Prime Intellect, một phòng thí nghiệm AI mã nguồn mở, đã áp dụng DiLoCo và phát triển nó. Vào tháng 11 năm 2024, nhóm của ông hoàn thành việc huấn luyện Intellect-1, một mô hình ngôn ngữ lớn với 10 tỷ tham số, có thể so sánh với Llama 2 được huấn luyện tập trung của Meta (ra mắt năm 2023).
Nhóm của Weisser đã tạo OpenDiLoCo, một phiên bản chỉnh sửa nhẹ từ bản gốc của Douillard, và triển khai để huấn luyện một mô hình mới bằng cách sử dụng 30 cụm GPU tại 8 thành phố trên 3 châu lục. Trong các thử nghiệm, các GPU hoạt động 83% thời gian—so với 100% trong kịch bản cơ bản khi tất cả GPU nằm trong cùng một tòa nhà. Khi việc huấn luyện giới hạn ở các trung tâm dữ liệu tại Mỹ, chúng hoạt động tới 96% thời gian. Thay vì lưu trữ ở mỗi bước huấn luyện, cách tiếp cận của Weisser chỉ lưu trữ mỗi 500 bước. Và thay vì chia sẻ toàn bộ thông tin về mỗi thay đổi, cách tiếp cận này “lượng tử hóa” các thay đổi, loại bỏ ba phần tư dữ liệu ít quan trọng nhất.
Đối với các phòng thí nghiệm tiên tiến nhất, với các trung tâm dữ liệu đơn lẻ đã được xây dựng, chưa có lý do cấp bách để chuyển sang phương pháp huấn luyện phân tán. Nhưng theo thời gian, Douillard cho rằng cách tiếp cận này sẽ trở thành tiêu chuẩn. Những lợi thế là rõ ràng, và những hạn chế—ít nhất là theo các đợt huấn luyện nhỏ đã hoàn thành đến nay—dường như khá ít.
Đối với một phòng thí nghiệm mã nguồn mở như Prime Intellect, cách tiếp cận phân tán còn mang lại lợi ích khác. Các trung tâm dữ liệu đủ lớn để huấn luyện một mô hình 10 tỷ tham số rất hiếm. Sự khan hiếm này đẩy giá truy cập lên cao—nếu chúng thậm chí còn có sẵn trên thị trường, thay vì bị các công ty sở hữu chúng tích trữ. Tuy nhiên, các cụm nhỏ hơn lại dễ tiếp cận hơn. Mỗi cụm GPU trong số 30 cụm Prime Intellect sử dụng chỉ có 8 GPU, với tối đa 14 cụm trực tuyến tại bất kỳ thời điểm nào. Tài nguyên này nhỏ hơn gấp 1.000 lần so với các trung tâm dữ liệu của các phòng thí nghiệm hàng đầu, nhưng cả Weisser lẫn Douillard đều không thấy lý do gì cách tiếp cận của họ không thể mở rộng quy mô.
Đối với Weisser, động lực phân tán việc huấn luyện cũng là để phân tán quyền lực—không chỉ theo nghĩa điện năng. “Điều cực kỳ quan trọng là điều này không nằm trong tay một quốc gia hay một công ty duy nhất,” ông nói. Tuy nhiên, phương pháp này không hoàn toàn miễn phí—một cụm GPU 8 chiếc mà ông sử dụng có giá 600.000 USD; tổng mạng lưới mà Prime Intellect triển khai sẽ có giá 18 triệu USD. Nhưng công trình của ông là một dấu hiệu, ít nhất, rằng việc huấn luyện các mô hình AI có khả năng không cần phải tiêu tốn hàng tỷ USD.
Và nếu chi phí có thể giảm thêm nữa thì sao? Giấc mơ của các nhà phát triển theo đuổi AI thực sự phi tập trung là loại bỏ nhu cầu về chip huấn luyện chuyên dụng. Tính theo teraflop, một con số đo lường số lượng thao tác mà một con chip có thể thực hiện trong một giây, một trong những con chip mạnh nhất của Nvidia mạnh hơn khoảng 300 chiếc iPhone cao cấp. Nhưng trên thế giới có nhiều iPhone hơn là GPU. Điều gì sẽ xảy ra nếu chúng (và các máy tính tiêu dùng khác) có thể được đưa vào làm việc, thực hiện các đợt huấn luyện khi chủ nhân đang ngủ?
Sự đánh đổi sẽ rất lớn. Sự dễ dàng trong việc làm việc với các con chip hiệu năng cao là, ngay cả khi được phân phối khắp thế giới, chúng vẫn là cùng một kiểu chip hoạt động ở cùng một tốc độ. Điều này sẽ không còn nữa. Tệ hơn, không chỉ tiến trình huấn luyện cần được tập hợp và phân phối lại ở mỗi bước lưu trữ, mà dữ liệu huấn luyện cũng phải như vậy, bởi vì phần cứng tiêu dùng điển hình không thể lưu trữ các terabyte dữ liệu cần thiết cho một mô hình ngôn ngữ lớn tiên tiến. Những đột phá tính toán mới sẽ cần thiết, Nic Lane từ Flower, một trong những phòng thí nghiệm đang cố gắng hiện thực hóa cách tiếp cận này, cho biết.
Tuy nhiên, lợi ích có thể cộng dồn, với cách tiếp cận này dẫn đến các mô hình tốt hơn, Lane nhận định. Cũng giống như việc huấn luyện phân tán giúp mô hình tổng quát hóa tốt hơn, các mô hình được huấn luyện trên các tập dữ liệu “chia nhỏ”, nơi chỉ có một phần dữ liệu huấn luyện được cung cấp cho mỗi GPU, có thể hoạt động tốt hơn khi gặp phải các đầu vào bất ngờ trong thế giới thực. Tất cả điều này có thể buộc các tỷ phú phải tìm thứ khác để tranh đua. ■
Training AI models might not need enormous data centres
Eventually, models could be trained without any dedicated hardware at all
A network of pixelated hearts
Illustration: Mariaelena Caputi
Jan 8th 2025
Share
Once, the world’s richest men competed over yachts, jets and private islands. Now, the size-measuring contest of choice is clusters. Just 18 months ago, OpenAI trained GPT-4, its then state-of-the-art large language model (LLM), on a network of around 25,000 then state-of-the-art graphics processing units (GPUs) made by Nvidia. Now Elon Musk and Mark Zuckerberg, bosses of X and Meta respectively, are waving their chips in the air: Mr Musk says he has 100,000 GPUs in one data centre and plans to buy 200,000. Mr Zuckerberg says he’ll get 350,000.
This contest to build ever-bigger computing clusters for ever-more-powerful artificial-intelligence (AI) models cannot continue for ever. Each extra chip adds not only processing power but also to the organisational burden of keeping the whole cluster synchronised. The more chips there are, the more time the data centre’s chips will spend shuttling data around rather than doing useful work. Simply increasing the number of GPUs will provide diminishing returns.
Computer scientists are therefore looking for cleverer, less resource-intensive ways to train future AI models. The solution could lie with ditching the enormous bespoke computing clusters (and their associated upfront costs) altogether and, instead, distributing the task of training between many smaller data centres. This, say some experts, could be the first step towards an even more ambitious goal—training AI models without the need for any dedicated hardware at all.
Training a modern AI system involves ingesting data—sentences, say, or the structure of a protein—that has had some sections hidden. The model makes a guess at what the hidden sections might contain. If it makes the wrong guess, the model is tweaked by a mathematical process called backpropagation so that, the next time it tries the same prediction, it will be infinitesimally closer to the correct answer.
I knew you were trouble
The problems come when you want to be able to work “in parallel”—to have two, or 200,000 GPUs working on backpropagation at the same time. After each step, the chips share data about the changes they have made. If they didn’t, you wouldn’t have a single training run, you’d have 200,000 chips training 200,000 models on their own. That step, called “checkpointing”, can get complicated fast. There is only one link between two chips, but 190 between 20 chips and almost 20bn for 200,000 chips. The time it takes to checkpoint grows commensurately. For big training runs, around half the time can often be spent on checkpointing.
All that wasted time gave Arthur Douillard, an engineer at Google DeepMind, an idea. Why not just do fewer checkpoints? In late 2023, he and his colleagues published a method for “Distributed Low-Communication Training of Language Models”, or DiLoCo. Rather than training on 100,000 GPUs, all of which speak to each other at every step, DiLoCo describes how to distribute training across different “islands”, each still a sizeable data centre. Within the islands, checkpointing continues as normal, but across them, the communication burden drops 500-fold.
There are trade-offs. Models trained this way seem to struggle to hit the same peak performance as those trained in monolithic data centres. But interestingly, that impact seems to exist only when the models are rated on the same tasks they are trained on: predicting the missing data.
When they are turned to predictions that they’ve never been asked to make before, they seem to generalise better. Ask them to answer a reasoning question in a form not in the training data, and pound for pound they may outclass the traditionally trained models. That could be an artefact of each island of compute being slightly freer to spiral off in its own direction between checkpointing runs, when they get hauled back on task. Like a cohort of studious undergraduates forming their own research groups rather than being lectured to en masse, the end result is slightly less focused on the task at hand, but with a much wider experience as a result.
Vincent Weisser, founder of Prime Intellect, an open-source AI lab, has taken DiLoCo and run with it. In November 2024, his team completed training on Intellect-1, a 10bn-parameter LLM comparable to Meta’s centrally trained Llama 2 (released in 2023).
Mr Weisser’s team built OpenDiLoCo, a lightly modified version of Mr Douillard’s original, and set it to work training a new model using 30 GPU clusters in eight cities across three continents. In his trials, the GPUs ended up actively working for 83% of the time—that’s compared with 100% in the baseline scenario, in which all the GPUs were in the same building. When training was limited to data centres in America, they were actively working for 96% of the time. Instead of checkpointing every training step, Mr Weisser’s approach checkpoints only every 500 steps. And instead of sharing all the information about every change, it “quantises” the changes, dropping the least significant three-quarters of the data.
For the most advanced labs, with monolithic data centres already built, there is no pressing reason to make the switch to distributed training yet. But, given time, Mr Douillard thinks that his approach will become the norm. The advantages are clear, and the downsides—at least, those illustrated by the small training runs that have been completed so far—seem to be fairly limited.
For an open-source lab like Prime Intellect, the distributed approach has other benefits. Data centres big enough to train a 10bn-parameter model are few and far between. That scarcity drives up prices to access their compute—if it is even available on the open market at all, rather than hoarded by the companies that have built them. Smaller clusters are readily available, however. Each of the 30 clusters Prime Intellect used was a rack of just eight GPUs, with up to 14 of the clusters online at any given time. This resource is a thousand times smaller than data centres used by frontier labs, but neither Mr Weisser nor Mr Douillard see any reason why their approach would not scale.
For Mr Weisser, the motivation for distributing training is also to distribute power—and not just in the electrical sense. “It’s extremely important that it’s not in the hands of one nation, one corporation,” he says. The approach is hardly a free-for-all, though—one of the eight-GPU clusters he used in his training run costs $600,000; the total network deployed by Prime Intellect would cost $18m to buy. But his work is a sign, at least, that training capable AI models does not have to cost billions of dollars.
And what if the costs could drop further still? The dream for developers pursuing truly decentralised AI is to drop the need for purpose-built training chips entirely. Measured in teraflops, a count of how many operations a chip can do in a second, one of Nvidia’s most capable chips is roughly as powerful as 300 or so top-end iPhones. But there are a lot more iPhones in the world than GPUs. What if they (and other consumer computers) could all be put to work, churning through training runs while their owners sleep?
The trade-offs would be enormous. The ease of working with high-performance chips is that, even when distributed around the world, they are at least the same model operating at the same speed. That would be lost. Worse, not only would the training progress need to be aggregated and redistributed at each checkpoint step, so would the training data itself, since typical consumer hardware is unable to store the terabytes of data that goes into a cutting-edge LLM. New computing breakthroughs would be required, says Nic Lane of Flower, one of the labs trying to make that approach a reality.
The gains, though, could add up, with the approach leading to better models, reckons Mr Lane. In the same way that distributed training makes models better at generalising, models trained on “sharded” datasets, where only portions of the training data are given to each GPU, could perform better when confronted with unexpected input in the real world. All of which would leave the billionaires needing something else to compete over. ■