SECRET GARDEN: Khoảnh khắc Sputnik dành cho AI?

Daron Acemoglu
Project Syndicate Feb 4, 2025

Trong khi ngành công nghiệp AI của Mỹ có thể cần phải thay đổi, tin tức về một công ty khởi nghiệp Trung Quốc đánh bại Big Tech trong trò chơi của chính mình đặt ra một số câu hỏi khó. May mắn thay, nếu các nhà lãnh đạo công nghệ và hoạch định chính sách Hoa Kỳ có thể rút ra những bài học đúng đắn từ thành công của DeepSeek, tất cả chúng ta có thể có kết cục tốt hơn nhờ sự kiện này.

Anna Barclay/Getty Images

BOSTON – Sau khi DeepSeek-R1 được phát hành vào ngày 20 tháng 1 đã gây ra sự sụt giảm lớn giá cổ phiếu của nhà sản xuất chip Nvidia và sự sụt giảm mạnh về giá trị vốn hóa của nhiều công ty công nghệ khác, một số người đã tuyên bố đây là "khoảnh khắc Sputnik"(1) trong cuộc đua giành quyền thống trị về trí tuệ nhân tạo giữa Trung Quốc và Hoa Kỳ. Trong khi ngành công nghiệp AI của Hoa Kỳ có thể cần phải thay đổi, thì sự kiện này lại đặt ra một số câu hỏi khó.

Các khoản đầu tư của ngành công nghệ Hoa Kỳ vào AI là rất lớn, với ước tính của Goldman Sachs rằng "các công ty công nghệ lớn, tập đoàn và các công ty cung cấp các dịch vụ thiết yếu sẽ chi khoảng 1 nghìn tỷ đô la cho chi phí tiền vốn trong những năm tới để hỗ trợ phát triển trí tuệ nhân tạo". Tuy nhiên, trong một thời gian dài, nhiều nhà quan sát, bao gồm cả tôi, đã đặt câu hỏi về hướng đầu tư và phát triển AI tại Hoa Kỳ.

Với tất cả các công ty hàng đầu về cơ bản đều tuân theo cùng một chiến lược (mặc dù Meta đã tự phân biệt mình một chút với một mô hình mã nguồn mở một phần), ngành công nghiệp này dường như đã đặt tất cả trứng vào cùng một giỏ. Không có ngoại lệ, các công ty công nghệ Hoa Kỳ đều bị ám ảnh bởi quy mô. Trích dẫn "luật mở rộng quy mô" chưa được chứng minh, họ cho rằng việc cung cấp ngày càng nhiều dữ liệu và sức mạnh tính toán vào các mô hình của họ là chìa khóa để mở khóa các khả năng ngày càng lớn hơn. Một số thậm chí còn khẳng định rằng "quy mô là tất cả những gì bạn cần".

Trước ngày 20 tháng 1, các công ty Hoa Kỳ không muốn xem xét các giải pháp thay thế cho các mô hình nền tảng được đào tạo trước trên các tập dữ liệu khổng lồ để dự đoán từ tiếp theo trong một chuỗi. Với các ưu tiên của mình, họ tập trung gần như hoàn toàn vào các mô hình khuếch tán và chatbot nhằm thực hiện các nhiệm vụ của con người (hoặc giống con người). Mặc dù phương pháp tiếp cận của DeepSeek nhìn chung là tương đồng, nhưng có vẻ như họ đã tập trung nhiều hơn vào học tăng cường (reinforcement learning), các phương pháp hỗn hợp chuyên biệt (mixture-of-experts methods - sử dụng nhiều mô hình nhỏ hơn, hiệu quả hơn), chắt lọc tri thức (distillation) và tinh chỉnh lập luận theo chuỗi suy nghĩ (refined chain-of-thought reasoning). Chiến lược này được cho là đã cho phép nó tạo ra một mô hình cạnh tranh với chi phí tối ưu.

Mặc dù có một số tranh cãi về việc liệu DeepSeek đã tiết lộ toàn bộ câu chuyện hay chưa, nhưng sự việc này đã phơi bày "tư duy nhóm" trong ngành AI của Hoa Kỳ. Sự mù quáng của họ đối với các phương pháp tiếp cận thay thế, rẻ hơn, và đầy hứa hẹn hơn, kết hợp với sự thổi phồng, chính xác là những gì mà Simon Johnson và tôi đã dự đoán trong cuốn Power and Progress, mà chúng tôi đã viết ngay trước khi kỷ nguyên AI tạo sinh bắt đầu. Câu hỏi hiện tại là liệu ngành công nghiệp Hoa Kỳ có những điểm mù khác, thậm chí còn nguy hiểm hơn hay không. Ví dụ, liệu các công ty công nghệ hàng đầu của Hoa Kỳ có đang bỏ lỡ cơ hội để định hướng các mô hình của họ theo hướng "hướng tới con người" hơn hay không? Tôi nghi ngờ rằng câu trả lời là có, nhưng chỉ có thời gian mới trả lời được.

Sau đó, có câu hỏi liệu Trung Quốc có vượt qua Hoa Kỳ hay không. Nếu vậy, điều này có nghĩa là các cấu trúc độc đoán, từ trên xuống (mà James A. Robinson và tôi gọi là "các thể chế khai thác") có thể ngang bằng hoặc thậm chí vượt trội hơn các sắp xếp từ dưới lên trong việc thúc đẩy đổi mới không?

Tôi thiên về quan điểm cho rằng kiểm soát từ trên xuống cản trở sự đổi mới, như Robinson và tôi đã lập luận trong Why Nations Fail. Mặc dù thành công của DeepSeek dường như thách thức tuyên bố này, nhưng nó vẫn chưa phải là bằng chứng kết luận rằng sự đổi mới trong các thể chế khai thác có thể mạnh mẽ hoặc bền vững như trong các thể chế bao cấp. Xét cho cùng, DeepSeek đang xây dựng dựa trên nhiều năm tiến bộ ở Hoa Kỳ (và một số ở Châu Âu). Tất cả các phương pháp cơ bản của nó đều được tiên phong ở Hoa Kỳ. Các mô hình hỗn hợp chuyên gia và học tăng cường đã được phát triển trong các tổ chức nghiên cứu học thuật từ nhiều thập kỷ trước; và chính các công ty công nghệ lớn của Hoa Kỳ đã giới thiệu các mô hình biến đổi, lý luận chuỗi suy nghĩ và chắt lọc tri thức.

Những gì DeepSeek đã làm là chứng minh thành công trong kỹ thuật: kết hợp các phương pháp tương tự hiệu quả hơn so với các công ty Hoa Kỳ đã làm. Vẫn còn phải xem liệu các công ty và tổ chức nghiên cứu Trung Quốc có thể thực hiện bước tiếp theo để đưa ra các kỹ thuật, sản phẩm và phương pháp tiếp cận mang tính thay đổi cuộc chơi của riêng họ hay không.

Hơn nữa, DeepSeek có vẻ không giống như hầu hết các công ty AI khác của Trung Quốc, những công ty thường sản xuất công nghệ cho chính phủ hoặc với nguồn tài trợ của chính phủ. Nếu công ty (được tách ra từ một quỹ đầu cơ) hoạt động trong tầm ngắm, liệu sự sáng tạo và năng động của công ty có tiếp tục khi công ty này đang được chú ý không? Dù có chuyện gì xảy ra, thành tựu của một công ty không thể được coi là bằng chứng kết luận rằng Trung Quốc có thể đánh bại các xã hội cởi mở hơn về đổi mới sáng tạo.

Một câu hỏi khác liên quan đến địa chính trị. Liệu câu chuyện DeepSeek có nghĩa là các biện pháp kiểm soát xuất khẩu của Hoa Kỳ và các biện pháp khác nhằm kìm hãm nghiên cứu AI của Trung Quốc đã thất bại ? Câu trả lời ở đây cũng không rõ ràng. Mặc dù DeepSeek đã đào tạo các mô hình mới nhất của mình (V3 và R1) trên các chip cũ hơn, kém mạnh hơn, nhưng nó vẫn có thể cần những chip mạnh nhất để đạt được những tiến bộ hơn nữa và mở rộng quy mô.

Tuy nhiên, rõ ràng là cách tiếp cận tổng bằng không (zero-sum)(2) của Hoa Kỳ là không khả thi và không được khuyến khích. Một chiến lược như vậy chỉ có ý nghĩa nếu bạn tin rằng chúng ta đang hướng tới trí tuệ nhân tạo tổng quát (Artificial General Intelligence - các mô hình có thể sánh ngang với con người trong bất kỳ nhiệm vụ nhận thức nào) và bất kỳ ai đạt được AGI trước sẽ có lợi thế địa chính trị rất lớn. Bằng cách bám vào những giả định này - không nhất thiết phải có lý do - chúng ta đã ngăn cản sự hợp tác hiệu quả với Trung Quốc trong nhiều lĩnh vực. Ví dụ, nếu một quốc gia tạo ra các mô hình giúp tăng năng suất của con người hoặc giúp chúng ta điều tiết năng lượng tốt hơn, thì sự đổi mới như vậy sẽ có lợi cho cả hai quốc gia, đặc biệt là nếu nó được sử dụng rộng rãi.

Giống như những người anh em họ người Mỹ của mình, DeepSeek có tham vọng phát triển AGI, và việc tạo ra một mô hình rẻ hơn đáng kể để đào tạo có thể là một bước ngoặt. Nhưng việc giảm chi phí phát triển bằng các phương pháp đã biết sẽ không đưa chúng ta đến AGI một cách kỳ diệu trong vài năm tới. Liệu AGI trong tương lai gần có thể đạt được hay không vẫn là một câu hỏi mở (và liệu nó có đáng mong muốn hay không thậm chí còn gây tranh cãi hơn).

Ngay cả khi chúng ta chưa biết mọi chi tiết về cách DeepSeek phát triển các mô hình của mình hoặc thành tựu rõ ràng của nó có ý nghĩa gì đối với tương lai của ngành công nghiệp AI, thì có một điều có vẻ rõ ràng: một công ty mới nổi của Trung Quốc đã phá vỡ nỗi ám ảnh về quy mô của ngành công nghệ và thậm chí có thể khiến ngành này thoát khỏi sự tự mãn.

Daron Acemoglu
Cộng tác với Project Syndicate từ 2012
Daron Acemoglu đoạt giải Nobel kinh tế năm 2024, là Giáo sư Kinh tế tại MIT, đồng tác giả (với James A. Robinson) của cuốn Why Nations Fail: The Origins of Power, Prosperity and Poverty (Profile, 2019) và đồng tác giả (với Simon Johnson) của cuốn Power and Progress: Our Thousand-Year Struggle Over Technology and Prosperity (PublicAffairs, 2023).

Ref:

Khoảnh khắc Sputnik - là một cụm từ mang tính biểu tượng, bắt nguồn từ sự kiện Liên Xô phóng thành công vệ tinh nhân tạo đầu tiên của Trái Đất, Sputnik 1, vào ngày 4 tháng 10 năm 1957. Sự kiện này đã gây chấn động toàn cầu, đặc biệt là đối với Hoa Kỳ, và được coi là một bước ngoặt quan trọng trong cuộc chạy đua không gian giữa hai siêu cường trong thời kỳ Chiến tranh Lạnh.
Zero-sum approach (cách tiếp cận tổng bằng không) là một khái niệm trong lý thuyết trò chơi và kinh tế học, mô tả một tình huống mà trong đó tổng lợi ích hoặc thiệt hại của tất cả các bên liên quan luôn bằng không. Nói một cách đơn giản, một bên chỉ có thể đạt được lợi ích nếu có bên khác phải chịu thiệt hại tương đương.Trong một trò chơi zero-sum, "tổng" của tất cả các kết quả (lợi ích trừ đi thiệt hại) luôn bằng không. Điều này có nghĩa là không có giá trị mới nào được tạo ra hoặc bị mất đi; giá trị chỉ đơn thuần được chuyển giao giữa các bên.
Bài viết gốc A Sputnik Moment for AI? https://www.project-syndicate.org/commentary/china-ai-deepseek-raises-difficult-questions-for-united-states-by-daron-acemoglu-2025-02

SECRET GARDEN

Thứ Ba, 4 tháng 2, 2025

Khoảnh khắc Sputnik dành cho AI?

Không có nhận xét nào:

Đăng nhận xét