Nghiên cứu AI · Anthropic

Claude Code cho thấy một điều rất rõ: người hiểu việc mới là người thắng

Dựa trên bài nghiên cứu “Agentic coding and persistent returns to expertise” của Anthropic, công bố ngày 16/06/2026.

Nói ngắn gọn, AI đang viết code ngày càng nhiều, nhưng người tạo ra kết quả tốt nhất chưa chắc là người code giỏi nhất. Thứ tạo khác biệt lớn hơn lại là mức độ hiểu bài toán, hiểu nghiệp vụ và biết giao việc đúng cho AI.

Điểm đáng chú ý nhất

~400KPhiên Claude Code được phân tích
~235KNgười dùng trong mẫu nghiên cứu
20h/tuầnThời gian dùng Claude Code trung bình
+27%Giá trị trung bình của tác vụ tăng theo thời gian
70%Quyết định plan do con người nắm
20%Quyết định execution do con người giữ
  • Phần lớn phiên làm việc xoay quanh viết mới, sửa lỗi, test, vận hành phần mềm, phân tích dữ liệu và viết tài liệu.
  • Con người thường quyết định mục tiêu, phạm vi, tiêu chuẩn hoàn thành; còn Claude thường xử lý phần chọn file, sửa code, chạy lệnh và triển khai cách làm.
  • Người càng có chuyên môn trong lĩnh vực đang làm thì càng giao được việc lớn hơn cho AI sau mỗi prompt.
  • Khoảng cách giữa người trung cấp và người rất giỏi có tồn tại, nhưng không quá lớn; khoảng cách rõ nhất nằm giữa người mới và người đã hiểu việc.

Vì sao nghiên cứu này đáng quan tâm

Điểm hay của nghiên cứu này là nó không chỉ hỏi “AI code giỏi tới đâu”, mà nhìn vào việc thật ngoài đời: ai đang dùng, họ dùng để làm gì, thành công tới mức nào và yếu tố nào kéo kết quả đi lên. Cách nhìn này thực tế hơn rất nhiều so với chỉ nhìn benchmark.

Trong bối cảnh nhiều đội ngũ đang bàn chuyện thay người viết code bằng AI, nghiên cứu này đưa ra một góc nhìn chín chắn hơn: AI có thể hấp thụ rất nhiều phần triển khai, nhưng không tự thay thế được năng lực hiểu vấn đề, hiểu ràng buộc và ra quyết định đúng.

Nếu phải rút còn một ý: AI không làm cho chuyên môn trở nên vô nghĩa; ngược lại, chuyên môn tốt còn giúp AI làm được nhiều việc hơn.

Claude Code đang được dùng để làm gì

Anthropic chia mỗi phiên làm việc vào một “work mode” chính. Nhìn vào đó có thể thấy Claude Code không còn chỉ là công cụ sửa bug, mà đã dịch chuyển sang những việc trọn gói hơn.

  • Building: tạo mới tính năng, script hoặc sản phẩm.
  • Fixing: sửa lỗi, xử lý bug, gỡ vấn đề đang vướng.
  • Testing / Orchestrating: viết test, phối hợp pipeline, gọi agent khác hoặc chuỗi tự động hóa.
  • Operating: deploy, cấu hình, chạy hệ thống, theo dõi môi trường.
  • Understanding / Planning: đọc hệ thống cũ, hiểu kiến trúc, lên hướng thay đổi trước khi sửa.
  • Analyzing / Communicating: phân tích dữ liệu, làm báo cáo, viết tài liệu, trình bày bằng prose.

Theo nghiên cứu, khoảng 56% phiên thuộc nhóm viết, sửa, test hoặc orchestration; 17% thuộc vận hành phần mềm; 14% là planning hoặc understanding; 13% tạo ra phân tích hoặc tài liệu dạng văn bản. Điều đó cho thấy vai trò của coding agent đã mở rộng ra khỏi lập trình thuần túy.

Biểu đồ về các nhóm công việc chính trong Claude Code
Hình 1. Tỷ trọng các nhóm công việc trong Claude Code. Link ảnh chart được giữ nguyên từ bài gốc.

Phân công việc giữa người và AI

Một phát hiện rất dễ nhớ là: người quyết định làm gì, Claude quyết định làm như thế nào. Nói theo ngôn ngữ đời thường, con người đang đóng vai trưởng nhóm hoặc người giao việc, còn AI đang nhận phần tay chân kỹ thuật ở mức ngày càng sâu.

Anthropic tách quyết định trong một phiên thành hai lớp. Lớp thứ nhất là planning decisions, tức quyết định mục tiêu, hướng tiếp cận, tiêu chí xong việc. Lớp thứ hai là execution decisions, tức chọn file nào sửa, đoạn code nào cần viết, lệnh nào cần chạy, theo thứ tự nào.

  • Con người giữ khoảng 70% quyết định thuộc lớp planning.
  • Con người chỉ giữ khoảng 20% quyết định thuộc lớp execution.
  • Một phiên điển hình có khoảng 4 lượt qua lại giữa người và Claude.
  • Mỗi prompt của người thường kích hoạt khoảng 10 hành động từ Claude; một số phiên vượt quá 100 hành động.
Biểu đồ cho thấy con người giữ planning còn Claude giữ execution
Hình 2. Chia vai giữa con người và Claude trong quyết định planning và execution. Link ảnh chart được giữ nguyên từ bài gốc.
Đây là chỗ nhiều người hay hiểu sai. Thấy AI làm được nhiều bước không có nghĩa là con người đã hết vai. Vai trò chỉ đang dời từ “người trực tiếp làm” sang “người đặt bài toán, kiểm soát hướng đi và chốt tiêu chuẩn đúng”.

Chuyên môn càng rõ, AI làm được càng nhiều

Trong nghiên cứu, Anthropic đánh giá “mức chuyên môn thể hiện trong phiên” theo thang 5 mức, từ novice đến expert. Họ không nhìn vào chức danh nghề nghiệp, mà nhìn vào cách người dùng mô tả yêu cầu, cách họ kiểm tra đầu ra và việc ai là người sửa ai trong cuộc trao đổi.

Điều này khá sát thực tế. Một quản lý tài chính không biết Python vẫn có thể là “expert” trong một phiên nếu họ hiểu rất rõ quy tắc đối soát, kiểm soát được edge case và biết kết quả nào mới là kết quả dùng được.

Mức độ Biểu hiện thường thấy Khả năng giao việc cho AI
Novice Ra yêu cầu còn chung chung, ít ràng buộc, ít phát hiện lỗi sai tinh tế. Dễ phải ngắt quãng, AI làm ngắn, cần chỉ tay nhiều.
Intermediate Biết mục tiêu, biết điều kiện đạt, có thể kiểm tra và phản biện đầu ra. AI làm trơn tru hơn, ít bỏ cuộc giữa chừng hơn.
Expert Hiểu sâu vấn đề, nêu được edge case, kiểm thử đúng chỗ, sửa hướng rất nhanh. Chỉ một prompt có thể kích hoạt chuỗi hành động dài và chất lượng hơn.

Kết quả rất đáng chú ý: ở các phiên novice, mỗi prompt chỉ kích hoạt khoảng 5 hành động và khoảng 600 từ đầu ra từ Claude. Ở các phiên expert, mỗi prompt kích hoạt khoảng 12 hành động và khoảng 3.200 từ đầu ra. Nói dễ hiểu, người hiểu việc hơn không chỉ có kết quả tốt hơn, mà còn “kéo được nhiều lao động hơn” từ AI trong mỗi lần giao việc.

Biểu đồ mối liên hệ giữa chuyên môn và lượng công việc Claude thực hiện mỗi prompt
Hình 3. Mức chuyên môn càng cao thì Claude càng thực hiện nhiều hành động hơn sau mỗi prompt. Link ảnh chart được giữ nguyên từ bài gốc.

Người dùng Claude Code là ai

Một điểm hay khác của nghiên cứu là họ cố gắng suy ra nghề nghiệp của người dùng từ bối cảnh công việc, file, artifact và từ vựng trong phiên, chứ không mặc định cứ ai code là kỹ sư phần mềm.

  • Anthropic suy ra được nghề nghiệp trong khoảng 70% số phiên.
  • Nhóm lớn nhất vẫn là Computer and Mathematical Occupations, tức các nghề liên quan phần mềm và dữ liệu.
  • Các nhóm lớn tiếp theo gồm Business and Financial Operations; Arts, Design, and Media; Management; và Life, Physical, and Social Sciences.
  • Các nhóm tăng nhanh ngoài phần mềm gồm management, sales và legal.

Điều này khá quan trọng, vì nó cho thấy coding agent không còn là sân chơi riêng của dân dev. Khi AI gánh phần triển khai kỹ thuật, nhiều nghề khác bắt đầu dùng code như một công cụ phụ trợ để giải quyết công việc chính của họ.

Công việc đang dịch chuyển ra sao

Trong giai đoạn từ tháng 10/2025 đến tháng 4/2026, cơ cấu công việc trên Claude Code thay đổi khá mạnh. Rõ nhất là tỷ trọng phiên dành cho sửa code hỏng giảm từ 33% xuống còn 19%.

Phần giảm đó không biến mất, mà được thay bằng những việc “đầu-cuối” hơn: vận hành phần mềm tăng từ 14% lên 21%; viết mới và phân tích dữ liệu cũng tăng gần gấp đôi, từ khoảng 10% lên khoảng 20%.

Biểu đồ cho thấy cơ cấu công việc trên Claude Code thay đổi theo thời gian
Hình 4. Tỷ trọng các loại công việc thay đổi từ tháng 10/2025 đến tháng 4/2026. Link ảnh chart được giữ nguyên từ bài gốc.
Nhìn theo góc độ vận hành, đây là dấu hiệu tốt. Công cụ càng trưởng thành thì người dùng càng bớt dùng nó để chữa cháy từng lỗi nhỏ, và bắt đầu dùng cho những đầu việc mang tính hệ thống hơn.

Thành công phụ thuộc vào điều người dùng mang vào phiên làm việc

Anthropic dùng nhiều lớp đo để xem một phiên có thành công hay không. Họ không chỉ nhìn cảm giác “có vẻ xong”, mà còn xem có tín hiệu xác minh như test pass, commit, pull request hoặc xác nhận rõ ràng từ người dùng hay không.

Kết quả nhất quán ở mọi thước đo: người càng thể hiện chuyên môn cao trong phiên thì xác suất thành công càng lớn. Phần tăng mạnh nhất xảy ra khi đi từ novice lên intermediate; từ intermediate lên expert vẫn tăng, nhưng chênh lệch không còn quá lớn.

  • Phiên mức novice đạt verified success khoảng 15% thời gian.
  • Phiên từ mức intermediate trở lên đạt verified success khoảng 28% đến 33%.
  • Nếu tính cả partial success, novice đạt khoảng 77%, còn intermediate trở lên đạt khoảng 91% đến 92%.
Biểu đồ cho thấy tỷ lệ thành công tăng theo mức chuyên môn
Hình 5. Mức chuyên môn càng cao thì xác suất thành công càng lớn. Link ảnh chart được giữ nguyên từ bài gốc.

Còn một chi tiết rất đời thường: khi phiên làm việc gặp trục trặc, người mới bỏ cuộc nhiều hơn hẳn. Trong các phiên bị đánh dấu là có “trouble”, tỷ lệ phiên vừa thất bại vừa không viết được dòng code nào rơi vào khoảng 19% với novice, nhưng chỉ còn khoảng 5% đến 7% với các nhóm còn lại.

Đọc theo ngôn ngữ đi làm, chuyên môn không chỉ giúp giao việc đúng hơn; nó còn giúp người dùng biết lúc nào nên chỉnh AI, lúc nào nên bẻ hướng, và lúc nào nên yêu cầu kiểm tra lại.

Nghề nghiệp có thể kém quan trọng hơn chuyên môn

Một kết luận khá thú vị là người làm nghề phần mềm không vượt trội quá xa so với các nghề khác nếu xét trên các phiên thật sự tạo ra code. Nhóm nghề phần mềm đạt verified success khoảng 34% ở các phiên có sinh code, trong khi nhóm nghề khác đạt khoảng 29%.

Nếu dùng thước đo rộng hơn là ít nhất thành công một phần, hai nhóm này gần như ngang nhau: khoảng 89% với nghề phần mềm và 88% với nhóm còn lại. Nói cách khác, khi AI đã gánh phần triển khai, khoảng cách giữa “biết code chuyên nghiệp” và “hiểu rõ bài toán cần giải quyết” bắt đầu thu hẹp lại.

Biểu đồ so sánh tỷ lệ thành công giữa các nhóm nghề nghiệp
Hình 6. Chênh lệch thành công giữa nghề phần mềm và các nghề khác không quá lớn ở các phiên tạo ra code. Link ảnh chart được giữ nguyên