ChatGPT đang nhận được một bản nâng cấp cực lớn, được thiết kế để tăng tốc cuộc sống của bạn và loại bỏ các tác vụ nền lặp đi lặp lại, những thứ làm chúng ta mất tập trung khỏi công việc, giải trí và nhiều hơn nữa. Tính năng ChatGPT Agent mới của nó sẽ ra mắt khả năng duyệt web tự động hoàn toàn (agentic browsing) – và nó sẽ đến với bạn rất sớm.
OpenAI Nâng Cao Khả Năng Hữu Ích Của ChatGPT Lên Một Tầm Cao Mới
ChatGPT đang có được khả năng sử dụng các tác nhân AI tự động hoàn toàn, được gọi là ChatGPT Agent. Hãy hình dung thế này: Cho đến nay, ChatGPT có thể duyệt web và tìm thông tin cho bạn, nhưng bạn vẫn cần duy trì tương tác và hướng dẫn quá trình nghiên cứu của nó.
Giao diện ChatGPT Agent đang chọn tác vụ tự động hóa trong cửa sổ trò chuyện.
Tuy nhiên, giờ đây ChatGPT Agent có thể tự động hóa hoàn toàn tất cả các quy trình, yêu cầu và tác vụ này, hoàn thành chúng gần như không cần sự can thiệp của người dùng. Về nhiều mặt, ChatGPT Agent kết hợp hai công cụ trước đây của OpenAI – Operator và Deep Research – để tạo ra một công cụ mạnh mẽ hơn đáng kể, có khả năng thực hiện các hành động một cách tự chủ. Operator là nỗ lực trước đây của OpenAI về một tác nhân AI, có thể duyệt web, đặt chỗ và hoàn thành một số tác vụ cơ bản. Trong khi đó, Deep Research là một công cụ nghiên cứu chuyên sâu được thiết kế để đào sâu vào bất kỳ lời nhắc nào được cung cấp, tạo ra các báo cáo toàn diện chứa phân tích dữ liệu từ nhiều nguồn, nhưng nó không được thiết kế cho mức độ tương tác web tương tự như Operator.
Việc kết hợp các công cụ này với sức mạnh của AI dạng tác nhân (agentic AI) mang đến một công cụ có thể tự động duyệt web cho bạn, có tính đến gần như bất kỳ thông tin nào bạn cung cấp. Trong đó, ChatGPT Agent có thể truy cập “ChatGPT connectors” cho phép bạn liên kết các ứng dụng và tài khoản vào tác nhân, nơi nó có thể tìm thấy thông tin rất cụ thể về bạn và các yêu cầu của bạn. Ví dụ, bạn có thể kết nối Gmail, ứng dụng lịch của mình, v.v., và biến tác nhân AI này thành một trợ lý cá nhân chính hiệu.
ChatGPT Agent của OpenAI tự động duyệt web và tương tác với các trang trực tuyến.
Bạn có thể chia nhỏ khả năng của ChatGPT Agent thành ba lĩnh vực chính:
- Tác vụ Tự động: ChatGPT Agent có thể hoàn thành các tác vụ phức tạp, nhiều bước mà không yêu cầu người dùng phải nhập liệu liên tục.
- Duyệt Web: Tác nhân này có thể duyệt web bên trong ChatGPT, bắt chước chính xác một con người thực với các cú nhấp chuột và thao tác của nó. Nó cũng có thể điều hướng các biểu mẫu, một yếu tố cực kỳ quan trọng trên internet ngày nay. Đó là một máy tính ảo bên trong ChatGPT, có cả giao diện dựa trên văn bản và trình duyệt trực quan, mà Agent có thể chọn sử dụng.
- Công cụ: OpenAI đã xác nhận rằng ChatGPT Agent có thể sử dụng tất cả các công cụ đã có sẵn để hoàn thành các tác vụ của mình, chẳng hạn như truy cập API, thao tác tệp, nhập dữ liệu, suy luận và thậm chí là lập trình để hoàn thành công việc. Ví dụ, Agent có quyền truy cập vào terminal riêng để thực hiện các tác vụ cụ thể hoặc sử dụng AI tạo sinh để tạo ra hình ảnh độc đáo.
ChatGPT Agent của OpenAI sử dụng kết nối (connector) để tích hợp với các ứng dụng khác.
Đây là mô hình đầu tiên mà OpenAI đã huấn luyện có thể di chuyển liền mạch giữa các chức năng khác nhau và “hộp công cụ thống nhất” này. Sử dụng học tăng cường (reinforcement learning), Agent có thể quyết định khi nào nên sử dụng bất kỳ công cụ nào có sẵn, cho phép nó xử lý các lời nhắc và tác vụ phức tạp từng bước một. Nhưng theo thời gian, nó sẽ trở nên hiệu quả hơn trong việc hoàn thành các tác vụ, đẩy nhanh quá trình và tăng độ chính xác.
Liệu ChatGPT Agent Có Hoàn Thành Tác Vụ Mà Không Hỏi? Nó Có An Toàn Không?
Buổi phát trực tiếp của OpenAI đã làm nổi bật một vài tính năng bảo mật quan trọng được tích hợp trong ChatGPT Agent.
Đầu tiên, mặc dù nó có thể hoàn thành các tác vụ theo yêu cầu, nhưng nó sẽ nhắc bạn khi cần gửi biểu mẫu, đăng nhập vào trang web và các tác vụ quan trọng khác. Những điểm dừng này được thiết kế để ngăn chặn các vấn đề phát sinh cụ thể trong các trường hợp này. Tự động hóa thật tuyệt vời, nhưng hiện tại, sự can thiệp của người dùng vẫn rất quan trọng.
OpenAI cũng đã huấn luyện Agent từ chối các yêu cầu nguy hiểm, không an toàn hoặc mơ hồ mà nó không thể thực hiện. Nó được liên kết chặt chẽ với các tiêu chuẩn an toàn hiện có của OpenAI, điều này sẽ đảm bảo nó không đi quá xa khỏi các giới hạn hiện tại của ChatGPT. Điều này chắc chắn sẽ làm một số người khó chịu khi họ tin rằng ChatGPT đã bị khóa quá chặt, nhưng điều đó là hợp lý khi một tác nhân AI tự động được tung ra thế giới.
Hơn nữa, khi ra mắt, nó sẽ không thực hiện bất kỳ giao dịch mua nào mà không có sự xác nhận.
Agent cũng đi kèm với một số công cụ mới để bảo vệ chống lại tấn công chèn lệnh (prompt injection), một loại tấn công độc hại mới tập trung vào các công cụ AI. Tấn công chèn lệnh là một vấn đề đối với tất cả các loại AI tạo sinh, nhưng đặc biệt đáng lo ngại khi các công cụ này sẽ bắt đầu duyệt web một cách tự chủ.
Theo đó, OpenAI đã xây dựng một số biện pháp bảo vệ mới vào Agent. Ví dụ, ChatGPT Agent chạy trong một môi trường hộp cát (sandboxed environment). Mặc dù nó có thể thực hiện các thay đổi đối với lịch của bạn, tải xuống tệp, v.v., OpenAI không muốn nó tương tác trực tiếp với hệ điều hành của bạn ở mức độ có thể gây ra thiệt hại, vì vậy nó cách ly công cụ này. Ngoài ra, nó sử dụng các bộ phân loại cụ thể để xác định các cuộc tấn công chèn lệnh và các loại thao túng khác, đồng thời được thiết kế để ngăn chặn chúng.
Khi Nào ChatGPT Agent Ra Mắt?
Trên thực tế, trong một khoảnh khắc hiếm hoi của OpenAI, Sam Altman đã xác nhận rằng Agent sẽ ra mắt ngay lập tức. Người đăng ký ChatGPT Pro sẽ nhận được 400 truy vấn mỗi tháng, trong khi người đăng ký Plus và Team sẽ có giới hạn hơn với 40 yêu cầu.
Tuy nhiên, giống như hầu hết các tính năng mới của ChatGPT, ngay cả khi nó ra mắt ngay lập tức, vẫn mất vài ngày để nó được triển khai đến tài khoản cụ thể của bạn, ngay cả khi bạn đã đăng ký một trong các gói trên.
Đừng quên rằng, không gian duyệt web với tác nhân trong trình duyệt đang rất sôi động. Đầu năm 2025, Opera đã ra mắt trình duyệt Neon ấn tượng với tác nhân AI của mình, trong khi Perplexity cũng đang thử nghiệm trình duyệt Comet được hỗ trợ bởi AI. Và đừng quên rằng gã khổng lồ chống virus Norton cũng sẽ ra mắt Neo, một trình duyệt được hỗ trợ bởi AI khác, vào khoảng năm 2025. Như đã nói, các trình duyệt được hỗ trợ bởi AI đã ở đây, và chúng đang đến rất nhiều!
Bạn có ý kiến gì về tiềm năng của ChatGPT Agent trong việc thay đổi cách chúng ta tương tác với công nghệ? Hãy chia sẻ suy nghĩ của bạn trong phần bình luận bên dưới!