Trong hành trình khám phá thế giới số, chắc hẳn bạn đã không ít lần bắt gặp hình ảnh hoặc đối tượng trên mạng và tự hỏi đó là gì, hoặc làm thế nào để tìm mua chúng. May mắn thay, các công cụ thị giác tích hợp trình duyệt như Google Lens trên Chrome và Microsoft Copilot Vision trong Edge đã ra đời để giải quyết nhu cầu này. Tuy nhiên, đâu mới là lựa chọn tối ưu và hiệu quả hơn cho người dùng Việt Nam? Bài viết này của Thuthuatonline.net sẽ đi sâu phân tích, so sánh chi tiết hai công cụ AI mạnh mẽ này.
Google Lens được tích hợp sẵn trong trình duyệt Chrome và cũng có sẵn dưới dạng ứng dụng trên điện thoại thông minh. Tương tự, trước ngày 12 tháng 6 năm 2025, Copilot Vision của Microsoft chỉ giới hạn trong trình duyệt Microsoft Edge, truy cập thông qua cờ (edge://flags/#edge-copilot-vision). Tuy nhiên, bản cập nhật Copilot Vision mới nhất của Microsoft đã cho phép người dùng Windows 10 và Windows 11 sử dụng công cụ AI thị giác này trên toàn hệ thống, dù tại thời điểm hiện tại nó vẫn chỉ giới hạn cho người dùng ở Mỹ.
Khả năng tìm kiếm và xác định vật thể: Ai giúp bạn tìm đồ nhanh hơn?
Để đánh giá tốc độ và độ chính xác trong việc nhận diện đối tượng cũng như đưa ra các gợi ý hữu ích, chúng tôi đã thử nghiệm Google Lens và Copilot Vision trên cùng một số trang web. Cụ thể, chúng tôi sử dụng một bài blog về các loại vật liệu áo sơ mi và một bài đăng về cây cối được chia sẻ trong một nhóm Facebook. Đối với bài blog, chúng tôi tập trung vào phần mô tả về vải Oxford.
Cả Google Lens và Copilot Vision đều nhận diện đối tượng ngay lập tức. Chúng nhanh chóng xác định cây trong ảnh là cây Moringa. Tuy nhiên, có sự khác biệt trong cách chúng mô tả áo sơ mi Oxford. Google Lens mô tả đó là “Nylon Black Oxford Fabric” (Vải Oxford nylon đen), trong khi Copilot Vision gọi đó là “Oxford Shirt and Fabric” (Áo sơ mi và vải Oxford).
Sự khác biệt thực sự bắt đầu thể hiện rõ trong các bước tiếp theo mà hai công cụ thực hiện.
Google Lens tỏ ra vượt trội hơn hẳn nếu mục tiêu của bạn là tìm kiếm hoặc mua sản phẩm mà bạn đang nhìn thấy. Công cụ này gợi ý các mặt hàng tương tự, cung cấp các liên kết sản phẩm có thể nhấp được và điều hướng bạn đến các cửa hàng hoặc bài blog nơi bạn có thể tìm hiểu thêm hoặc thực hiện giao dịch mua hàng. Bố cục hiển thị kết quả ở dạng thanh bên (sidebar) giúp người dùng dễ dàng duyệt mà không cần rời khỏi trang hiện tại.
Ngược lại, Copilot Vision không đưa ra gợi ý sản phẩm hay chuyển hướng bạn đến các nguồn bên ngoài. Nó chỉ nhận diện nội dung trên trang và có thể trả lời các câu hỏi bạn có về chúng. Việc tìm hiểu về lợi ích sức khỏe của cây Moringa oleifera từ bài đăng Facebook khá thú vị. Khi được hỏi liệu có thể trồng cây này trong phòng khách hay không, Copilot Vision trả lời “Có lẽ là không”. Rõ ràng, Copilot Vision rất hữu ích nếu bạn chỉ muốn hiểu rõ hơn về một đối tượng nào đó, nhưng không phải là lựa chọn tốt nếu bạn hy vọng khám phá hoặc mua chúng.
Sao chép, dịch và hỏi đáp văn bản: Công cụ nào xử lý tốt hơn?
Tiếp theo, chúng tôi đã thử nghiệm cả hai công cụ với các tác vụ liên quan đến văn bản, bao gồm sao chép, dịch và đặt câu hỏi chuyên sâu. Chúng tôi sử dụng một tài liệu PDF học tiếng Đức-Anh song ngữ và một ảnh chụp mặt sau thẻ CCCD để xem mỗi công cụ xử lý văn bản ở các định dạng khác nhau như thế nào.
Google Lens nổi bật trong việc trích xuất và dịch văn bản từ hình ảnh và tài liệu. Chúng tôi có thể sao chép văn bản từ hình ảnh và dịch ngay lập tức trong thanh bên, điều này cực kỳ hữu ích nếu bạn đang làm việc với các tài liệu nước ngoài hoặc muốn lấy nhanh số điện thoại, tên, hoặc số CCCD mà không cần phải gõ lại. Bạn cũng có thể sử dụng thanh bên để khám phá kết quả tìm kiếm, tra cứu định nghĩa nhanh hoặc nhập thêm từ khóa để tìm thông tin liên quan. Mọi thao tác đều diễn ra trong bảng điều khiển bên, rất dễ nhìn và kiểm soát những gì bạn đang làm nổi bật.
Kết quả Google Lens trích xuất và dịch văn bản từ ảnh thẻ ID trong giao diện sidebar Chrome.
Mặt khác, Copilot Vision, ở phiên bản ứng dụng, không cho phép bạn sao chép văn bản và chỉ cung cấp bản dịch bằng giọng nói, điều này có nghĩa là bạn không thể sao chép hoặc ghi chú lại bản dịch như với Google Lens. Tuy nhiên, nó lại xử lý tương tác thời gian thực với văn bản rất tốt một cách đáng ngạc nhiên. Ví dụ, khi chúng tôi mở ảnh CCCD (được cố tình chụp ngược), chúng tôi yêu cầu Copilot Vision đọc nội dung trên trang. Nó đã gợi ý xoay ảnh và phóng to. Sau khi thực hiện, nó đọc nội dung văn bản và thậm chí còn cung cấp bản dịch tiếng Đức khi chúng tôi yêu cầu.
Về khả năng đặt câu hỏi tiếp theo về văn bản trên trang, Copilot Vision có thể cung cấp bất kỳ làm rõ nào bạn cần về nội dung đang xem. Tuy nhiên, bạn sẽ phải đặt câu hỏi và nhận câu trả lời bằng lời nói (thông qua các phản hồi hội thoại trên màn hình).
Tuy nhiên, bản cập nhật Copilot Vision vào ngày 12 tháng 6 có khả năng thay đổi tất cả những điều này. Theo Microsoft, Copilot Vision hiện đã bao gồm tính năng “Highlights”, mà đối với chúng tôi nghe rất giống trang kết quả của Google Lens, được gắn vào bên phải màn hình của bạn. Highlights dường như còn tiến xa hơn, có thể hiển thị nội dung hữu ích từ các ứng dụng, trình duyệt và tài liệu của bạn; về cơ bản là bất cứ thứ gì trên PC mà bạn chia sẻ với Copilot Vision. Microsoft cho biết bạn thậm chí sẽ không cần phải chủ động nhắc Copilot Vision trợ giúp – nó sẽ tự đề xuất các hành động và tệp liên quan dựa trên hoạt động của bạn.
Đáng tiếc là tại thời điểm viết bài, công cụ này chỉ có sẵn ở Mỹ, nên chúng tôi chưa thể thử nghiệm tính năng này.
Phân tích trang web và PDF: Công cụ nào cung cấp thông tin chuyên sâu hơn?
Copilot Vision thực sự nổi bật khi chúng tôi thử nghiệm khả năng phân tích toàn bộ trang web. Chúng tôi đã thử nghiệm cả hai công cụ trên một cuốn sách PDF hoàn chỉnh và một trang video YouTube, cụ thể là video đánh giá WWDC của MKBHD, để xem chúng có thể tóm tắt và cung cấp thông tin chi tiết về nội dung rộng lớn hơn như thế nào.
Google Lens chủ yếu giới hạn ở các yếu tố riêng lẻ mà bạn nhấp vào (văn bản, đối tượng và hình ảnh). Sau khi bạn làm nổi bật một thứ gì đó, nó có thể hiển thị thêm thông tin hoặc kết quả tương tự, nhưng nó không xử lý toàn bộ trang hoặc PDF. Vì vậy, chúng tôi chỉ có thể làm nổi bật tiêu đề sách hoặc trang bìa để nhận được kết quả tương tự.
Copilot Vision tự động làm nổi bật một câu quan trọng trong tài liệu PDF mở trên trình duyệt Edge.
Trong khi đó, Copilot Vision được thiết kế để diễn giải mọi thứ trên trang cùng một lúc. Nó đã trả lời câu hỏi của chúng tôi về ý chính của tác giả, điều hướng đến phần quan trọng và thậm chí còn làm nổi bật câu liên quan (mặc dù đôi khi nó bắt đầu trục trặc và từ chối các yêu cầu tiếp theo sau trường hợp này, có thể do kích thước tệp lớn).
Mặc dù hiệu suất của nó đôi khi bị chậm lại với các tệp lớn, nhưng rõ ràng nó được xây dựng để tương tác với toàn bộ trang và nội dung lớn hơn.
Khi chúng tôi thử nghiệm trang video, Copilot Vision đã tóm tắt những gì MKBHD nói và cách video được đón nhận. Nó thậm chí còn cung cấp các số liệu thống kê như lượt xem và lượt thích. Ngược lại, với Google Lens, chúng tôi chỉ có thể làm nổi bật ảnh của MKBHD hoặc tiêu đề video để thực hiện tìm kiếm.
Google Lens hay Copilot Vision: Lựa chọn nào phù hợp nhất với bạn?
Cả Google Lens và Microsoft Copilot Vision đều là những công cụ mạnh mẽ, nhưng chúng phục vụ các mục đích cơ bản khác nhau. Thay vì một công cụ vượt trội hơn hẳn, lựa chọn đúng đắn phụ thuộc vào cách bạn sử dụng công cụ thị giác tích hợp trình duyệt của mình.
Hãy chọn Google Lens nếu bạn muốn:
- Nhanh chóng nhận diện sản phẩm, quần áo, hoặc cây cối và tìm nơi mua chúng.
- Sao chép và dịch văn bản trực tiếp từ hình ảnh, trang web hoặc tài liệu một cách tức thì.
- Sử dụng giao diện dựa trên thanh bên (sidebar) sạch sẽ, giúp duyệt liên kết và định nghĩa mà không cần rời khỏi trang.
- Nhận kết quả tìm kiếm hình ảnh nhanh chóng và các bản tóm tắt AI từ Google mà không cần nhiều tương tác.
Google Lens đơn giản, dễ sử dụng và lý tưởng để nhận câu trả lời nhanh chóng về những gì bạn thấy khi duyệt web.
Hãy chọn Copilot Vision nếu bạn muốn:
- Tương tác với các tài liệu phức tạp, video hoặc toàn bộ trang web.
- Đặt các câu hỏi chi tiết về nội dung bạn đang đọc hoặc xem.
- Tóm tắt, diễn giải hoặc thảo luận văn bản với một chatbot AI thân thiện.
- Sử dụng giao diện được gắn vào (Highlights) cung cấp nhiều thông tin hơn dựa trên những gì có trên màn hình của bạn (nếu bạn có bản cập nhật mới nhất).
Copilot Vision không chỉ nhận diện những gì bạn đang nhìn. Nó muốn có một cuộc trò chuyện đầy đủ với bạn về điều đó.
Về khả năng tiếp cận và sử dụng, Google Lens miễn phí và được tích hợp hoàn toàn vào Chrome mà không có giới hạn sử dụng. Ngược lại, Copilot Vision yêu cầu Microsoft Edge với tính năng được bật và bạn sẽ chỉ có thể sử dụng nó vài lần mỗi ngày trừ khi bạn cân nhắc nâng cấp lên Copilot Pro.
Đối với đội ngũ của Thuthuatonline.net, chúng tôi nhận thấy mình thường xuyên sử dụng Google Lens hơn, và đây là công cụ mà chúng tôi sẽ chọn là tốt nhất về tổng thể. Hầu hết thời gian, chúng tôi chỉ muốn nhanh chóng nhận diện một thứ gì đó và tiếp tục công việc, dù đó là một sản phẩm, một từ hay một hình ảnh. Google Lens thực hiện điều đó ngay lập tức, không gây trở ngại. Thực tế là nó miễn phí, dễ dàng truy cập trong Chrome (và dưới dạng ứng dụng điện thoại thông minh), và không yêu cầu thiết lập bổ sung nào khiến nó trở thành công cụ thực tế nhất cho việc duyệt web hàng ngày. Mặc dù Copilot Vision có những điểm mạnh riêng, nhưng Google Lens vẫn chiến thắng nhờ sự đơn giản và hiệu quả.