Các mô hình AI tạo ảnh đang phát triển với tốc độ chóng mặt, nhưng việc chúng vẫn thường xuyên cho ra những hình ảnh “khó hiểu” là điều không hề hiếm gặp. Vì dễ dàng cho rằng lỗi nằm ở prompt (lời nhắc) do con người cung cấp, chúng tôi quyết định tiến hành một thử nghiệm để xem liệu AI có dễ dàng làm việc hơn khi sử dụng độc quyền các prompt cũng do AI tạo ra hay không. Đây là một câu hỏi quan trọng trong lĩnh vực AI tạo ảnh hiện nay, đặc biệt khi người dùng Việt Nam ngày càng quan tâm đến khả năng của trí tuệ nhân tạo trong sáng tạo hình ảnh.
Quy tắc và Công cụ cho Thử Nghiệm Độc Đáo Này
Khi các mô hình AI tạo ảnh xuất hiện vài năm trước, nhiều người đã nghĩ rằng nó sẽ đặt dấu chấm hết cho những người làm việc trong lĩnh vực truyền thông hình ảnh. Tuy nhiên, điều này đã không xảy ra. Mặc dù có khả năng tạo ra những bức ảnh siêu thực, các sản phẩm từ AI thường rơi vào trạng thái khó đoán, đặc biệt nếu bạn yêu cầu những thứ phức tạp hơn một chút (ví dụ, AI thường gặp khó khăn với việc tạo ra bàn tay).
Bạn có thể đổ lỗi cho chính các mô hình AI về vấn đề này, hoặc cho sai lầm của con người với kỹ năng tạo prompt không nhất quán. Cách tự nhiên để kiểm tra xem ai là người đáng trách là xem liệu các mô hình tạo ảnh có cho kết quả tốt hơn nếu bạn nhập các prompt được AI tạo ra hay không.
Để kiểm tra giả thuyết này, tôi sẽ sử dụng Gemini để tạo ra một loạt prompt mà không dùng tên của vật thể hay bức ảnh tôi muốn tạo ra. Điều này sẽ giúp kiểm tra xem AI “đọc” hướng dẫn tốt đến mức nào. Thật vậy, vẫn có khả năng mô hình sẽ lấy cảm hứng rất nhiều từ dữ liệu mà nó đã được đào tạo (đặc biệt khi tái tạo các bức ảnh hiện có), nhưng đây là một phần của cuộc thử nghiệm.
Công cụ mà tôi chọn để tạo hình ảnh sẽ là Bing Image Creator, dựa trên nền tảng DALL-E 3. Để đưa mô hình vào thử thách, tôi sẽ bắt đầu với các hình dạng đơn giản và chuyển sang các hình ảnh phức tạp hơn khi thí nghiệm tiến triển. Nếu bạn đã từng sử dụng ChatGPT và các công cụ tương tự, bạn sẽ biết câu trả lời của chúng có thể dư thừa đến mức nào, và điều đó cũng không khác gì với các prompt mà mô hình đã đưa ra cho tôi trong lần chạy thử nghiệm. Do đó, tôi quyết định giới hạn prompt ở 500 ký tự để giữ tính nhất quán.
Khả Năng Của AI Với Các Hình Dạng Cơ Bản
Hãy bắt đầu với một hình vuông đơn giản. Tôi yêu cầu Gemini mô tả một hình vuông mà không gọi tên nó, và đây là những gì nó đưa ra:
“Một hình có bốn cạnh với tất cả các cạnh có chiều dài bằng nhau. Mỗi góc bên trong có số đo chính xác là 90 độ. Nó là một tứ giác đều với các cạnh đối song song.”
Sau khi đưa mô tả này vào DALL-E, tôi nhận được những kết quả sau:
Hình ảnh một hình vuông được AI tạo ra
Đúng là một hình vuông, mặc dù tôi nghĩ nó đã hơi lạm dụng các yếu tố hình học. Đã đến lúc tăng độ khó, vì vậy tôi yêu cầu AI mô tả một hình lập phương.
“Một hình ba chiều với sáu mặt giống hệt nhau. Mỗi mặt là một tứ giác đều với bốn cạnh bằng nhau và bốn góc vuông. Nó có mười hai cạnh có chiều dài bằng nhau và tám đỉnh. Tất cả các góc trong hình đều là góc vuông.”
Kết quả thật đáng ngạc nhiên:
Hình ảnh một khối lập phương được AI tạo ra trên nền trắng
Hãy nhớ điều chúng ta đã nói về sự khó đoán của các mô hình AI? Ở đây, DALL-E đã tạo ra một hình lập phương, nhưng nó lại bị nhầm lẫn và biến thành khối Rubik. Mặc dù đã tránh dùng từ chính xác, AI vẫn mắc lỗi một phần – có thể là do sự phổ biến của món đồ chơi trí tuệ này. Điều này cho thấy chất lượng AI tạo ảnh vẫn còn là một thách thức, ngay cả với các mô tả chi tiết.
AI “Đọc” Ảnh Chân Dung Người Thế Nào?
Tình huống với khối lập phương cho thấy ngay cả với mô tả chi tiết, “khách quan”, AI vẫn có thể hiểu sai các hướng dẫn khá trực tiếp. Vậy, hãy xem nó làm tốt đến mức nào với các mô tả do AI tạo ra về các bức ảnh cổ điển, chẳng hạn như “Migrant Mother” của Dorothea Lange. Đây là bản gốc:
“Một người phụ nữ, khuôn mặt khắc sâu nỗi lo lắng, nhìn ra ngoài khung hình. Cô ấy được bao quanh bởi những đứa con của mình, khuôn mặt chúng bị che khuất hoặc quay đi. Bàn tay cô ấy đặt gần mặt, thể hiện sự kiệt sức và lo âu. Cảnh tượng gợi lên sự nghèo đói và khó khăn. Quần áo của người phụ nữ đã sờn cũ, và tổng thể bố cục u ám, nhấn mạnh gánh nặng hoàn cảnh của cô ấy.”
Đây là cách DALL-E diễn giải bức ảnh nổi tiếng này:
Hình ảnh do AI tạo ra gợi nhớ bức ảnh nổi tiếng chụp trong thời kỳ Đại Suy thoái về một người mẹ ôm con
Khá gần! Không hoàn hảo, vì DALL-E rõ ràng đã bỏ qua phần “được bao quanh bởi những đứa con của mình, khuôn mặt chúng bị che khuất hoặc quay đi” và thay vì “người mẹ” đặt tay gần mặt, một trong những đứa trẻ đã đảm nhận vai trò đó.
Hãy thử một cái gì đó phức tạp hơn. Chắc hẳn bạn đã thấy bức ảnh biểu tượng “Lunch atop a Skyscraper”:
Bức ảnh đen trắng biểu tượng mô tả những công nhân đang ngồi trên một dầm thép của tòa nhà chọc trời
“Mười một người đàn ông ngồi trên một dầm thép, lơ lửng trên cao. Họ ăn trưa, chân đung đưa. Dầm được treo lơ lửng trên một thành phố rộng lớn. Những người đàn ông có vẻ thư thái, bất chấp độ cao cực kỳ. Họ mặc đồ lao động, và cảnh tượng được chụp từ một góc hơi thấp, nhấn mạnh độ cao.”
Prompt tuyệt vời này đã mang lại kết quả cũng tuyệt vời không kém:
Hình ảnh do AI tạo ra mô phỏng lại bức ảnh nổi tiếng về các công nhân ngồi trên dầm thép của tòa nhà chọc trời ăn trưa
Một khi bạn bỏ qua các dấu hiệu kinh điển của hình ảnh AI (những chiếc bát giống hệt nhau và các đối tượng bị “copy-paste”), nó gần như kỳ lạ về bố cục và tổng thể. Điều này không ngạc nhiên – không chỉ bức ảnh này rất phổ biến, mà nó còn thuộc phạm vi công cộng, vì vậy tôi có linh cảm rằng DALL-E đã “tiêu hóa” nội dung của nó trong quá trình huấn luyện. Điều này gợi mở về khả năng của AI trong việc tái tạo những hình ảnh quen thuộc.
AI Có Thể Xử Lý Các Bức Ảnh Phức Tạp Đến Mức Nào?
Vì đây là “bài kiểm tra” cuối cùng trong thử nghiệm, nên chúng ta sẽ không khoan nhượng! Mặc dù AI khá tốt với các chủ thể là con người, nhưng nó thường thất bại khi đối mặt với các cảnh phức tạp và “bí ẩn” hơn. Vậy còn bức ảnh biểu tượng “Earthrise” được chụp từ quỹ đạo mặt trăng trên Apollo 8 thì sao?
Ảnh Trái Đất chụp từ quỹ đạo Mặt Trăng
“Một quả cầu được chiếu sáng một phần lơ lửng trong một khoảng không tối tăm. Một quả cầu nhỏ hơn, có tông màu xám, nhô lên trên đường chân trời của nó. Quả cầu lớn hơn hiển thị các mảng màu xanh lam và trắng lốm đốm, gợi ý nước và mây. Sự tương phản rõ rệt giữa hai quả cầu và bóng tối nhấn mạnh sự mong manh và cô lập của quả cầu nhỏ hơn, đang mọc lên.”
Gemini thực sự đã bỏ lỡ (hay nên nói là quả cầu) với mô tả này. Xem xét đây là một mô tả quá trừu tượng, tôi đã thêm cụm từ “được chụp từ quỹ đạo mặt trăng gần” vào prompt, nhưng nó không giúp ích được nhiều:
Hình ảnh do AI tạo ra mô tả Mặt Trăng ở tiền cảnh và Trái Đất ở hậu cảnh
Đây là một bìa album progressive rock tuyệt vời, nhưng không có gì liên quan đến “Earthrise”. Để kết thúc thí nghiệm, tôi đã chọn bức ảnh ít được biết đến nhất từ trước đến nay, kiệt tác công nghiệp “Armco Steel” của Edward Weston:
Hình ảnh đen trắng cho thấy cảnh công nghiệp đầy ống khói
“Một loạt các bể công nghiệp bằng kim loại tròn, đầy khung hình. Hình dạng của chúng trơn tru và phình ra, tạo thành một mô hình lặp lại. Ánh sáng phản chiếu trên các bề mặt, làm nổi bật các hình dạng cong và tạo cảm giác về khối lượng. Bố cục nhấn mạnh các phẩm chất trừu tượng của các vật thể công nghiệp, tập trung vào hình dạng và kết cấu hơn là chức năng của chúng. Cảnh tượng khắc khổ và tối giản, với sự nhấn mạnh mạnh mẽ vào ánh sáng và bóng tối.”
Có vẻ là một prompt tốt, hãy xem liệu DALL-E có đồng ý không:
Hình ảnh do AI tạo ra mô tả một loạt các hình trụ sáng bóng xếp thẳng hàng cạnh nhau, lấp đầy toàn bộ màn hình
Mặc dù tôi đánh giá cao cảm giác khoa học viễn tưởng, nhưng nó không giống gì với bản gốc. Tôi không muốn kết thúc thí nghiệm với một thất bại thảm hại, vì vậy tôi quyết định giúp đỡ cỗ máy bằng cách thêm cụm từ “bức ảnh những năm 1920” vào cuối prompt.
Tôi nghĩ rằng cụm từ đặc biệt này có thể giúp làm rõ bức ảnh tôi đang đề cập đến. Thật không may, AI lại làm tôi thất vọng một lần nữa và tạo ra một bìa album prog rock khác:
Hình ảnh do AI tạo ra cho thấy các hình trụ lớn tròn ở phía trên
Kết quả của thử nghiệm này rất thú vị, và kết luận chúng ta có thể đưa ra là AI tạo ảnh cực kỳ khó đoán, đặc biệt với các khái niệm trừu tượng hơn. Dù prompt được AI tạo ra và chính xác, hay do con người tạo ra và không hoàn hảo – kết quả dường như ngẫu nhiên.
Vì vậy, lần tới khi bạn cố gắng tự trách mình và khả năng tạo prompt của bạn, hãy nhớ rằng kết quả có thể sẽ gần như giống nhau ngay cả khi đó là hai cỗ máy đang giao tiếp với nhau. Thử nghiệm này củng cố thêm rằng, dù AI sinh ảnh đã tiến bộ đáng kể, vẫn còn nhiều hạn chế của AI cần được khắc phục để đạt đến sự chính xác và nhất quán như mong đợi.
Hãy chia sẻ ý kiến của bạn về những kết quả thú vị này và kinh nghiệm của bạn khi sử dụng các công cụ AI tạo ảnh!