Trí tuệ nhân tạo càng thông minh, càng phân biệt chủ‌ng tộ‌c “kín đáo” hơn?

Một nhóm các nhà nghiên cứu công nghệ và ngôn ngữ học đã tiết lộ rằng các mô hình trí tuệ nhân tạo (AI) ngôn ngữ lớn như ChatGPT của OpenAI và Gemini của Google có định kiến phân biệt chủ‌ng tộ‌c với những người Mỹ gốc Phi nói ngôn ngữ bản địa.

Các chatbot trí tuệ nhân tạo đang "ngấm ngầm" phân biệt chủ‌ng tộ‌c

Trong bài đăng trên trang arXiv, tác giả Valentin Hoffman - nhà nghiên cứu tại viện Trí tuệ nhân tạo Allen (Mỹ) cho biết, các nhà nghiên cứu trước đây "chỉ thực sự xem xét những thành kiến công khai về chủ‌ng tộ‌c" mà các công cụ trí tuệ nhân tạo có thể bị ảnh hưởng. Tuy nhiên, cần phải "kiểm tra cách những hệ thống này phản ứng với các dấu hiệu ít công khai hơn về chủ‌ng tộ‌c, chẳng hạn như sự khác biệt về phương ngữ".

AAVE là phương ngữ tiếng Anh do người Mỹ da đen tạo ra và sử dụng để giao tiếp. Và theo nghiên cứu này, những người da đen sử dụng AAVE "phải trải qua sự phân biệt chủ‌ng tộ‌c trong nhiều bối cảnh, bao gồm giáo dục, việc làm, nhà ở và các phán quyết pháp lý".

Ông Hoffman và các đồng nghiệp đã yêu cầu các mô hình trí tuệ nhân tạo đánh giá trí thông minh và khả năng làm việc của những người nói AAVE so với những người nói "tiếng Anh Mỹ chuẩn".

Các mô hình có xu hướng mô tả những người nói AAVE là "ngu ngốc" và "lười biếng", giao họ làm những công việc được trả lương thấp hơn.

Trí tuệ nhân tạo cũng đề xuất hình phạt cao hơn đối với những bị cáo Hình Sự giả định đã sử dụng AAVE trong các phiên tòa. Hiện nay, các mô hình trí tuệ nhân tạo cũng đang được sử dụng trong hệ thống Pháp Luật Mỹ để hỗ trợ các nhiệm vụ hành chính như tạo biên bản tòa án và tiến hành nghiên cứu pháp lý.

Vì vậy, nhóm nghiên cứu bày tỏ lo ngại các mô hình trí tuệ nhân tạo sẽ có định kiến giữa những người nói AAVE và tiếng Anh Mỹ chuẩn.

Các mô hình ngôn ngữ lớn phát triển khi chúng được cung cấp nhiều dữ liệu hơn, học "bắt chước" cách nói của con người bằng cách nghiên cứu văn bản từ hàng tỷ trang web trên internet. Điều này đồng nghĩa với việc trí tuệ nhân tạo sẽ nhận vào bất cứ thông tin nào mà nó tiếp cận được bao gồm cả định kiến phân biệt chủ‌ng tộ‌c, phân biệt giới tính và các định kiến tiêu cực khác.

Vấn đề này được mô tả bằng câu ngạn ngữ "rác vào, rác ra". Đầu vào phân biệt chủ‌ng tộ‌c dẫn đến đầu ra mang định kiến.

Chatbot trí tuệ nhân tạo "đời đầu" Tay của Microsoft từng khơi dậy nội dung theo chủ nghĩa phá‌t xí‌t mới mà nó đã học được từ người dùng Twitter vào năm 2016. Trong khi đó, Gemini - mô hình AI của Google gần đây đã gặp rắc rối khi một loạt bài đăng trên mạng xã hội cho thấy công cụ này đã tạo ra hình ảnh nhiều nhân vật lịch sử - bao gồm các giáo hoàng, những người sáng lập nước Mỹ và đặc biệt nhất là những người lính Đức trong Thế chiến thứ hai - là người d‌a mà‌u.

Để giải quyết vấn đề này, các nhà phát triển trí tuệ nhân tạo như OpenAI đã triển khai các biện pháp bảo vệ, đưa ra một bộ nguyên tắc đạo đức quy định nội dung mà các mô hình ngôn ngữ như ChatGPT có thể giao tiếp với người dùng. Khi các mô hình ngôn ngữ trở nên lớn hơn, chúng cũng có xu hướng ít phân biệt chủ‌ng tộ‌c một cách công khai hơn.

Nhưng nhà nghiên cứu Hoffman và các đồng nghiệp nhận thấy rằng, khi các mô hình ngôn ngữ phát triển, sự phân biệt chủ‌ng tộ‌c "ngấm ngầm" cũng gia tăng. Chúng học được rằng các rào cản đạo đức chỉ đơn giản là dạy các mô hình ngôn ngữ thận trọng hơn về thành kiến chủ‌ng tộ‌c của họ.

Như vậy, những mô hình này không loại bỏ được "lỗi" này mà chúng chỉ giỏi che giấu nó hơn mà thôi.

Các chuyên gia cho biết, rất khó để dự đoán các mô hình ngôn ngữ lớn sẽ được sử dụng như thế nào trong tương lai. Và chúng ta cũng không thể ngừng cải tiến hoặc làm chậm lại quá trình nghiên cứu AI. Tuy nhiên, các nhà phát triển trí tuệ nhân tạo nên chú ý đến những cảnh báo về phân biệt chủ‌ng tộ‌c. Bên cạnh đó, hạn chế sử dụng các công nghệ này trong một số lĩnh vực nhạ‌y cả‌m là bước đi cần thiết.

Mô hình ngôn ngữ lớn (Large Language Model - LLM) là một loại trí tuệ nhân tạo được đào tạo dựa trên một lượng dữ liệu rất lớn để thực hiện các tác vụ liên quan đến ngôn ngữ (bao gồm trả lời các câu hỏi, tạo nội dung văn bản, tóm tắt văn bản, dịch thuật, soạn email…) theo yêu cầu của người dùng.

Các mô hình ngôn ngữ lớn là nền tảng tạo nên những chatbot trí tuệ nhân tạo và tiếp tục được phát triển để thực hiện nhiều tác vụ phức tạp và phục vụ nhiều lĩnh vực trong cuộc sống.

Các mô hình ngôn ngữ lớn được đào tạo dựa trên một lượng dữ liệu lớn được tập hợp từ sách nghiên cứu, công trình khoa học, các trang web, từ điển bách khoa, mạng internet hoặc được các nhà phát triển xây dựng, tổng hợp riêng theo từng chuyên ngành, lĩnh vực…

Các mô hình ngôn ngữ lớn có thể hiểu và giao tiếp với con người bằng văn bản, giọng nói hoặc nhận diện hình ảnh để phản hồi các câu hỏi của người dùng. Cách thức diễn tả nội dung của các LLM rất trau chuốt và tự nhiên, gần gũi với cách diễn đạt của con người.

Nguồn Tin: