Sarah Silverman, Richard Kadfrey và Christopher Golden đã cùng nhau kiện Meta và OpenAI về tội vi phạm bản quyền. Hai vụ kiện đều đối với một trong hai công ty và các tác giả không đồng ý cho các cuốn sách của họ được sử dụng làm nguyên liệu huấn luyện cho các mô hình ngôn ngữ lớn (LLM) đứng sau ChatGPT của OpenAI và LLaMa của Meta.
Mô hình LLM là một loại thuật toán trí tuệ nhân tạo được huấn luyện bằng cách sử dụng lượng lớn thông tin từ các cuốn sách và văn bản từ internet để học các mẫu ngôn ngữ, ngữ pháp và ngữ cảnh cho đến khi nó có thể tạo ra văn bản giống như con người và có các cuộc trao đổi trò chuyện với người dùng.
Theo các vụ kiện, các mô hình “tái tạo các tác phẩm bản quyền của hàng nghìn tác giả sách – và nhiều người khác – mà không có sự đồng ý, trả lương hoặc tín dụng”.
Vi phạm bản quyền là một trong nhiều lo ngại của những người chống lại AI từ khi ChatGPT trở nên phổ biến vào tháng 11, kích hoạt sự bùng nổ của AI tạo ra và câu hỏi về cách AI sẽ ảnh hưởng đến quá trình sáng tạo và bản quyền.
Các vụ kiện tranh luận rằng các mô hình được huấn luyện bằng các tài liệu bị lấy được bất hợp pháp, như những gì được tìm thấy trên các trang web thư viện bóng tối. Theo vụ kiện của OpenAI: “Tập dữ liệu OpenAI Books2 có thể ước tính có khoảng 294.000 tiêu đề. Duy nhất ‘tập dữ liệu sách cơ sở internet’ mà bao gồm đến nhiều tài liệu như vậy là các trang web thư viện bóng tối nổi tiếng như Library Genesis (còn gọi là LibGen), Z-Library (còn gọi là B-ok), Sci-Hub và Bibliotik. Các cuốn sách được tập hợp bởi các trang web này cũng đã có sẵn trong dạng số lượng lớn thông qua hệ thống torrent.”
Vụ kiện của Meta cũng đưa ra các tranh luận tương tự, khi nó liên kết đến những nguồn mà các cuốn sách được huấn luyện được thu thập. Nó chia chúng thành hai phần: Phần đầu là từ Project Gutenberg, một kho lưu trữ trực tuyến của các cuốn sách đã hết hạn bản quyền, và phần thứ hai là từ “Books3 section of ThePile”, một tập dữ liệu có sẵn trên trang web dự án AI phổ biến, Hugging Face, và có vẻ là đại diện cho toàn bộ Bibliotik, đã đề cập ở trên.
Các luật sư đại diện cho các nghi can là Joseph Savery và Matthew Butterick, cũng là những người đại diện cho tác giả Mona Awad và Paul Tremblay trong một vụ kiện được đệ đơn vào tháng 6 đối với OpenAI về vi phạm bản quyền.
Ngày hôm nay, bộ ba tác giả của một hệ thống quản trị câu hỏi – đáp mới đã bắt đầuks tố cáo về vi phạm bản quyền giữa OpenAI và Meta.
Tác giả bảng chất lượng câu hỏi – đặt câu hỏi Adolfo Massone, Abdelberi Chaabane và Preslav Nakov – đã kiện cả OpenAI và Meta, một cong ty Silicon Valley nổi tiếng vì vi phạm bản quyền học thuật mới của họ. Các tác giả đã yêu cầu trợ cấp thương lượng $ 15 triệu đô la.
Theo yêu cầu của các tác giả, OpenAI đã vi phạm bản quyền khoa học của họ khi sử dụng các công nghệ có liên quan đến câu hỏi Đáp để xây dựng question-answering system của họ.
Theo tác giả, vi phạm này làm mất trội các năng lực tìm kiếm mà họ đã cung cấp cho khoa học. Họ đã nêu ra rằng, vì bản quyền đã bị vi phạm, họ bị tổn thất sự nghiệp của họ và tài chính.
Nghi can này đã đặt ra nguy cơ cho OpenAI và Meta trong các cuộc kiện luật trực tiếp và rủi ro cả nhân tố kinh tế và ý nghĩa của các vi phạm liên quan đến bản quyền. Từ đó, các tác giả sẽ được bù lòng vì thiệt hại gây ra bởi vi phạm.