Mô hình ngôn ngữ lớn đã làm mưa làm gió trên thế giới cảm nhận được sự thống trị của họ về ngôn ngữ tự nhiên. Tuy nhiên, cơ hội lâu dài quan trọng nhất cho LLMs sẽ bao gồm một loại ngôn ngữ hoàn toàn khác: ngôn ngữ của sinh học. Một chủ đề đáng kinh ngạc đã xuất hiện từ cuộc hành trình dài của sự tiến bộ nghiên cứu trên sinh học hóa học, sinh học và di truyền trong thế kỷ qua: có vẻ như sinh học là một hệ thống có thể giải mã, có thể lập trình, một cách trong một số trường hợp thậm chí là kỹ thuật số. DNA mã hóa các hướng dẫn di truyền hoàn chỉnh cho mọi sinh vật sống trên trái đất chỉ bằng bốn biến số – A (adenine), C (cytosine), G (guanine) và T (thymine). So sánh với các hệ thống tính toán hiện đại, sử dụng hai biến số – 0 và 1 để mã hóa tất cả thông tin điện tử kỹ thuật số trên thế giới. Một hệ thống là nhị phân và một hệ thống khác là tứ phân, nhưng hai hệ thống này có sự tương đồng lạ lùng; cả hai hệ thống đều có thể được coi là kỹ thuật số. Mỗi protein trong mọi sinh vật sống đều bao gồm và được xác định bởi một chuỗi một chiều các acid amin được nối với nhau theo một thứ tự cụ thể. Protein có kích thước từ vài trăm đến vài nghìn acid amin với 20 acid amin khác nhau để lựa chọn. Đây cũng là một hệ thống có thể tính toán được, một hệ thống mà các mô hình ngôn ngữ được tốt nhất để học. Khi được ăn một lượng lớn dữ liệu có nhiều tín hiệu, các công cụ như ChatGPT đã học cách nói chuyện với suy nghĩ và sâu sắc về bất kỳ chủ đề nào có thể tưởng tượng được. Bằng cách ăn hàng tỉ hình ảnh, các mô hình văn bản đến hình ảnh như Midjourney đã học cách tạo ra hình ảnh sáng tạo ban đầu theo yêu cầu. Điều khiển mô hình ngôn ngữ lớn vào dữ liệu sinh học – cho phép chúng học ngôn ngữ của cuộc sống – sẽ mở ra những khả năng mà làm cho ngôn ngữ tự nhiên và hình ảnh trông gần như nhỏ nhặt. Một công cụ đặc biệt là mô hình ngôn ngữ protein đã chứng minh khả năng đoán được các mẫu và mối quan hệ phức tạp giữa chuỗi protein, cấu trúc và chức năng: ví dụ, làm thế nào thay đổi một số acid amin trong một phần của chuỗi protein sẽ ảnh hưởng đến hình dạng mà protein gấp lại.Khả năng của mô hình ngôn ngữ để phát triển một hiểu biết tổng quát về không gian “latent” của protein mở ra những cơ hội thú vị trong khoa học protein. Tuy nhiên, một bước tiến lớn hơn nữa đã xảy ra trong những năm kể từ AlphaFold. Ngắn gọn là, các mô hình protein này có thể được đảo ngược: thay vì dự đoán cấu trúc của một protein dựa trên chuỗi của nó, các mô hình như ESM-2 có thể được đảo ngược và sử dụng để tạo ra các chuỗi protein hoàn toàn mới không tồn tại trong tự nhiên dựa trên các thuộc tính mong muốn.
Tất cả các protein hiện có trên thế giới hôm nay chỉ là một phần rất nhỏ của tất cả các protein có thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thể teo hợp thTrong thế kỷ thứ 20, các tiến bộ cơ bản trong vật lý đã định hình: từ lý thuyết của Albert Einstein về độ lệch thời gian đến khám phá vật lý học, từ bom nguyên tử đến transistor. Như nhiều nhà phân tích hiện đại đã chú ý đến, thế kỷ thứ 21 đang trở thành thế kỷ của sinh học. Trí tuệ nhân tạo và các mô hình ngôn ngữ lớn sẽ đóng vai trò trung tâm trong việc mở khóa bí mật của sinh học và phát huy khả năng của nó trong thập kỷ tới.
Các ứng dụng thị trường của trí tuệ nhân tạo đạt đến hiệu quả cao nhất là trong lĩnh vực thiết kế protein bằng các mô hình ngôn ngữ lớn (LLM). Những thuật toán này có thể được sử dụng để thiết kế các thuốc chữa bệnh ung thư; họ sẽ giúp thực hiện việc chỉnh sửa gen thành thật; họ sẽ cải tiến khoa học về vật liệu; họ sẽ cải thiện sản lượng nông nghiệp; họ sẽ làm giảm các chất ô nhiễm trong môi trường và nhiều thứ khác mà chúng ta vẫn chưa thể tưởng tượng được.
Tuy nhiên, lĩnh vực thiết kế protein bằng các mô hình ngôn ngữ lớn vẫn còn mới và chưa được chứng minh. Vẫn còn nhiều vấn đề khoa học, kỹ thuật, y tế và kinh doanh cần giải quyết. Việc đưa các sản phẩm thuốc và sản phẩm mới này vào thị trường cũng sẽ mất nhiều năm.
Ngoài ra, các mô hình ngôn ngữ lớn còn có thể được sử dụng để tạo ra các lớp khác của các hợp chất sinh học, đặc biệt là các acid nucleic. Một công ty startup nổi tiếng tên là Inceptive đang áp dụng LLMs để tạo ra các thuốc RNA mới.
Mục tiêu cuối cùng là xây dựng một hệ thống trí tuệ nhân tạo có thể hiểu và thiết kế mọi chi tiết phức tạp của một hệ thống sinh học. Trong thời gian tới, điều này sẽ trở thành hiện thực.
Để đáp ứng nhu cầu giúp đỡ của công nghệ phân tích dữ liệu ngôn ngữ (Natural Language Processing, NLP), mô hình đầu ra ngôn ngữ lớn (Large Language Models, LLMs) được áp dụng vào một số lĩnh vực khác nhau. Nhưng với sự phát triển của NLP và một phạm vi càng rộng của liên kết dữ liệu, một lĩnh vực mới đã xuất hiện cho LLMs – đó là sinh học.
Đầu tiên, mô hình LLMs có thể được áp dụng trong sinh học để hỗ trợ nghiên cứu biolog về cơ sở dữ liệu của sinh học. Những MLLM tùy tùy chỉnh có thể ngày càng trở nên chính xác hơn và đa dạng hơn khi phân tích các vấn đề về chủ đề bằng cách làm việc với các loại dữ liệu thu thập được bởi các nghiên cứu sinh học.
Ngoài ra, mô hình LLMs có thể được sử dụng để giúp Viện Nghiên cứu Sinh Học tìm ra cách áp dụng cải tiến đáng kể trong công nghệ liên quan đến sinh học. Mô hình LLMs tài, hữu ích trong việc phân tích cấu trúc và tìm hiểu vấn đề liên quan đến các chủng tộc con người, sự phát triển của loài sinh vật, chu kỳ sinh tồn của các loài động vật và mô hình giống nhau trên mức sinh học.
Tất cả chỉ là bắt đầu. Suy nghĩ của khoa học sinh học sẽ ngày càng được thực hiện hơn với sự cố gắng toàn diện của mô hình LLMs. Trong tương lai, có thể có nhiều liên kết sinh học thú vị bất ngờ và các ứng dụng thực tế trên thế giới thiên nhiên và dành cho người ta.