Tx-LLM: Cuộc cách mạng trong phát triển thuốc với mô hình AI đa năng của Google

• Google Research và Google DeepMind giới thiệu Tx-LLM, một mô hình ngôn ngữ lớn được tinh chỉnh từ PaLM-2 để xử lý các tác vụ đa dạng trong phát triển thuốc.

• Tx-LLM được huấn luyện trên 709 bộ dữ liệu bao gồm 66 chức năng trong quy trình phát triển thuốc, sử dụng một bộ trọng số duy nhất để xử lý các thực thể hóa học và sinh học khác nhau.

• Mô hình đạt hiệu suất cạnh tranh trên 43 tác vụ và vượt trội trên 22 tác vụ so với các mô hình tiên tiến nhất hiện nay.

• Tx-LLM xuất sắc trong các tác vụ kết hợp biểu diễn phân tử với văn bản và thể hiện sự chuyển giao tích cực giữa các loại thuốc khác nhau.

• Các nhà nghiên cứu đã tạo ra bộ sưu tập dữ liệu TxT từ kho dữ liệu TDC, tập trung vào 66 tác vụ bao gồm phân loại nhị phân, hồi quy và tạo sinh.

• Dữ liệu được định dạng cho việc tinh chỉnh hướng dẫn, bao gồm 4 thành phần: hướng dẫn, ngữ cảnh, câu hỏi và câu trả lời.

• Các biểu diễn như chuỗi SMILES cho phân tử và chuỗi axit amin cho protein được sử dụng trong quá trình huấn luyện.

• Hiệu suất của mô hình được đánh giá bằng các chỉ số như AUROC, tương quan Spearman và độ chính xác tập hợp.

• Tx-LLM thể hiện xuất sắc trên các bộ dữ liệu kết hợp chuỗi phân tử SMILES với các đặc điểm văn bản như mô tả bệnh hoặc dòng tế bào.

• Mô hình gặp khó khăn với các bộ dữ liệu chỉ dựa vào chuỗi SMILES, nơi các mô hình dựa trên đồ thị hiệu quả hơn.

• Tx-LLM là mô hình ngôn ngữ lớn đầu tiên được huấn luyện trên các bộ dữ liệu TDC đa dạng, bao gồm phân tử, protein, tế bào và bệnh tật.

• Việc huấn luyện với các bộ dữ liệu không phải phân tử nhỏ (như protein) cải thiện hiệu suất trên các tác vụ liên quan đến phân tử nhỏ.

• Mô hình thể hiện tiềm năng cho quá trình phát triển thuốc từ đầu đến cuối, từ xác định gen đến thử nghiệm lâm sàng.

• Tuy nhiên, Tx-LLM vẫn đang trong giai đoạn nghiên cứu, với những hạn chế về hướng dẫn ngôn ngữ tự nhiên và độ chính xác dự đoán, cần được cải thiện và xác thực thêm để ứng dụng rộng rãi hơn.

📌 Google AI giới thiệu Tx-LLM, mô hình ngôn ngữ lớn được tinh chỉnh từ PaLM-2 cho phát triển thuốc. Huấn luyện trên 709 bộ dữ liệu, 66 tác vụ, vượt trội 22/66 tác vụ so với SOTA. Tiềm năng cao cho phát triển thuốc toàn diện nhưng cần cải thiện thêm.

https://www.marktechpost.com/2024/10/10/tx-llm-a-large-language-model-llm-fine-tuned-from-palm-2-to-predict-properties-of-many-entities-that-are-relevant-to-therapeutic-development/

Thảo luận

© Sóng AI - Tóm tắt tin, bài trí tuệ nhân tạo