• SciPhi vừa công bố Triplex - mô hình ngôn ngữ tiên tiến (LLM) mã nguồn mở chuyên dụng để xây dựng đồ thị tri thức.
• Triplex giúp chuyển đổi dữ liệu phi cấu trúc số lượng lớn thành dạng có cấu trúc, giảm đáng kể chi phí và độ phức tạp so với các phương pháp truyền thống.
• Mô hình này có sẵn trên các nền tảng như HuggingFace và Ollama, hứa hẹn trở thành công cụ quan trọng cho các nhà khoa học dữ liệu và phân tích.
• Triplex được thiết kế để xây dựng đồ thị tri thức hiệu quả, vượt trội so với các mô hình tiên tiến như GPT-4o.
• Đồ thị tri thức rất quan trọng để trả lời các truy vấn quan hệ phức tạp, nhưng phương pháp xây dựng truyền thống tốn kém và đòi hỏi nhiều tài nguyên.
• Ví dụ, quy trình GraphRAG gần đây của Microsoft vẫn còn tốn kém, yêu cầu ít nhất một token đầu ra cho mỗi token đầu vào.
• Triplex giúp giảm chi phí tạo đồ thị tri thức xuống 10 lần bằng cách chuyển đổi văn bản phi cấu trúc thành "bộ ba ngữ nghĩa" - các phần tử cơ bản của đồ thị tri thức.
• Khi so sánh với GPT-4o, Triplex cho thấy hiệu suất vượt trội về cả chi phí và độ chính xác. Mô hình trích xuất bộ ba của nó đạt kết quả tương đương GPT-4o nhưng với chi phí thấp hơn nhiều.
• Việc giảm chi phí đáng kể này là nhờ kích thước mô hình nhỏ hơn và khả năng hoạt động mà không cần ngữ cảnh few-shot mở rộng.
• Triplex được đào tạo thêm bằng DPO (Tối ưu hóa lập trình động) và KTO (Tối ưu hóa bộ ba tri thức), sử dụng bộ dữ liệu dựa trên ưu tiên thông qua bỏ phiếu đa số và sắp xếp tô pô.
• Kết quả đánh giá Claude-3.5 Sonnet cho thấy Triplex vượt trội so với các mô hình khác như triplex-base và triplex-kto, với tỷ lệ thắng trên 50% khi so sánh trực tiếp với GPT-4o.
• Hiệu suất xuất sắc của Triplex dựa trên việc đào tạo trên bộ dữ liệu đa dạng và toàn diện, bao gồm các nguồn uy tín như DBPedia, Wikidata, văn bản web và bộ dữ liệu tổng hợp.
• Một ứng dụng ngay lập tức của Triplex là xây dựng đồ thị tri thức cục bộ sử dụng công cụ R2R RAG kết hợp với Neo4J.
📌 SciPhi ra mắt Triplex - mô hình ngôn ngữ mã nguồn mở tiên tiến giúp giảm chi phí xây dựng đồ thị tri thức xuống 10 lần. Với hiệu suất vượt trội so với GPT-4o và khả năng chuyển đổi dữ liệu phi cấu trúc hiệu quả, Triplex mở ra cơ hội mới cho phân tích dữ liệu và tạo ra insights trong nhiều ngành công nghiệp.
https://www.marktechpost.com/2024/07/22/sciphi-open-sourced-triplex-a-sota-llm-for-knowledge-graph-construction-provides-data-structuring-with-cost-effective-and-efficient-solutions/