Skip to main content

PhoGPT: Chatbot AI mới công bố của VinAI thuộc Vingroup

29 Tháng Mười Một, 2023

VinAI Research, Viện nghiên cứu trí tuệ nhân tạo (AI) thuộc Vingroup vừa công bố ra mắt dự án chatbot AI có tên là PhoGPT dành cho người Việt.

PhoGPT
PhoGPT: Chatbot AI mới công bố của VinAI thuộc Vingroup

Theo đó, VinAI Research, Viện nghiên cứu trí tuệ nhân tạo (AI) thuộc Vingroup vừa công bố ra mắt dự án chatbot AI có tên là PhoGPT dành cho người Việt.

PhoGPT là gì?

Theo giới thiệu từ TechinAsia, PhoGPT là mô hình dựa trên công nghệ chuyển đổi được đào tạo trước (GPT: Generative Pre-trained Transformer), kết hợp Triton và ALiBi để ngoại suy độ dài ngữ cảnh được phát triển bởi VinAI thuộc Vingroup (Tập đoàn Vingroup).

(GPT chính là công nghệ được sử dụng trong các chatbot AI như ChatGPT).

Advertisement

Bằng cách sử dụng thư viện llm-foundry của Mosaicml llm, VinAI đào tạo trước PhoGPT từ đầu trên kho văn bản tiếng Việt đào tạo trước 41GB. Kho dữ liệu đào tạo trước này bao gồm 1GB văn bản Wikipedia và một biến thể 40GB được loại bỏ trùng lặp của tập dữ liệu tin tức (phiên bản 21/05/2021).

Các nhà nghiên cứu VinAI tinh chỉnh PhoGPT sử dụng bộ dữ liệu bao gồm 150K cặp câu lệnh và phản hồi bằng tiếng Việt. Bộ dữ liệu này được xây dựng bằng cách ghép các nguồn sau:

(i) 67K cặp từ tập con tiếng Việt của Bactrian-X ;

(ii) 40K cặp ShareGPT không có mã và toán, dịch từ tiếng Anh sang tiếng Việt bằng VinAI Translate;

Advertisement

(iii) 40K lời nhắc bao gồm nhận thức về sự căm ghét, xúc phạm, độc hại và an toàn, phần lớn bao gồm cả những lời nhắc được dịch sang tiếng Việt; và

(iv) 1000 cặp để trả lời câu hỏi dựa trên ngữ cảnh, 500 để viết thơ, 500 cho viết luận, 500 cho sửa lỗi chính tả và 500 cho tóm tắt từng tài liệu.

Theo công bố, PhoGPT chỉ thua ChatGPT trong hầu hết các trường hợp, còn lại cao hơn các LLMA khác.

Tuy nhiên, nhà phát triển cho biết PhoGPT có những hạn chế nhất định. Ví dụ, nó không giỏi trong các nhiệm vụ liên quan đến lý luận, mã hóa hoặc toán học.

Advertisement

PhoGPT đôi khi có thể tạo ra lời nói có hại, căm thù, phản hồi thiên vị hoặc trả lời các câu hỏi không an toàn. Doanh nghiệp khuyến cáo người dùng nên thận trọng khi tương tác với PhoGPT vì nó có thể tạo ra những kết quả đầu ra không chính xác.

Tham gia Cộng đồng We’re Marketer của MarketingTrips (Trang tin trực tuyến về Marketing và Kinh doanh) để thảo luận các chủ đề về Marketing và Business tại: We’re Marketer

Bài viết liên quan

Nổi bật

Advertisement