Các hệ thống hiểu và tạo văn bản được gọi là các mô hình ngôn ngữ (language models) đang trở thành xu hướng mới trong doanh nghiệp. Theo Techcrunch, một cuộc khảo sát gần đây cho thấy 60% các nhà lãnh đạo công nghệ cho biết ngân sách của họ cho các công nghệ ngôn ngữ AI đã tăng ít nhất 10% vào năm 2020, trong khi 33% cho biết mức tăng đạt 30%.
Tuy nhiên, không phải tất cả các mô hình ngôn ngữ đều được tạo ra đều giống nhau. Một số loại nổi bật bao gồm các mô hình lớn đa năng như GPT-3 của OpenAI và các mô hình được điều chỉnh cho các tác vụ cụ thể (như trả lời câu hỏi yêu cầu trợ giúp về IT). Một số loại mô hình khác thường là rất nhỏ gọn về kích thước và chỉ có một số khả năng giới hạn, được thiết kế đặc biệt để chạy trên các thiết bị và máy trạm Internet of Things.
Vậy đâu là những mô hình ngôn ngữ “được săn đón” nhất hiện nay? Giữa những mô hình này tồn tại khác biệt gì về ưu điểm, hạn chế và yêu cầu?
FriData tuần này sẽ cùng bạn đi tìm câu trả lời.
Large language models
Các mô hình Large Language Models (LLM), nói chung, có kích thước hàng chục gigabyte và được đào tạo trên lượng dữ liệu văn bản khổng lồ, đôi khi ở quy mô petabyte. Chúng cũng là một trong những mô hình lớn nhất về số lượng tham số, tức giá trị mà mô hình có thể thay đổi độc lập khi học. Tham số là những phần mô hình học từ dữ liệu huấn luyện lịch sử và về cơ bản xác định kỹ năng của mô hình trong một vấn đề nhất định, như tạo văn bản.
Large Language Models. Nguồn ảnh: Techtalks
LLM thường được sử dụng trong các kịch bản không cần dữ liệu huấn luyện được điều chỉnh cho lĩnh vực cụ thể hoặc dữ liệu huấn luyện ít, tức zero-shot scenarios hay few-shot scenarios, trong đó mô hình có thể hoạt động tốt dựa trên prompts. Đối với học có giám sát, “few-shot” đề cập đến việc huấn luyện mô hình với số lượng dữ liệu tối thiểu, trong khi “zero-shot” cho thấy mô hình có thể học được những gì nó chưa từng thấy trong quá trình huấn luyện.
Việc sử dụng LLM đã tăng đáng kể trong nhiều năm qua khi các nhà nghiên cứu phát triển kiến trúc mới và lớn hơn cho các mô hình đó. Vào tháng 6 năm 2020, công ty khởi nghiệp trí tuệ nhân tạo OpenAI ra mắt GPT-3, một mô hình có 175 tỷ tham số có thể tạo ra văn bản và thậm chí là code chỉ với một prompt ngắn chứa hướng dẫn. Sau đó, nhóm nghiên cứu mở EleutherAI giới thiệu GPT-J, một mô hình ngôn ngữ nhỏ hơn nhưng vẫn có khả năng dịch đa ngôn ngữ, viết bài đăng trên blog, hoàn tất code và thực hiện nhiều tác vụ khác. Gần đây hơn, Microsoft và Nvidia đã giới thiệu mô hình NLP với tên gọi là Megatron-Turing Natural Language Generation (MT-NLG), là một trong những mô hình lớn nhất về đọc hiểu và suy luận ngôn ngữ tự nhiên với 530 tỷ tham số được phát triển đến nay.
Một số lý do khiến LLM tiếp tục nhận được nhiều sự quan tâm bao gồm:
- Một mô hình đơn có thể được sử dụng cho nhiều tác vụ, bao gồm trả lời câu hỏi, tóm tắt tài liệu, tạo văn bản, hoàn thành câu và dịch thuật,….
- Hiệu suất của LLM tiếp tục tăng khi được bổ sung thêm các tham số và dữ liệu vào mô hình.
- LLM được huấn luyện trước có thể đưa ra kết quả dự đoán khá tốt chỉ với một vài dữ liệu có gán nhãn.
Một điểm chung của các mô hình LLM, bất kể nguồn mở hay không, đó là chi phí phát triển rất lớn. Một nghiên cứu của AI21 Labs năm 2020 ước tính chi phí phát triển một mô hình tạo văn bản chỉ với 1,5 tỷ tham số có thể lên đến 1,6 triệu đô la Mỹ. Đối với việc – sử dụng mô hình để suy diễn cũng đòi hỏi chi phí đáng kể. Một nguồn tin ước tính chi phí để chạy GPT-3 trên 1 AWS instance đơn lẻ (p3dn.24xlarge) ít nhất là 87.000 đô la Mỹ mỗi năm.
Fine-tuned language models
Fine-tuned language models thường nhỏ hơn LLM. Ví dụ bao gồm OpenAI’s Codex, một phiên bản trực tiếp của GPT-3 được điều chỉnh để sử dụng trong các tác vụ lập trình. Mặc dù nó vẫn có hàng tỷ tham số, Codex vừa nhỏ hơn OpenAI vừa tốt hơn trong việc tạo và hoàn thành dòng code.
OpenAI’s Codex ứng dụng Fine-tuned language models. Nguồn ảnh: TechTalks
Việc điều chỉnh có thể cải thiện khả năng thực hiện một tác vụ của mô hình, ví dụ như trả lời câu hỏi hoặc tạo chuỗi axit amin của protein (như trường hợp ProGen của Salesforce). Bên cạnh đó, nó cũng có thể củng cố sự hiểu biết của mô hình về một số vấn đề cụ thể, chẳng hạn như nghiên cứu lâm sàng.
Fine-tuned language models được đánh giá là phù hợp cho các tác vụ hoàn chỉnh với nhiều dữ liệu huấn luyện. Ví dụ bao gồm dịch máy, trả lời câu hỏi, nhận dạng thực thể được gọi tên, liên kết thực thể truy xuất thông tin.
Bên cạnh đó, Fine-tuned language model còn mang đến nhiều lợi ích khác. Bởi chúng tận dụng được tri thức từ các mô hình ngôn ngữ hiện có, Fine-tuned language models không mất nhiều thời gian – hoặc tính toán – để huấn luyện hoặc khởi chạy. (Các mô hình lớn như những mô hình được đề cập ở trên có thể mất vài tuần hoặc yêu cầu nhiều công suất tính toán hơn để huấn luyện trong vài ngày.) Ngoài ra, Fine-tuned language models cũng không đòi hỏi nhiều dữ liệu như các mô hình ngôn ngữ lớn. GPT-3 được huấn luyện trên 45 terabyte văn bản so với 159 gigabyte được Codex huấn luyện.
Trên thực tế, việc điều chỉnh (fine-tunning) đã được áp dụng vào nhiều lĩnh vực khác nhau, nhưng một ví dụ gần đây là InstructGPT của OpenAI. Sử dụng kỹ thuật có tên gọi “học tăng cường từ phản hồi của con người” (“reinforcement learning from human feedback”), OpenAI đã thu thập một tập dữ liệu prompts do con người viết và được gửi đến OpenAI API, cũng như các prompts được tạo bởi nhóm gán nhán. Họ sử dụng các tập dữ liệu này để tạo ra các câu trả lời được điều chỉnh tốt hơn của GPT-3, với kích thước chỉ bằng 1% so với GPT-3, và chứng tỏ khả năng tạo ra văn bản ít lỗi hơn, trong khi gần như tương đồng với mục đích sử dụng của người dùng.
Trong một minh họa khác về sức mạnh của việc điều chỉnh, các nhà nghiên cứu của Google đã công bố một nghiên cứu vào tháng 2 khẳng định rằng một mô hình nhỏ hơn rất nhiều so với GPT-3 – fine-tuned language net (FLAN) – vượt trội hơn GPT-3 “một cách đáng kể” trên một số hệ thống benchmark khó. FLAN, có 137 tỉ tham số, vượt trội hơn GPT-3 trên 19 trong số 25 tác vụ mà các nhà nghiên cứu đã thử nghiệm và thậm chí vượt qua hiệu suất của GPT-3 trên 10 tác vụ.
Edge language models
Edge language models thường được huấn luyện từ đầu trên các tập dữ liệu nhỏ để đáp ứng các giới hạn cụ thể về phần cứng (ví dụ như phần cứng điện thoại hoặc máy chủ web cục bộ).
Trong số những ưu điểm vượt trội mà Edge language models mang lại, chi phí là một yếu tố chính. Với Edge language model chạy ngoại tuyến và trên thiết bị, doanh nghiệp không phải trả bất kì phí sử dụng cloud nào. (Ngay cả fine-tuned models cũng thường quá lớn để chạy trên máy cục bộ; MT-NLG có thể mất hơn một phút để tạo ra văn bản trên bộ vi xử lý desktop.) Các tác vụ như phân tích hàng triệu tweet có thể khiến các khoản phí trên các mô hình dựa trên đám mây phổ biến tăng lên hàng nghìn đô la.
Ngoài ra, Edge language models cũng đảm bảo tính riêng tư hơn, bởi chúng không cần truyền hoặc phân tích dữ liệu trên đám mây. Bên cạnh đó, những mô hình này còn đạt được tốc độ nhanh vượt trội – đây là một lợi thế lớn đối với các ứng dụng như dịch thuật. Các ứng dụng như Google Translate dựa vào các mô hình Edge để cung cấp các bản dịch ngoại tuyến. Do đó, có thể thấy, Edge language models là lời giải phù hợp cho những bài toán yêu cầu phản hồi tức thì.
Tất nhiên, các mô hình nhỏ không thể thực hiện mọi nhiệm vụ với hiệu suất tốt như những mô hình lớn. Chúng bị ràng buộc bởi phần cứng của các thiết bị biên, từ bộ xử lý lõi đơn đến các hệ thống trang bị chip đồ hoạ GPU. Hơn nữa, một số nghiên cứu cho thấy các kỹ thuật được sử dụng để phát triển Edge language models có thể làm nảy sinh các đặc điểm không mong muốn, chẳng hạn như định kiến của thuật toán (algorithmic bias).
Kết luận
Mặc dù LLM, fine-tuned và edge language models tiếp tục phát triển với các nghiên cứu mới, chúng vẫn gặp không ít hạn chế khi đưa vào ứng dụng. Ví dụ, trong khi fine-tuning models yêu cầu ít dữ liệu hơn so với việc huấn luyện một mô hình từ đầu, thì việc điều chỉnh vẫn đòi hỏi một lượng dữ liệu tốt. Tùy thuộc vào lĩnh vực – ví dụ như dịch từ một ngôn ngữ ít được sử dụng – thì dữ liệu có thể không tồn tại.
Kết lại, nhược điểm của fine-tuning models là vẫn cần một lượng dữ liệu khá lớn. Nhược điểm của few-shot learning là không hoạt động tốt như fine-tuning models, và các nhà khoa học dữ liệu và kỹ sư học máy có ít quyền kiểm soát hơn trên mô hình, vì họ chỉ tương tác với nó thông qua một API. Còn đối với edge AI, hạn chế của nó là các mô hình phức tạp không thể cài đặt vừa trên các thiết bị nhỏ, vì vậy hiệu suất sẽ giảm đi đáng kể so với các mô hình trên desktop GPU – chưa kể đến các mô hình ngôn ngữ lớn dựa trên đám mây phân tán trên hàng ngàn GPU.