Hiện nay, các ứng dụng trí tuệ nhân tạo (AI) đã có thể tóm tắt bài báo, viết truyện và tham gia tương tác tự nhiên với con người thông qua các cuộc trò chuyện dài. Đứng đằng sau thành công này một phần là Large language models. Có thể bạn chưa biết, đây cũng chính là mô hình ngôn ngữ được OpenAI sử dụng để xây dựng GPT-3.
Large language models (hay LLM) để chỉ các mô hình xác suất có khả năng hiểu và sinh ngôn ngữ tự nhiên dựa trên kiến thức được thu thập từ các tập dữ liệu cực lớn. LLM là một trong những ứng dụng thành công nhất của các mô hình transformer. Ngoài việc đẩy mạnh các ứng dụng xử lý ngôn ngữ tự nhiên – như dịch, chatbot và trợ lý ảo AI – LLM còn được dùng trong lĩnh vực chăm sóc sức khỏe, phát triển phần mềm…
FriData tuần này sẽ cùng bạn “giải mã” cơn sốt LLM thông qua những kiến thức cơ bản về khái niệm, cấu trúc, ứng dụng.
Large language model là gì?
Large language model là một loại mô hình ngôn ngữ được đào tạo bằng cách sử dụng các kỹ thuật học sâu trên tập dữ liệu văn bản khổng lồ. Các mô hình này có khả năng tạo văn bản tương tự như con người và thực hiện các tác vụ xử lý ngôn ngữ tự nhiên khác nhau.
Một mô hình ngôn ngữ có thể có độ phức tạp khác nhau, từ các mô hình n-gram đơn giản đến các mô hình mạng mô phỏng hệ thần kinh của con người vô cùng phức tạp. Tuy nhiên, thuật ngữ Large language model” thường dùng để chỉ các mô hình sử dụng kỹ thuật học sâu và có số lượng tham số lớn, có thể từ hàng tỷ đến hàng nghìn tỷ. Những mô hình này có thể phát hiện các quy luật phức tạp trong ngôn ngữ và tạo ra các văn bản y hệt con người.
Tổng quan kiến trúc của Large language models
Kiến trúc của LLM chủ yếu bao gồm nhiều lớp mạng nơ-ron, như recurrent layers, feedforward layers, embedding layers, attention layers. Các lớp này hoạt động cùng nhau để xử lý văn bản đầu vào và tạo dự đoán đầu ra.
- Embedding layer chuyển đổi từng từ trong văn bản đầu vào thành biểu diễn vectơ nhiều chiều (high-dimensional). Những vec-tơ này nắm bắt thông tin ngữ nghĩa và cú pháp của từng đơn vị cấu tạo nên câu (từ hoặc token) và giúp mô hình hiểu được ngữ cảnh của văn bản.
- Feedforward layers gồm nhiều lớp được kết nối đầy đủ áp dụng các phép biến đổi phi tuyến tính cho các embedding vector đầu vào. Các lớp này giúp mô hình học các thông tin trừu tượng hơn từ văn bản đầu vào.
- Recurrent layers của LLM được thiết kế để diễn giải thông tin từ văn bản đầu vào theo trình tự. Các lớp này duy trì trạng thái ẩn được cập nhật ở mỗi bước thời gian, cho phép mô hình nắm bắt được sự phụ thuộc giữa các từ trong câu.
- Attention layers là một phần quan trọng khác của LLM, cho phép mô hình tập trung có chọn lọc vào các phần khác nhau của văn bản đầu vào. Cơ chế này giúp mô hình chú ý đến các phần có liên quan nhất của văn bản đầu vào và tạo ra các dự đoán chính xác hơn.
Large language models hoạt động như thế nào?
LLM học hỏi từ khối lượng dữ liệu khổng lồ. Đúng như tên gọi của nó, cốt lõi của LLM là kích thước của tập dữ liệu mà nó được đào tạo. Giờ đây, LLM thường được xây dựng dựa trên những bộ dữ liệu đủ lớn để bao gồm gần như mọi thứ đã được xuất bản trên internet trong một khoảng thời gian dài.
LLM được học từ một khối lượng rất lớn văn bản trước khi có thể ghi nhớ các quy luật và cấu trúc ngôn ngữ. Đây là nguyên nhân mấu chốt để LLM có thể hiểu và phản hồi theo ngữ cảnh một cách logic và mạch lạc. Ví dụ, mô hình GPT-3 được sử dụng trong dịch vụ ChatGPT đã được huấn luyện trên một lượng lớn dữ liệu văn bản từ internet. Lượng dữ liệu này bao gồm sách, bài viết, trang web và các nguồn thông tin khác. Trong quá trình huấn luyện, mô hình học các mối quan hệ thống kê giữa các từ, cụm từ và câu, cho phép nó tạo ra các đoạn văn mạch lạc và có ngữ cảnh liên quan khi được cung cấp một đoạn văn mồi (prompt).
Bằng cách chắt lọc từ lượng văn bản lớn như vậy, mô hình GPT-3 có thể hiểu được nhiều ngôn ngữ và có kiến thức về nhiều chủ đề khác nhau. Đó là lý do tại sao nó có thể tạo ra văn bản theo nhiều phong cách khác nhau. Trong khi bạn có thể ngạc nhiên với việc mô hình ngôn ngữ lớn có thể thực hiện dịch, tóm tắt văn bản và trả lời câu hỏi, điều này không gây ngạc nhiên nếu bạn coi đó là các “ngữ pháp” đặc biệt, nằm sẵn trong dữ liệu hoặc được tạo ra nhờ kĩ thuật mồi (prompt engineering).
Large language models bạn có thể tham khảo
Dưới đây là một số ví dụ về LLM trong thực tế
- GPT-3 (Generative Pre-training Transformer 3) – Đây là một trong những Mô hình Ngôn ngữ Lớn lớn nhất được phát triển bởi OpenAI. Nó có 175 tỷ tham số và có thể thực hiện nhiều tác vụ, bao gồm tạo văn bản, dịch thuật và tóm tắt.
- BERT (Bidirectional Encoder Representations from Transformers) – Được phát triển bởi Google, BERT là một LLM phổ biến khác đã được đào tạo trên một kho dữ liệu văn bản khổng lồ. Nó có thể hiểu ngữ cảnh của một câu và tạo ra các câu trả lời có ý nghĩa cho các câu hỏi.
- XLNet – LLM này được phát triển bởi Đại học Carnegie Mellon và Google sử dụng một cách tiếp cận mới để lập mô hình ngôn ngữ được gọi là “permutation language modeling”. Nó đạt được hiệu suất cao nhất trong các tác vụ ngôn ngữ, bao gồm tạo ngôn ngữ và trả lời câu hỏi.
- T5 (Text-to-Text Transfer Transformer) – T5, do Google phát triển, được đào tạo về nhiều tác vụ ngôn ngữ và có thể thực hiện chuyển đổi văn bản, như dịch văn bản sang ngôn ngữ khác, tạo bản tóm tắt và trả lời câu hỏi.
- RoBERTa (Robustly Optimized BERT Pretraining Approach) – Được phát triển bởi Facebook AI Research, RoBERTa là phiên bản BERT cải tiến, hoạt động tốt hơn trên một số tác vụ ngôn ngữ.
Các ứng dụng hàng đầu của large language models
Các mô hình ngôn ngữ lớn đang mở ra những khả năng mới trong nhiều lĩnh vực như công cụ tìm kiếm, xử lý ngôn ngữ tự nhiên, chăm sóc sức khỏe, người máy và tạo code. Chatbot AI ChatGPT phổ biến là một ứng dụng của LLM. Nó có thể được sử dụng cho vô số tác vụ xử lý ngôn ngữ tự nhiên.
Ngoài ra, LLM còn có tiềm năng ứng dụng vô hạn như:
- Các nhà bán lẻ và các nhà cung cấp dịch vụ khác có thể sử dụng LLM để cung cấp trải nghiệm khách hàng được cải thiện thông qua chatbot động, trợ lý AI, v.v.
- Các công cụ tìm kiếm có thể sử dụng LLM để cung cấp các câu trả lời trực tiếp hơn, giống con người hơn.
- Các nhà nghiên cứu khoa học đời sống có thể đào tạo LLM để hiểu protein, phân tử, DNA và RNA.
- Các nhà phát triển có thể viết phần mềm và kiểm thử bằng LLM.
- Các nhà tiếp thị có thể đào tạo một mô hình LLM để tổ chức phản hồi yêu cầu của khách hàng thành các cụm hoặc phân chia sản phẩm thành các danh mục dựa trên mô tả sản phẩm.
- Cố vấn tài chính có thể tóm tắt các cuộc gọi thu nhập và tạo bản ghi các cuộc họp quan trọng bằng cách sử dụng LLM. Các công ty tín dụng có thể sử dụng LLM để phát hiện bất thường và phân tích gian lận nhằm bảo vệ người tiêu dùng.
Có thể tham khảo một số tiềm năng ứng dụng của LLM (tạo bởi ChatGPT):
- Ngành dịch thuật và phiên dịch: Mô hình có thể hỗ trợ dịch thuật và phiên dịch tự động trong thời gian thực, giúp giảm thời gian và công sức của người dịch và đảm bảo tính chính xác của bản dịch.
- Ngành xuất bản và sáng tác: Mô hình có khả năng tạo ra nội dung sáng tạo, giúp ngành xuất bản tạo ra các tiểu thuyết, truyện ngắn, bài viết và bài luận một cách nhanh chóng và đa dạng.
- Ngành truyền thông và quảng cáo: Mô hình có thể hỗ trợ việc tạo ra nội dung quảng cáo, bài viết truyền thông, và phân tích dữ liệu xã hội để cung cấp thông tin về xu hướng và ý kiến của khách hàng.
- Lĩnh vực tư vấn và hỗ trợ khách hàng: Mô hình có thể cung cấp thông tin và giải đáp câu hỏi liên quan đến sản phẩm, dịch vụ và chăm sóc khách hàng, giúp tăng cường trải nghiệm khách hàng và giảm tải cho nhân viên tư vấn.
- Lĩnh vực y tế và y học: Mô hình có thể hỗ trợ trong việc phân tích và tổng hợp thông tin y tế từ các bài báo, tài liệu và hồ sơ bệnh nhân, cung cấp thông tin hữu ích cho các chuyên gia y tế và giúp tăng cường chẩn đoán và điều trị.
- Lĩnh vực nghiên cứu và phân tích dữ liệu: Mô hình có thể giúp tổng hợp và phân tích dữ liệu từ các nguồn khác nhau, cung cấp thông tin và hiểu biết sâu hơn về các vấn đề nghiên cứu và phân tích dữ liệu.