Thực tế, máy tính không thể hiểu được ý nghĩa của ngôn ngữ tự nhiên. Do đó, đằng sau các phần mềm hay cỗ máy có khả năng hiểu và đối thoại với con người chính là một cơ chế biểu diễn dữ liệu văn bản. Theo đó, cơ chế tiêu chuẩn hiện nay là các vectơ từ, tức là các từ hoặc cụm từ được biểu thị dưới dạng vectơ số thực.
Vectơ từ truyền thống
Bag of Words
Bag of Words hoặc BoW là biểu diễn vectơ truyền thống được sử dụng phổ biến nhất. Mỗi từ hoặc n-gram được liên kết với một chỉ mục vectơ và được đánh dấu là 0 hoặc 1 tùy thuộc sự xuất hiện của nó trong tài liệu nhất định.
Ví dụ về BoW cho các tài liệu có một từ.
Biểu diễn BoW thường được sử dụng trong các phương pháp phân loại tài liệu, trong đó tần suất xuất hiện của mỗi một/hai/ba từ hỗ trợ việc đào tạo các bộ phân loại. Trong BoW, sự xuất hiện của từ được đánh giá độc lập với tần suất hoặc ngữ cảnh chúng xảy ra. Tuy nhiên, hạn chế của BoW là không mã hóa bất kỳ thông tin nào liên quan đến ngữ nghĩa của từ.
TF-IDF
TF-IDF (term frequency–inverse document frequency) là một thống kê số nhằm phản ánh tầm quan trọng của một từ hoặc n-gam đối với tài liệu trong một bộ ngữ liệu. Chúng cung cấp trọng số cho một từ nhất định dựa trên ngữ cảnh mà nó xảy ra. Giá trị tf – idf tăng tương ứng với số lần một từ xuất hiện trong tài liệu nói riêng và kho ngữ liệu nói chung. Từ đó, TF-IDF cho phép đánh giá một số từ xuất hiện thường xuyên hơn những từ khác.
Tuy nhiên, ngay cả khi các biểu thức của tf-idf BoW cung cấp trọng số của mỗi từ, ta vẫn không thể nắm bắt được ngữ nghĩa của chúng.
Như nhà ngôn ngữ học nổi tiếng J. R. Firth đã nói vào năm 1935, “Ý nghĩa hoàn chỉnh của một từ luôn luôn phụ thuộc vào ngữ cảnh, và không một nghiên cứu nào về nghĩa của từ lại đặt ngoài ngữ cảnh.”
Distributional Embeddings
Distributional Embeddings cho phép các vectơ bao hàm được cả ngữ cảnh. Mỗi vectơ nhúng được biểu diễn dựa trên thông tin tương hỗ mà nó có với các từ khác trong một kho dữ liệu nhất định. Thông tin tương hỗ có thể được biểu diễn dưới dạng tần suất đồng xuất hiện cả hai hay nhiều từ, hoặc bị giới hạn trong phạm vi nhất định theo tuần tự hoặc dựa trên các cạnh phụ thuộc.
Ví dụ về ma trận distributional embedding mỗi hàng mã hóa ngữ cảnh phân phối dựa trên số lượng các từ cùng xuất hiện
Các vectơ phân tán (Distributional vectors) được phát triển trước các phương pháp mạng thần kinh (neural) nhằm phục vụ bài toán nhúng từ (word embedding). Tới nay, các kỹ thuật liên quan vẫn được sử dụng bởi khả năng cung cấp thông tin lý giải tốt hơn so với mạng thần kinh.
Neural Embeddings
Word2Vec
Word2Vec là một mô hình nhúng dự đoán. Có hai kiến trúc Word2Vec chính được sử dụng để biểu diễn phân tán các từ:
- Continuous bag-of-words (CBOW) – Thứ tự của các từ ngữ cảnh không ảnh hưởng đến dự đoán (giả định bag-of-words) (theo Aaron (Ari) Bornstein trên Towards Data Science). Trong kiến trúc continuous skip-gram, mô hình sử dụng từ hiện tại để dự đoán phạm vi xung quanh của các từ ngữ cảnh.
- Continuous skip-gram chú trọng các từ ngữ cảnh ở phạm vi gần. Mỗi vectơ ngữ cảnh được cân nhắc và so sánh độc lập với CBOW.
CBOW nhanh hơn trong khi skip-gram chậm hơn nhưng hoạt động tốt hơn đối với các từ không thường xuyên.
GloVe
Cả CBOW và Skip-Grams đều là các mô hình “dự đoán”, trong đó chúng chỉ tính đến các bối cảnh cục bộ. Word2Vec không tận dụng được ngữ cảnh toàn bộ. Ngược lại, GloVe tận dụng được cùng lúc khả năng của ma trận đồng xuất hiện (co-occurrence matrix) ở phép nhúng phân phối, và phương pháp thần kinh để phân tách ma trận đồng xuất hiện thành các vectơ từ giàu ý nghĩa và dày đặc hơn. Mặc dù vectơ GloVe được đào tạo nhanh hơn, nhưng cả GloVe hoặc Word2Vec đều không được chứng minh là cung cấp kết quả rõ ràng tốt hơn vì cả hai đều phải được đánh giá cho một tập dữ liệu nhất định.
FastText
FastText, được xây dựng trên Word2Vec bằng cách học các biểu diễn vectơ cho mỗi từ và n-gam được tìm thấy trong mỗi từ. Giá trị của các biểu diễn sau đó được tính trung bình thành một vectơ ở mỗi bước huấn luyện. Mặc dù bổ sung nhiều tính toán cho việc đào tạo, nó cho phép nhúng từ để mã hóa thông tin từ phụ. Các vectơ FastText đã được chứng minh là chính xác hơn các vectơ Word2Vec bằng một số biện pháp khác nhau.