Word embedding: So sánh các cách tiếp cận truyền thống và hiện đại 

Word embedding

Thực tế, máy tính không thể hiểu được ý nghĩa của ngôn ngữ tự nhiên. Do đó, đằng sau các phần mềm hay cỗ máy có khả năng hiểu và đối thoại với con người chính là một cơ chế biểu diễn dữ liệu văn bản. Theo đó, cơ chế tiêu chuẩn hiện nay là các vectơ từ, tức là các từ hoặc cụm từ được biểu thị dưới dạng vectơ số thực. 

Vectơ từ truyền thống

Bag of Words

Bag of Words hoặc BoW là biểu diễn vectơ truyền thống được sử dụng phổ biến nhất. Mỗi từ hoặc n-gram được liên kết với một chỉ mục vectơ và được đánh dấu là 0 hoặc 1 tùy thuộc sự xuất hiện của nó trong tài liệu nhất định.

Ví dụ về BoW cho các tài liệu có một từ.

Biểu diễn BoW thường được sử dụng trong các phương pháp phân loại tài liệu, trong đó tần suất xuất hiện của mỗi một/hai/ba từ hỗ trợ việc đào tạo các bộ phân loại. Trong BoW, sự xuất hiện của từ được đánh giá độc lập với tần suất hoặc ngữ cảnh chúng xảy ra. Tuy nhiên, hạn chế của BoW là không mã hóa bất kỳ thông tin nào liên quan đến ngữ nghĩa của từ. 

TF-IDF

TF-IDF (term frequency–inverse document frequency) là một thống kê số nhằm phản ánh tầm quan trọng của một từ hoặc n-gam đối với tài liệu trong một bộ ngữ liệu. Chúng cung cấp trọng số cho một từ nhất định dựa trên ngữ cảnh mà nó xảy ra. Giá trị tf – idf tăng tương ứng với số lần một từ xuất hiện trong tài liệu nói riêng và kho ngữ liệu nói chung. Từ đó, TF-IDF cho phép đánh giá một số từ xuất hiện thường xuyên hơn những từ khác.

Tuy nhiên, ngay cả khi các biểu thức của tf-idf BoW cung cấp trọng số của mỗi từ, ta vẫn không thể nắm bắt được ngữ nghĩa của chúng.

Như nhà ngôn ngữ học nổi tiếng J. R. Firth đã nói vào năm 1935, “Ý nghĩa hoàn chỉnh của một từ luôn luôn phụ thuộc vào ngữ cảnh, và không một nghiên cứu nào về nghĩa của từ lại đặt ngoài ngữ cảnh.”

Distributional Embeddings

Distributional Embeddings cho phép các vectơ bao hàm được cả ngữ cảnh. Mỗi vectơ nhúng được biểu diễn dựa trên thông tin tương hỗ mà nó có với các từ khác trong một kho dữ liệu nhất định. Thông tin tương hỗ có thể được biểu diễn dưới dạng tần suất đồng xuất hiện cả hai hay nhiều từ, hoặc bị giới hạn trong phạm vi nhất định theo tuần tự hoặc dựa trên các cạnh phụ thuộc.

Ví dụ về ma trận distributional embedding mỗi hàng mã hóa ngữ cảnh phân phối dựa trên số lượng các từ cùng xuất hiện

Các vectơ phân tán (Distributional vectors) được phát triển trước các phương pháp mạng thần kinh (neural) nhằm phục vụ bài toán nhúng từ (word embedding). Tới nay, các kỹ thuật liên quan vẫn được sử dụng bởi khả năng cung cấp thông tin lý giải tốt hơn so với mạng thần kinh. 

Neural Embeddings

Word2Vec

Word2Vec là một mô hình nhúng dự đoán. Có hai kiến ​​trúc Word2Vec chính được sử dụng để biểu diễn phân tán các từ:

  • Continuous bag-of-words (CBOW) – Thứ tự của các từ ngữ cảnh không ảnh hưởng đến dự đoán (giả định bag-of-words) (theo Aaron (Ari) Bornstein trên Towards Data Science). Trong kiến ​​trúc continuous skip-gram, mô hình sử dụng từ hiện tại để dự đoán phạm vi xung quanh của các từ ngữ cảnh.
  • Continuous skip-gram chú trọng các từ ngữ cảnh ở phạm vi gần. Mỗi vectơ ngữ cảnh được cân nhắc và so sánh độc lập với CBOW.

CBOW nhanh hơn trong khi skip-gram chậm hơn nhưng hoạt động tốt hơn đối với các từ không thường xuyên.

GloVe

Cả CBOW và Skip-Grams đều là các mô hình “dự đoán”, trong đó chúng chỉ tính đến các bối cảnh cục bộ. Word2Vec không tận dụng được ngữ cảnh toàn bộ. Ngược lại, GloVe tận dụng được cùng lúc khả năng của ma trận đồng xuất hiện (co-occurrence matrix) ở phép nhúng phân phối, và phương pháp thần kinh để phân tách ma trận đồng xuất hiện thành các vectơ từ giàu ý nghĩa và dày đặc hơn. Mặc dù vectơ GloVe được đào tạo nhanh hơn, nhưng cả GloVe hoặc Word2Vec đều không được chứng minh là cung cấp kết quả rõ ràng tốt hơn vì cả hai đều phải được đánh giá cho một tập dữ liệu nhất định.

FastText

FastText, được xây dựng trên Word2Vec bằng cách học các biểu diễn vectơ cho mỗi từ và n-gam được tìm thấy trong mỗi từ. Giá trị của các biểu diễn sau đó được tính trung bình thành một vectơ ở mỗi bước huấn luyện. Mặc dù bổ sung nhiều tính toán cho việc đào tạo, nó cho phép nhúng từ để mã hóa thông tin từ phụ. Các vectơ FastText đã được chứng minh là chính xác hơn các vectơ Word2Vec bằng một số biện pháp khác nhau.

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC

    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý

    Thông tin đã được xử lý

    Mức độ tin cậy: 0%

    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -

    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.