04 bước cơ bản để tiến hành phân tích quan điểm 

Phân tích quan điểm (Sentiment Analysis) là một kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) giúp xác định quan điểm thể hiện trong một văn bản nhất định. Một mô hình phân tích quan điểm có thể dự đoán thái độ của người viết/nói là tích cực, tiêu cực hay trung lập bằng cách trích xuất ý nghĩa từ ngôn ngữ tự nhiên và gán nó với nhãn phù hợp.

Kỹ thuật phân tích quan điểm được sử dụng phổ biến trong doanh nghiệp nhằm phân tích phản hồi của khách hàng từ nhiều kênh khác nhau, như mạng xã hội, khảo sát và đánh giá sản phẩm. Đây là tiền đề để doanh nghiệp xây dựng chiến lược phát triển sản phẩm, kinh doanh và marketing hướng khách hàng.

Tuy nhiên, làm thế nào để tiến hành phân tích quan điểm? FriData tuần này sẽ gợi ý quy trình 4 bước giúp bạn phân tích quan điểm thành công.

Thu thập & xử lý dữ liệu

Bước đầu tiên cần đảm bảo thu thập dữ liệu có chất lượng. Dữ liệu phải được thu thập và chú thích để tạo ra kết quả tốt. Bạn có thể sử dụng API trực tiếp để thu dữ liệu có sẵn công khai từ các nền tảng Amazon, Facebook, Twitter hoặc kho lưu trữ dữ liệu nguồn mở như Kaggle. Dữ liệu cũng có thể được thu thập một cách thủ công bằng các công cụ cào dữ liệu trên internet. 

Tiếp theo, dữ liệu cần được xử lý để đưa về dạng thuần văn bản, vì kĩ thuật phân tích quan điểm dựa trên văn bản đang là phương pháp hiệu quả nhất. Đa phần dữ liệu được đưa vào huấn luyện mô hình đều là dạng văn viết (written form). Tuy nhiên trong thực tế vẫn có các trường hợp khách hàng hay doanh nghiệp có nhu cầu xử lý dữ liệu dạng tiếng nói hay thâm chí là video. Vì vậy, tùy thuộc vào loại dữ liệu, như hình ảnh, âm thanh và video mà các bước xử lý sẽ khác nhau. Các cách xử lý đối với các dạng dữ liệu không phải văn bản như sau: 

  • Phiên âm: Các tệp audio và video cần được phiên âm thông qua phần mềm chuyển lời nói thành văn bản hoặc do con người trực tiếp phiên âm.
  • Văn bản hình ảnh: Sử dụng các công cụ OCR (Optical Character Recognition) để nhận diện các văn bản dưới dạng hình ảnh

Sau khi đã có toàn bộ dữ liệu dưới dạng văn bản, chúng ta vẫn có thể tiền xử lý dữ liệu bằng các cách:

  • Đưa về dạng viết thường, token hóa (tokenization) các chuỗi từ, cắt nhỏ các đoạn văn bản dài, vv…
  • Xử lý emoji: Trong thực tế, việc sử dụng emoji có mức độ quan trọng nhất định đối với ý nghĩa của các đoạn văn bản, nhưng ý nghĩa của emoji lại không giống nhau với những nhóm người khác nhau. Việc cân nhắc giữ hay loại bỏ emoji trong quá trình huấn luyện mô hình cần được cân nhắc kĩ lưỡng

Phân tích và đưa ra quy trình gán nhãn dữ liệu

Trước khi tiến hành gán nhãn, chúng ta cần phân tích các loại thông tin cần thiết đối với dữ liệu đã thu thập. Với bài toán phân tích quan điểm theo khía cạnh, khách hàng có thể quan tâm đến 5 loại thông tin sau:

  • Chủ đề (Domain)
  • Tiêu chí (Aspect)
  • Keyword hoặc đối tượng của tiêu chí (Aspect Term)
  • Các cụm từ thể hiện quan điểm (Opinion term)
  • Sắc thái (Polarity)

Việc phân tích dữ liệu chủ yếu phục vụ cho mục đích định nghĩa bộ tiêu chí, bởi vì đối với mỗi khách hàng/ doanh nghiệp khác nhau thì bộ tiêu chí này cũng sẽ thay đổi. Ngoài ra chúng ta cũng sẽ cần cân nhắc xem có nên gán đầy đủ 4 loại thông tin đã nêu không, hay chỉ cần một phần nhỏ hơn. Điều này sẽ giúp tối ưu thời gian gán nhãn.

Tuy nhiên, việc xác định  các nhãn (về tiêu chí, sắc thái) được thể hiện trong một mẫu nội dung không dễ dàng như vậy. Thực tế, nó phụ thuộc nhiều vào phán đoán chủ quan của người chú thích. Hơn nữa, khó để đạt được sự đồng thuận chung trong cách chú thích của một nhóm người cùng thực hiện. Thậm chí một cá nhân không phải lúc nào cũng nhất quán trong cách họ gán nhãn dữ liệu. Có một số lý do cho điều này, chẳng hạn như độ khó vốn có của nội dung, quan điểm chủ quan của cá nhân hoặc đơn giản là chất lượng chú thích kém.

Để giảm thiểu tối đa khả năng mâu thuẫn, điều quan trọng là phải có một nhóm gồm nhiều người chú thích để kiểm tra chéo giữa các lượt gán nhãn và thực hiện nhiều lượt kiểm tra, đối chiếu giữa các thành viên. Đặc biệt trong trường hợp phân tích quan điểm, thường không có câu trả lời đúng hay sai nên rất khó đo lường độ chính xác. Các số liệu như kappa của Cohen (κ), Fleiss’ kappa (K) hoặc Krippendorff’s alpha đo lường sự đồng thuận giữa những người chú thích có thể được sử dụng như một chỉ số về chất lượng. Các số liệu giúp phân tích tập dữ liệu được gán nhãn và hướng dẫn cải thiện quy trình chú thích sao cho chính xác và hiệu quả hơn.

Huấn luyện và triển khai mô hình

Tiếp theo, dữ liệu sẽ được đưa vào huấn luyện. Bước này bao gồm:

  • Tăng cường (augment) dữ liệu: Các mô hình AI hiện nay đòi hỏi lượng dữ liệu rất lớn, nhưng trong thực tế quá trình gán nhãn dữ liệu không thể đáp ứng hoàn toàn nhu cầu này. Việc tăng cường dữ liệu sẽ giúp mô hình có thể tổng quát hóa tốt hơn, phần nào chống lại nhiễu mà không cần tăng chi phí gán nhãn.
  • Huấn luyện mô hình: Đối với các loại thông tin khác nhau chúng ta sẽ huấn luyện nhiều mô hình khác nhau với học có giám sát (supervised learning). Ví dụ yêu cầu bài toán bao gồm phân tích tiêu chí và phân tích sắc thái thì chúng ta sẽ huấn luyện một hoặc nhiều mô hình có thể thực hiện được hai tác vụ này.
  • Kiểm thử mô hình: Ngoài việc kiểm thử trong quá trình huấn luyện, chúng ta sẽ cần xây dụng một bộ dữ liệu kiểm thử độc lập với dữ liệu đã gán nhãn để đảm bảo chất lượng của mô hình.
  • Xây dựng các luồng (pipeline) phù hợp để kết nối các mô hình mà ta đã huấn luyện, sau đó triển khai mô hình trên các nền tảng phù hợp với việc mở rộng và phân tích dữ liệu lớn (như torchserve, triton, hoặc các API tùy chỉnh). Ngoài ra chúng ta cũng sẽ cần xây dựng các cơ sở dữ liệu lớn để lưu trữ lượng dữ liệu mà chúng ta đã đưa vào luồng phân tích.

Trực quan hóa dữ liệu

Sau khi dữ liệu được phân tích, chúng cần được chuyển thành đồ thị và biểu đồ để khách hàng/ doanh nghiệp có thể rút ra được các thông tin quan trọng và xây dựng được báo cáo từ các thông tin này. Công việc này sẽ được đảm nhiệm bởi các chuyên viên phân tích dữ liệu hoặc nhà khoa học dữ liệu. Các báo cáo này thường được chuyển đến bộ phận có liên quan trong doanh nghiệp. Trực quan hóa dữ liệu cho phép bạn thực hiện phân tích dữ liệu phức tạp, biểu diễn chúng dưới dạng hình ảnh dễ hiểu. Nó đặc biệt hữu ích trong việc xác định các lĩnh vực trọng tâm, khi quy mô phân tích lớn, gồm nhiều khía cạnh khác nhau..

Chẳng hạn, nếu điểm dịch vụ khách hàng của bạn thấp hơn đáng kể so với các chủ đề hoặc khía cạnh khác mà bạn đã phân tích, thì điều này sẽ được thể hiện rất nổi bật. Từ đó, bạn có thể dễ dàng xem lại dữ liệu và tạo tác vụ dựa trên kết quả của mình.

Bình luận

Địa chỉ email của bạn sẽ không được công bố. Các trường bắt buộc được đánh dấu

Bài viết liên quan

    Cảm ơn bạn đã quan tâm và ủng hộ.

    File hiện tại không thể tải xuống
    Vui lòng liên hệ hỗ trợ.

    VinOCR eKYC
    Chọn ảnh từ máy của bạn

    Chọn ảnh demo dưới đây hoặc tải ảnh lên từ máy của bạn

    Tải lên ảnh CMND/CCCD/Hộ chiếu,...

    your image
    Chọn ảnh khác
    Tiến hành xử lý
    Thông tin đã được xử lý
    Mức độ tin cậy: 0%
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    • -
    Xác thực thông tin thẻ CMND/CCCD

    Vui lòng sử dụng giấy tờ thật. Hãy đảm bảo ảnh chụp không bị mờ hoặc bóng, thông tin hiển thị rõ ràng, dễ đọc.

    your image
    Chọn ảnh khác

    Ảnh mặt trước CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh mặt sau CMND/CCCD

    your image
    Chọn ảnh khác

    Ảnh chân dung

    This site is registered on wpml.org as a development site.