Title: | Phân loại bình luận spam trên youtube trong lĩnh vực y tế bằng phương pháp học sâu kết hợp |
Author(s): | Lê Anh Quốc |
Advisor(s): | Dr. Ngô Tấn Vũ Khanh |
Keywords: | Bình luận spam; Nền tảng Youtube; Học sâu kết hợp; Kênh Y tế; Spam comment; YouTube platform; Hybrid learning; Healthcare |
Abstract: | Trong thời đại hiện đại, mạng xã hội – nơi mà mọi người có thể tự do chia sẻ thông tin – việc phân tích phản hồi đã trở thành một công cụ vô cùng quan trọng để giúp môi trường mạng trở nên trong sáng và tránh xa những thông tin nhiễu và có hại. Nghiên cứu này giới thiệu một phương pháp để phát hiện và phân loại các ý kiến quảng cáo không mong muốn trên các kênh YouTube về lĩnh vực y tế, áp dụng các phương pháp xử lý ngôn ngữ tự nhiên (NLP) và các mô hình học sâu. Hệ thống được phát triển bao gồm các bước thu thập, tiền xử lý, đánh nhãn và phân tích dữ liệu bình luận từ các chương trình về lĩnh vực y tế trên YouTube. Dữ liệu được lấy từ API của YouTube và trải qua các phương pháp chuẩn hóa và đánh dấu bằng tay. Mang lại độ phức tạp của tiếng Việt, việc nghiên cứu sử dụng phoBERT – một mô hình ngôn ngữ được huấn luyện trước đặc biệt cho tiếng Việt – kết hợp với kiến trúc TextCNN và BiLSTM, giúp mô hình thu thập thông tin về cả ngữ cảnh cục bộ và thông tin tuần tự trong các bình luận. Phương pháp của việc phân loại bình luận thành hai nhóm là phân biệt giữa bình luận không phải là spam và bình luận spam. Bằng cách kết hợp các đặc điểm của các mô hình học sâu, phương pháp đề xuất đã cải thiện đáng kể độ chính xác trong việc phát hiện thông tin spam, đảm bảo tính toàn vẹn của thông tin chia sẻ trong các video y tế và bảo vệ người dùng khỏi những nội dung gian lận hoặc không chính xác. Kết quả của đề tài này đóng góp vào việc tiến triển các hệ thống loại bỏ thư spam một cách hiệu quả hơn, cung cấp các phương tiện hữu ích trong việc bảo vệ thông tin y tế trên các nền tảng số hóa. Nghiên cứu này cũng mở ra nhiều khả năng phát triển trong tương lai, bao gồm việc tích hợp thêm các mô hình khác, phân loại trực tuyến với dữ liệu khổng lồ và có thể phân loại ở nhiều lĩnh vực khác ngoài lĩnh vực y tế.. |
Issue Date: | 2024 |
Publisher: | Đại học Kinh tế Thành phố Hồ Chí Minh |
URI: | https://opac.ueh.edu.vn/record=b1037784~S1 https://digital.lib.ueh.edu.vn/handle/UEH/72984 |
Appears in Collections: | MASTER'S PROJECTS
|