Gom cụm kết quả tìm kiếm video với hướng tiếp cận kết hợp đa đặc trưng
Abstract: This paper aims to extend our previous
researches on clustering web video search results,
which reported in [1, 2, 3]. To search videos, users
usually use online video search systems such as
YouTube, Google Video. However, the returned
search results of these systems may include many
videos of different categories, and as a result, users
find it difficult to locate video clips of interest.
Therefore, clustering web video search results is
necessary in order to improve the efficiency of
searching. The main idea of paper based on analysing
and combining the features extracted from video to
find the set of appropriate features to improve the
quality of video clusters.
Bạn đang xem tài liệu "Gom cụm kết quả tìm kiếm video với hướng tiếp cận kết hợp đa đặc trưng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Gom cụm kết quả tìm kiếm video với hướng tiếp cận kết hợp đa đặc trưng
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -80- Gom cụm kết quả tìm kiếm video với hƣớng tiếp cận kết hợp đa đặc trƣng Clustering Web Video Search Results with a Multi-Feature Integration Approach Nguyễn Quang Phúc Abstract: This paper aims to extend our previous researches on clustering web video search results, which reported in [1, 2, 3]. To search videos, users usually use online video search systems such as YouTube, Google Video. However, the returned search results of these systems may include many videos of different categories, and as a result, users find it difficult to locate video clips of interest. Therefore, clustering web video search results is necessary in order to improve the efficiency of searching. The main idea of paper based on analysing and combining the features extracted from video to find the set of appropriate features to improve the quality of video clusters. Keywords: Clustering web video, video representa- tion, multi-feature integration I. GIỚI THIỆU Gom cụm kết quả tìm kiếm trên Web đã cho thấy tính hiệu quả, tiện lợi trong việc tìm kiếm qua các ứng dụng thực tế như ứng dụng gom cụm kết quả tìm kiếm đối với dữ liệu dạng văn bản như Clusty1, Carrot22; đối với dữ liệu hình ảnh như ứng dụng tìm kiếm ảnh của Google3. Với cùng ý tưởng gom cụm kết quả tìm kiếm đối với dữ liệu dạng văn bản và hình ảnh, hướng tiếp cận gom cụm kết quả tìm kiếm đối với dữ liệu video đã được đầu tư nghiên cứu trong những năm gần đây và đây là một hướng nghiên cứu còn khá mới mẽ 1 2 3 https://images.google.com với nhiều thách thức đặt ra. Để tìm kiếm video, người dùng thường sử dụng các công cụ tìm kiếm trực tuyến như YouTube, Google Video thông qua các câu truy vấn. Với một câu truy vấn bất kỳ, người dùng sẽ nhận được một số lượng lớn kết quả trả về. Tùy thuộc vào khả năng diễn đạt từ khóa của người dùng mà số lượng video sẽ thay đổi và trải rộng trên nhiều chủ đề khác nhau. Điều này gây trở ngại cho người dùng vì phải tốn nhiều thời gian duyệt danh sách kết quả để tìm được video mong muốn. Đặc biệt, đối với các truy vấn quá ngắn hay mơ hồ do tính đa nghĩa của từ, hoặc trong trường hợp video của chủ đề quan tâm bị áp đảo bởi các chủ đề khác thì quá trình duyệt tìm video mong muốn của người dùng càng gặp nhiều khó khăn. Gom cụm kết quả tìm kiếm video là giải pháp khắc phục vấn đề này. Giải pháp này giúp người dùng có cái nhìn tổng quan hơn thông qua các chủ đề video cụ thể đã được gom cụm. Từ đó, người dùng có thể dễ dàng loại bỏ các cụm video không phù hợp và xác định được các video cần tìm trong thời gian ngắn thay vì phải duyệt toàn bộ danh sách kết quả video trả về. Dữ liệu đầu vào và đầu ra của bài toán gom cụm kết quả tìm kiếm video được minh họa trực quan ở Hình 1. Một trong những thách thức lớn khi giải quyết bài toán gom cụm kết quả tìm kiếm video là ước lượng độ tương tự giữa các video. Danh sách video từ kết quả tìm kiếm video trên Web sẽ được gom thành từng cụm bằng cách áp dụng thuật toán gom cụm dựa trên độ tương tự giữa các video. Thông thường, độ tương tự giữa các video sẽ được tính toán dựa trên các biểu diễn của chúng. Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -81- Hình 1. Minh họa trực quan dữ liệu đầu vào và đầu ra của bài toán gom cụm kết quả tìm kiếm video ứng với truy vấn “Tiger” trên YouTube Dữ liệu video là một dạng dữ liệu có cấu trúc phức tạp với nhiều loại đặc trưng như đặc trưng về thị giác (visual), âm thanh (audio) hay thông tin văn bản đi kèm. Để biểu diễn video, một cách đơn giản là chỉ sử dụng một loại đặc trưng cụ thể. Theo hướng tiếp cận này, Liu cùng các cộng sự đã khai thác thông tin từ đặc trưng thị giác để biểu diễn và so khớp video [4]. Tuy nhiên, để biểu diễn thông tin nội dung video một cách đầy đủ phù hợp cho việc so khớp hiệu quả thì việc chỉ sử dụng một đặc trưng riêng lẻ để biểu diễn video sẽ trở nên hạn chế. Một hướng tiếp cận mới là sử dụng kết hợp đa đặc trưng nhằm khai thác ưu thế của từng loại đặc trưng giúp nâng cao hiệu quả so khớp và gom cụm video [5, 6]. Trong [5], Hindle cùng các cộng sự khai thác song song đặc trưng thị giác và thông tin văn bản đi kèm video. Tuy nhiên, các kỹ thuật được sử dụng để rút trích đặc trưng và biểu diễn video vẫn còn khá đơn giản chưa phát huy được ưu thế của từng loại đặc trưng. Đối với đặc trưng thị giác, tác giả đề xuất mô hình BCS (Bounded Coordinate System) để biểu diễn video, mô hình này chủ yếu khai thác thông tin màu sắc của video. Mô hình này hiệu quả khi biểu diễn những video có màu sắc tương đối ổn định, đối với những video có nội dung đa dạng với các bối cảnh và màu sắc khác nhau thì mô hình này có phần hạn chế. Đối với thông tin văn bản đi kèm video, tác giả sử dụng hướng tiếp cận so sánh theo các cặp từ (word-by-word), hạn chế của phương pháp này là bỏ qua tính ngữ nghĩa của từ. Trong [6], Huang cùng các cộng sự cũng khai thác thông tin từ đặc trưng thị giác và thông tin văn bản đi kèm video. Với đặc trưng thị giác, tác giả chú trọng vào tính bất biến của các đối tượng, hình ảnh trong video kết hợp với thông tin về màu sắc. Với thông tin văn bản đi kèm video, tác giả sử dụng mô hình VSM (Vector Space Model) để biểu diễn và so khớp thông tin văn bản. Mô hình này dựa vào tần suất xuất hiện của các từ trong văn bản để xác định độ tương đồng giữa các văn bản. Tuy nhiên, do đặc điểm thông tin văn bản đi kèm video thường ở dạng văn bản ngắn và được mô tả bởi những người dùng khác nhau với các ngôn từ khác nhau nên tần suất xuất hiện của các từ giống nhau giữa ... Đầu vào (danh sách video trả về từ kết quả tìm kiếm trên Web) ... Cụm 1 Cụm 2 Cụm 3 Đầu ra (các cụm video theo từng chủ đề) Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -82- các văn bản là hiếm hoặc thậm chí là không có. Vì vậy, việc sử dụng mô hình VSM để biểu diễn và so khớp thông tin văn bản đi kèm video cũng chưa thật sự hiệu quả. Nhìn chung, các công trình trước đây chú trọng vào việc khai thác các đặc trưng từ dữ liệu video và thiên về xử lý đặc trưng thị giác được trích xuất trực tiếp từ nội dung video hơn là các thông tin văn bản đi kèm. Thông qua nghiên cứu các công trình liên quan trước đó, chúng tôi đã chọn hướng tiếp cận kết hợp đa đặc trưng để giải quyết bài toán gom cụm kết quả tìm kiếm video. Chúng tôi tập trung vào việc phân tích đặc điểm thông tin văn bản đi kèm video và chú trọng vào nội dung ngữ nghĩa kết hợp với đặc trưng thị giác để nâng cao chất lượng gom cụm video [1, 2]. Dựa trên việc phân tích đặc điểm các loại đặc trưng video, chúng tôi đã đề xuất sử dụng thêm đặc trưng âm thanh kết hợp với đặc trưng thị giác và thông tin văn bản đi kèm video để nâng cao chất lượng các cụm video [3]. Trong bài báo này, chúng tôi tiếp tục phát triển hướng nghiên cứu gom cụm kết quả tìm kiếm video của chúng tôi trong [1, 2, 3] dựa trên việc phân tích, kết hợp các đặc trưng dữ liệu video để tìm ra bộ đặc trưng phù hợp nhằm nâng cao chất lượng gom cụm video. Ý tưởng chính là kết hợp độ tương tự giữa các video theo từng loại đặc trưng. Cụ thể, chúng tôi tận dụng thông tin từ các loại đặc trưng như: thị giác, âm thanh và thông tin văn bản đi kèm video để làm tăng khả năng khai thác độ tương đồng giữa các video từ đó nâng cao chất lượng gom cụm video. Ngoài ra, một ứng dụng web được xây dựng minh họa chức năng gom cụm kết quả tìm kiếm video, với chức năng này các kết quả tìm kiếm video thay vì được trình bày như một danh sách phẳng thuộc nhiều chủ đề được trộn lẫn với nhau thì được tổ chức theo các cụm ứng với từng chủ đề cụ thể từ đó giúp người dùng xác định được video mà họ quan tâm một cách nhanh chóng. Mô hình tổng quát cho bài toán gom cụm kết quả tìm kiếm video được thể hiện ở Hình 2 bao gồm các thành phần sau: Hình 2. Mô hình tổng quát cho bài toán gom cụm kết quả tìm kiếm video Dữ liệu video: Dữ liệu video được thu thập từ kết quả tìm kiếm video trên các kênh video trực tuyến (ví dụ như YouTube, Google Video). Trích xuất đặc trƣng biểu diễn video: Video được biểu diễn dựa trên các đặc trưng như: đặc trưng thị giác (visual), đặc trưng âm thanh (audio), thông tin văn bản đi kèm video. Kết quả giai đoạn này là mỗi video sẽ được đại diện bởi một véc tơ đặc trưng đa chiều ứng với từng đặc trưng. Tính độ tƣơng tự: Độ tương tự được tính nhằm mục đích so khớp hai video có tương tự nhau về nội dung hay không. Độ tương tự càng lớn thì khả năng hai video có nội dung tương tự nhau càng cao. Độ tương tự giữa hai video sẽ được ước lượng dựa trên khoảng cách giữa hai véc tơ đặc trưng biểu diễn chúng với các độ đo phổ biến hiện nay như Cosine, L1 (Manhattan), L2 (Euclidean)... Gom cụm video: Áp dụng thuật toán gom cụm để thực hiện gom cụm video dựa trên các độ đo tương tự. Trong bài báo này, chúng tôi tập trung vào hai thành phần chính là trích xuất đặc trưng biểu diễn video và tính độ tương tự so khớp video. Chúng tôi không đặt trọng tâm vào việc phân tích thuật toán gom cụm vì các thuật toán gom cụm hiện nay được xây dựng khá ổn định, mặt khác chất lượng kết quả gom cụm video phụ thuộc chủ yếu vào độ tương đồng giữa các video dựa trên các biểu diễn của chúng. Các mục tiếp theo của bài báo được tổ chức như sau: mục 2 trình bày chi tiết về giải pháp đề xuất, mục 3 trình bày các kết quả thí nghiệm, mục 4 thảo luận về kết quả đạt được. Trích xuất đặc trƣng Tính độ tƣơng tự Kết quả gom cụm video Thuật toán gom cụm Tập dữ liệu video Kết quả gom cụm video Thuật toán gom cụm Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -83- II. GIẢI PHÁP ĐỀ XUẤT II.1 Mô hình đề xuất Việc khai thác đặc trưng thị giác sẽ giúp gom các video có thể hiện thị giác (sự xuất hiện của những đối tượng, hình ảnh) giống nhau về cùng một cụm. Tuy nhiên, với sự đa dạng của dữ liệu video trên Web, những video có nội dung tương tự nhau (tức thuộc cùng một chủ đề) nhưng có thể có những đối tượng và hình ảnh không giống nhau. Khi đó, việc khai thác nội dung ngữ nghĩa từ thông tin văn bản đi kèm video (ví dụ như các thành phần tiêu đề, mô tả hay các thẻ từ khóa) sẽ giúp gom các video có nội dung tương đồng ngữ nghĩa về cùng một cụm. Do đó, đặc trưng thị giác và thông tin văn bản đi kèm video sẽ góp phần bổ sung cho nhau để biểu diễn nội dung video một cách “đầy đủ” làm tăng khả năng khai thác độ tương đồng cũng như chất lượng gom cụm video. Tuy nhiên, một vấn đề đặt ra là việc khai thác nội dung thông tin văn bản đi kèm video chỉ thực sự hiệu quả khi chúng được mô tả đúng với nội dung thực sự của video. Trong thực tế, các thông tin đi kèm video sẽ được người dùng khai báo khi chia sẻ trên các kênh video trực tuyến. Các thông tin này có thể không khớp với nội dung thực sự của video bởi nhiều lý do khác nhau như do cảm nhận chủ quan của người dùng, thu hút lượt xem.... Trong ngữ cảnh như vậy, chúng tôi tin rằng việc khai thác kết hợp đặc trưng âm thanh (ví dụ như những video về ca nhạc thường có các âm thanh như tiếng reo hò, tiếng vỗ tay; những video đua xe thì âm thanh đi kèm là tiếng động cơ xe...) sẽ góp phần cải thiện chất lượng gom cụm video. Từ những phân tích trên, chúng tôi xem xét mối kết hợp đặc trưng thị giác, đặc trưng âm thanh và thông tin văn bản đi kèm video để giải quyết bài toán gom cụm kết quả tìm kiếm video (xem Hình 3). Hình 3. Mô hình kết hợp đa đặc trưng giải quyết bài toán gom cụm kết quả tìm kiếm video II.2 Biểu diễn và tính độ tƣơng tự video theo đặc trƣng thị giác Một video bao gồm một tập hợp tuần tự các frame. Đặc trưng thị giác được rút trích trực tiếp từ mỗi frame và được biểu diễn dưới dạng véc tơ đặc trưng. Mỗi video có thể được biểu diễn bằng một tập các véc tơ đặc trưng. Với cách biểu diễn này, độ tương tự giữa các video được tính thông qua việc so sánh độ tương tự từng frame của mỗi video (tức mỗi frame trong video này phải được so sánh với tất cả các frame trong video kia) (xem Hình 4). Phương pháp này không hiệu quả khi số lượng frame trong video cũng như số lượng video càng lớn. Hình 4. Video X với m frame, video Y với n frame. Độ tương tự giữa hai video được tính thông qua việc so sánh từng cặp frame (frame-by-frame) Mặt khác, dữ liệu video trên các kênh video trực tuyến có thể được tùy chỉnh và chia sẻ bởi nhiều người dùng. Điều này có thể dẫn đến số lượng frame khác nhau hoàn toàn trong các phiên bản của cùng một video. Trong những trường hợp này, nếu xem xét tính tương đồng giữa các video dựa trên việc ước lượng số frame tương tự của chúng thì phương pháp nêu trên không phản ánh hoàn toàn độ tương đồng giữa các fyn ... fy9 fy8 fy7 fy6 fy5 fy4 fy3 fy2 fy1 Y fx8 fx5 fx3 fx2 ... fy9 fy7 fy4 fy2 . .. fxm ... fx9 fx8 fx7 fx6 fx5 fx4 fx3 fx2 fx1 X Tập dữ liệu video Độ tƣơng tự Độ tƣơng tự Độ tƣơng tự Đặc trƣng thị giác Thông tin văn bản Đặc trƣng âm thanh Độ tƣơng tự kết hợp Kết quả gom cụm video f yn . .. f y9 f y8 f y7 f y6 f y5 f y4 f y3 f y2 f y1 Y f x8 f x5 f x3 f x2 . .. f y9 f y7 f y4 f y2 . .. fx m . .. f x9 f x8 f x7 f x6 f x5 f x4 f x3 f x2 f x1 X Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -84- video. Cho video X, tạo video Y bằng cách chọn một frame của video X và lặp lại nhiều lần. Nếu số frame của video Y lớn hơn số frame của video X thì hai video X và Y được xem như là tương tự nhau mặc dù chúng chỉ có một frame tương tự. Vấn đề trên có thể khắc phục bằng cách gom các frame tương tự trong cùng một video thành các cụm không giao nhau. Một cụm lý tưởng chỉ chứa các frame tương tự nhau và không có bất kỳ frame tương tự nào nằm ở cụm khác. Khi đó, độ tương tự giữa hai video X và Y được ước lượng thông qua việc xem xét số cụm được tạo ra từ hợp hai tập frame của video X và Y (X Y). Nếu trong một cụm mà có chứa các frame thuộc hai video thì các frame này được xem như là tương tự nhau theo đặc trưng thị giác. Tỷ lệ giữa số cụm cùng chứa các frame của hai video và tổng số cụm được tạo ra được xem như là độ tương tự giữa hai video. Độ tượng tự này có thể được xem là lý tưởng.Tuy nhiên, chi phí thực hiện tính toán cao. Giả sử cần tính độ tương tự giữa hai video có l frame, yêu cầu đầu tiên là phải thực hiện tính toán khoảng cách tương đồng của l2 cặp frame trước khi chạy thuật toán gom cụm các frame và tính độ tương tự giữa hai video. Hơn nữa, các tính toán này đòi hỏi phải lưu trữ toàn bộ dữ liệu video. Điều này là không phù hợ ... riển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -90- độ đo Entropy và Purity được thể hiện ở Bảng 2 và Bảng 3. Kết quả thể hiện ở Bảng 2 cho thấy phương pháp V-T [2] cho kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp hơn) phương pháp V-T [5], V-T [6] trên toàn bộ dữ liệu video của các truy vấn. Điều này chứng tỏ rằng phương pháp rút trích và biểu diễn đặc trưng thị giác với SIFT kết hợp với phương pháp so khớp thông tin văn bản đi kèm video sử dụng từ điển WordNet mà chúng tôi đề xuất sử dụng trong [2] cho chất lượng gom cụm video tốt hơn so với các phương pháp được sử dụng trước đó. Vì thế, trong các thực nghiệm tiếp theo, chúng tôi sẽ sử dụng SIFT để biểu diễn đặc trưng thị giác và từ điển WordNet trong việc so khớp thông tin văn bản đi kèm video. Sau đây, chúng tôi tiếp tục đánh giá vai trò của từng loại đặc trưng cụ thể ảnh hưởng đến chất lượng gom cụm video. Dựa vào kết quả thực nghiệm ở Bảng 2, chúng tôi thấy rằng trên đa số các truy vấn thì phương pháp sử dụng đặc trưng thị giác (V) và đặc trưng âm thanh (A) cho kết quả gom cụm video tốt hơn (đạt giá trị Entropy thấp hơn) so với thông tin văn bản đi kèm (T). Điều này cho thấy đặc trưng thị giác và đặc trưng âm thanh chiếm ưu thế hơn so với thông tin văn bản đi kèm video khi thực hiện gom cụm video dựa trên từng loại đặc trưng riêng lẻ. Ngoài ra, kết quả gom cụm video bằng việc kết hợp các cặp đặc trưng khác nhau cũng cho thấy phương pháp kết hợp đặc trưng thị giác và đặc trưng âm thanh (V-A) cho kết quả gom cụm tốt hơn so với các phương pháp kết hợp đặc trưng thị giác với thông tin văn bản (V-T) hay đặc trưng âm thanh với thông tin văn bản (A-T). Điều này cho thấy xu hướng những video có nội dung tương tự nhau (tức thuộc cùng chủ đề) thường có những đối tượng hình ảnh, âm thanh giống nhau. Bảng 2. Kết quả gom cụm video được đánh giá theo Entropy Truy vấn Entropy V [2, 3] A [3] T [2, 3] V-A V-T [2] V-T [5] V-T [6] A-T V-A-T V * -A * -T * 1. Apple 0.5414 0.5004 0.5122 0.4442 0.4586 0.5141 0.5001 0.4895 0.4378 0.2884 2. Aston 0.5130 0.4277 0.5111 0.3896 0.4465 0.4918 0.4861 0.4299 0.3953 0.3276 3. Cobra 0.5523 0.5145 0.5837 0.4545 0.5258 0.5593 0.5341 0.4883 0.4675 0.3048 4. Dragon 0.5317 0.4649 0.6410 0.3454 0.4403 0.5312 0.4929 0.5382 0.3892 0.2817 5. Jaguar 0.4713 0.4465 0.5251 0.3518 0.3681 0.4402 0.4240 0.4237 0.3723 0.2146 6. Java 0.2844 0.3266 0.5149 0.1584 0.2083 0.3525 0.2322 0.3529 0.1187 0.0570 7. Jupiter 0.3300 0.4182 0.4875 0.2538 0.2701 0.3992 0.3080 0.4467 0.2891 0.1883 8. Leopard 0.4160 0.5057 0.5610 0.2252 0.2686 0.3767 0.3234 0.5320 0.2487 0.1029 9. Lion 0.5412 0.5030 0.5570 0.4660 0.4828 0.5311 0.5113 0.4893 0.4880 0.3126 10. Lotus 0.5096 0.5018 0.6525 0.3423 0.3751 0.4857 0.4426 0.5789 0.3894 0.1431 11. Mustang 0.5500 0.5203 0.5887 0.4347 0.4828 0.5233 0.5111 0.5137 0.4662 0.1869 12. Ocean 0.5716 0.5351 0.6559 0.4622 0.5207 0.5766 0.5421 0.5708 0.4971 0.3064 13. Panda 0.4066 0.5106 0.6058 0.2693 0.2803 0.4181 0.3321 0.5396 0.3069 0.2082 14. Pluto 0.3546 0.3166 0.5026 0.2887 0.3396 0.3715 0.3402 0.4191 0.3223 0.1773 15. Python 0.3320 0.4048 0.5246 0.2023 0.2352 0.3685 0.2545 0.4521 0.2467 0.1068 16. Scorpion 0.4294 0.3707 0.6082 0.3099 0.3735 0.4445 0.3987 0.4044 0.3331 0.2454 17. Tiger 0.4181 0.4147 0.5460 0.3301 0.3682 0.4120 0.3811 0.4237 0.3561 0.2185 18. Venus 0.5598 0.5001 0.6751 0.4336 0.4813 0.5426 0.5069 0.4813 0.4112 0.2072 19. Viper 0.5415 0.5018 0.5927 0.3729 0.4301 0.5560 0.4842 0.5356 0.4160 0.2527 20. Zebra 0.6405 0.5963 0.6863 0.5156 0.5598 0.6302 0.6098 0.6532 0.4992 0.3094 Trung bình 0.4748 0.4640 0.5766 0.3525 0.3958 0.4763 0.4308 0.4881 0.3725 0.2220 Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -91- Với sự phong phú, đa dạng của dữ liệu video trên web thì những video thuộc cùng một chủ đề nhưng có thể có những đối tượng hình ảnh và âm thanh khác nhau. Khi đó, chúng tôi tin rằng việc khai thác thông tin văn bản đi kèm video sẽ giúp cải thiện chất lượng gom cụm. Như vậy, các thông tin được trích xuất từ đặc trưng thị giác, đặc trưng âm thanh và thông tin văn bản đi kèm video sẽ bổ trợ cho nhau làm tăng khả năng khai thác sự tương đồng giữa các video từ đó nâng cao chất lượng kết quả gom cụm. Tuy nhiên, vấn đề đặt ra là kết hợp như thế nào để có thể tận dụng được ưu thế của từng loại đặc trưng. Để xem xét vấn đề này, chúng tôi tiến hành hai thí nghiệm sau: (i) kết hợp tuyến tính không sử dụng trọng số giữa đặc trưng thị giác, đặc trưng âm thanh và thông tin văn bản (V-A-T), (ii) kết hợp đặc trưng thị giác, đặc trưng âm thanh và thông tin văn bản với các trọng số khác nhau cho mỗi đặc trưng (V*-A*-T*). Trong phương pháp V-A-T, ưu thế của các đặc trưng được xem như cân bằng nhau. Kết quả thực nghiệm cho thấy phương pháp này cũng cho kết quả tốt hơn so với việc sử dụng từng loại đặc trưng riêng lẻ trên hầu hết các bộ dữ liệu video của các truy vấn. Điều này một lần nữa minh chứng cho tính hiệu quả của việc kết hợp đa đặc trưng. Tuy nhiên, với dữ liệu video thực tế thì mỗi loại đặc trưng đóng một vai trò khác nhau trong việc thể hiện nội dung video dẫn tới việc kết hợp nhiều loại đặc trưng với sự cân bằng về vai trò chưa hẳn sẽ cho một kết quả gom cụm tốt nhất. Giả định rằng một trong các đặc trưng không thể hiện tốt nội dung video thì việc kết hợp với sự cân bằng về ưu thế sẽ làm hạn chế vai trò của các đặc trưng còn lại. Ví dụ như trong trường hợp thông tin văn bản đi kèm video được người dùng mô tả không sát với nội dung thực sự của video thì việc kết hợp thêm thông tin văn bản với sự cân bằng về vai trò sẽ làm hạn chế ưu thế của đặc trưng thị giác và đặc trưng âm thanh. Kết quả Bảng 2 cho thấy phương pháp V-A cho kết quả gom cụm tốt hơn so với phương pháp V-A-T khi vai trò của các đặc trưng được cân bằng. Với phương pháp V*-A*-T*, mỗi đặc trưng được gán trọng số khác nhau thể hiện vai trò khác nhau. Kết quả Bảng 2 cho thấy phương pháp này cho kết quả gom cụm video tốt nhất (đạt giá trị Entropy thấp nhất chứng minh xác suất phân bố các video thuộc cùng một chủ đề vào các cụm khác nhau là thấp nhất) trên hầu hết các bộ dữ liệu video thực nghiệm. Bằng thực nghiệm, chúng tôi thấy rằng với bộ trọng số (ứng với đặc trưng thị giác), (ứng với đặc trưng âm thanh), (ứng với thông tin văn bản đi kèm video) cho kết quả tốt hơn các trường hợp còn lại. Kết quả gom cụm video thể hiện ở Bảng 3 cho thấy phương pháp V*-A*-T* cũng cho kết quả gom cụm video tốt nhất (đạt giá trị Purity cao nhất chứng minh tỉ lệ phân bố những video thuộc cùng một chủ đề vào cùng một cụm là cao nhất) so với các phương pháp thực nghiệm khác. Tóm lại, đối với dữ liệu video trên web thì đặc trưng thị giác, đặc trưng âm thanh và thông tin văn bản đi kèm đều có vai trò nhất định trong việc thể hiện nội dung video. Trong từng trường hợp cụ thể thì vai trò của các đặc trưng thể hiện không giống nhau. Kết quả thực nghiệm của chúng tôi cho thấy rằng việc kết hợp đặc trưng thị giác, âm thanh và thông tin văn bản đi kèm video với các trọng số phù hợp sẽ mang đến hiệu quả cải thiện đáng kể chất lượng gom cụm video. Hình 8 thể hiện chất lượng gom cụm video được đánh giá trên toàn bộ các truy vấn qua các phương pháp thực nghiệm. Với kết quả thực nghiệm đạt được, chúng tôi xây dựng một ứng dụng web minh họa cho chức năng tổ chức kết quả tìm kiếm video trả về theo các cụm. Với chức năng này, người dùng có thể duyệt qua kết quả tìm kiếm video một cách dễ dàng hơn thay vì phải xem xét một danh sách phẳng với nhiều video thuộc nhiều chủ đề trộn lẫn vào nhau. Song song với chức năng hiển thị kết quả tìm kiếm video theo dạng danh sách như các công cụ tìm kiếm video trước đây, ứng dụng hỗ trợ chức năng hiển thị kết quả tìm kiếm video theo các cụm giúp người dùng có cái nhìn trực quan hơn đối với những video mà họ quan tâm (xem Hình 9). Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -92- Bảng 3. Kết quả gom cụm video được đánh giá theo Purity Truy vấn Purity V [2, 3] A [3] T [2, 3] V-A V-T [2] V-T [5] V-T [6] A-T V-A-T V * -A * -T * 1. Apple 0.4625 0.4875 0.4375 0.5375 0.5500 0.4375 0.5000 0.4500 0.6000 0.7250 2. Aston 0.4268 0.5610 0.4512 0.5976 0.5122 0.4634 0.4756 0.5488 0.6341 0.6585 3. Cobra 0.4130 0.4239 0.4130 0.5435 0.5000 0.3913 0.4565 0.5326 0.5435 0.7303 4. Dragon 0.4390 0.5122 0.3780 0.6341 0.5976 0.5000 0.5122 0.4756 0.5854 0.6829 5. Jaguar 0.4419 0.5349 0.4651 0.6512 0.6628 0.5698 0.5930 0.6279 0.6047 0.8333 6. Java 0.7126 0.6897 0.4483 0.8621 0.8276 0.6552 0.7586 0.6437 0.9195 0.9529 7. Jupiter 0.6543 0.5802 0.4938 0.7407 0.7037 0.6049 0.6790 0.5432 0.6790 0.8462 8. Leopard 0.6316 0.5474 0.4842 0.8211 0.7474 0.6632 0.6947 0.4526 0.7895 0.9053 9. Lion 0.4270 0.4944 0.3820 0.5169 0.4831 0.4157 0.4607 0.4494 0.5056 0.7528 10. Lotus 0.4835 0.4835 0.3626 0.6703 0.6264 0.5275 0.5275 0.4176 0.6374 0.8681 11. Mustang 0.4578 0.4940 0.4096 0.6386 0.5663 0.4819 0.5060 0.5060 0.5542 0.8675 12. Ocean 0.4556 0.4778 0.4000 0.5667 0.5111 0.4667 0.5000 0.4222 0.5333 0.7444 13. Panda 0.5567 0.4124 0.3711 0.7423 0.6804 0.4948 0.6289 0.4536 0.7010 0.8041 14. Pluto 0.6706 0.6824 0.5647 0.7294 0.6941 0.6706 0.6824 0.6118 0.7059 0.8171 15. Python 0.6786 0.6235 0.4471 0.7765 0.7294 0.6471 0.7059 0.5529 0.7176 0.9294 16. Scorpion 0.6000 0.6444 0.4111 0.7111 0.6556 0.5778 0.6222 0.6333 0.6778 0.7556 17. Tiger 0.5062 0.5309 0.3827 0.6420 0.6049 0.5185 0.5556 0.5062 0.5926 0.7654 18. Venus 0.4607 0.5393 0.3483 0.6404 0.5618 0.4494 0.5393 0.5281 0.5955 0.8315 19. Viper 0.4368 0.4943 0.3908 0.6667 0.6092 0.4368 0.5057 0.4598 0.6092 0.7586 20. Zebra 0.3737 0.4242 0.3535 0.5152 0.4949 0.4040 0.4040 0.3232 0.5051 0.7857 Trung bình 0.5144 0.5319 0.4197 0.6602 0.6159 0.5188 0.5654 0.5069 0.6345 0.8007 Hình 8. Chất lượng gom cụm video được đánh giá trên toàn bộ các truy vấn qua các phương pháp thực nghiệm Kết quả thí nghiệm thể hiện ở Hình 9 bao gồm 5 cụm video liên quan đến truy vấn “Leopard”. Cụm 1 bao gồm những video liên quan đến động vật (con báo). Cụm 2 bao gồm những video liên quan đến xe tăng. Cụm 3 bao gồm những video liên quan đến hệ điều hành máy tính (hệ điều hành Snow Leopard của hãng Apple). Cụm 4 bao gồm những video liên quan đến nghệ thuật vẽ móng tay và cụm 5 bao gồm những video liên quan đến bánh ngọt. Thông qua kết quả gom cụm video trực quan, người dùng có thể xác định được những video mà họ quan tâm một cách dễ dàng hơn. Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -93- Hình 9. Ứng dụng web gom cụm kết quả tìm kiếm video ứng với truy vấn “Leopard” Giả định rằng với truy vấn “Leopard”, người dùng muốn tìm kiếm những video liên quan đến xe tăng nhưng hầu hết các kết quả tìm kiếm video trả về liên quan đến động vật, hệ điều hành máy tính và những chủ đề khác. Khi đó, việc gom cụm kết quả tìm kiếm video theo các chủ đề riêng biệt sẽ giúp người dùng định hướng tìm kiếm một cách nhanh chóng. IV. KẾT LUẬN Trên cơ sở phân tích đặc điểm các đặc trưng của dữ liệu video, chúng tôi đã đề xuất các giải pháp kết hợp nhằm tìm ra bộ đặc trưng phù hợp giúp nâng cao chất lượng gom cụm kết quả tìm kiếm video trên các kênh video trực tuyến. Kết quả thực nghiệm cho thấy rằng việc sử dụng bộ đặc trưng bao gồm đặc trưng thị giác, âm thanh và thông tin văn bản đi kèm video đã làm tăng hiệu quả cải thiện chất lượng gom cụm video. Bằng thực nghiệm chúng tôi đã đề xuất được bộ trọng số phù hợp cho các đặc trưng. Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016 -94- Về mặt thực tiễn, chúng tôi bước đầu xây dựng một ứng dụng web thử nghiệm tìm kiếm video với chức năng gom cụm kết quả trả về. Với chức năng này, danh sách video trả về sẽ được gom theo từng cụm với từng chủ đề nhằm giúp người dùng có thể xác định video cần tìm một cách nhanh chóng thay vì phải quệt qua một danh sách phẳng các video thuộc nhiều chủ đề được trộn lẫn với nhau. Trong tương lai, bằng cách dịch và so sánh các thông tin văn bản đi kèm video với các ngôn ngữ khác nhau, chúng tôi hy vọng có thể gom cụm các video có nội dung tương tự mặc dù thông tin văn bản đi kèm có thể được thể hiện bởi một ngôn ngữ khác với truy vấn. TÀI LIỆU THAM KHẢO [1] NGUYỄN QUANG PHÚC, NGUYỄN HOÀNG TÚ ANH, NGÔ ĐỨC THÀNH, LÊ ĐÌNH DUY, “Gom cụm dữ liệu web video theo hướng tiếp cận early fusion cho đặc trưng văn bản”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ 7 về Nghiên cứu cơ bản & ứng dụng Công nghệ thông tin (FAIR), tr. 145-152, 2014. [2] PHUC QUANG NGUYEN, ANH-THU NGUYEN- THI, THANH DUC NGO, TU-ANH HOANG NGUYEN, “Using Textual Semantic Similarity to Improve Clustering Quality of Web Video Search Results”, Proceedings of the 7th International Con- ference on Knowledge and Systems Engineering (KSE), pp. 156-161, 2015. [3] NGUYỄN QUANG PHÚC, NGUYỄN THỊ ANH THƯ, NGÔ ĐỨC THÀNH, LÊ ĐÌNH DUY, NGUYỄN HOÀNG TÚ ANH, “Nâng cao chất lượng gom cụm kết quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh, đặc trưng thị giác và thông tin văn bản”, Kỷ yếu Hội thảo Quốc gia về Điện tử, Truyền thông và Công nghệ thông tin (REV-ECIT), tr. 130-135, 2015. [4] S. LIU, M. ZHU, Q. ZHENG, “Mining similarities for clustering web video clips”, CSSE (4), pp. 759-762, 2008. [5] A. HINDLE, J. SHAO, D. LIN, J. LU, R. ZHANG, “Clustering Web Video Search Results Based on Integration of Multiple Features”, WWW, pp. 53-73, 2011. [6] H. HUANG, Y. LU, F. ZHANG, S. SUN, “A Multi- modal Clustering Method for Web Videos”, Trustworthy Computing and Services, pp. 163-169, 2013. [7] D. G. LOWE, “Distinctive Image Features from Scale- Invariant Keypoints”, International Journal of Computer Vision, 60(2), pp. 91-110, 2004. [8] D. G. LOWE, “Object Recognition from Local Scale- Invariant Features”, International Conference on Computer Vision, vol. 2, pp. 1150-1157, 1999. [9] U. SRINIVASAN, S. PFEIFFER, S. NEPAL, M. LEE, L. GU, S. BARRASS, “A Survey of Mpeg-1 Audio, Video and Semantic Analysis Techniques”, Multimedia Tools and Applications, 27(1), pp. 105-141, 2005. [10] Y. H. LI, Z. BANDAR, D. MCLEAN, “An approach for measuring semantic similarity using multiple infor- mation sources”, IEEE Transactions on Knowledge and Data Engineering, 15(4), pp. 871-882, 2003. Nhận bài ngày: 16/03/2016 SƠ LƢỢC VỀ TÁC GIẢ NGUYỄN QUANG PHÚC Tốt nghiệp cử nhân tại Trường ĐH Sư phạm TP. HCM, chuyên ngành Sư phạm Tin học năm 2012. Hiện đang là học viên cao học của Trường ĐH Công nghệ thông tin, ĐH Quốc gia TP. HCM chuyên ngành Khoa học máy tính. Hướng nghiên cứu: khai thác dữ liệu đa phương tiện, thị giác máy tính và máy học. Email: phucnq@uit.edu.vn
File đính kèm:
- gom_cum_ket_qua_tim_kiem_video_voi_huong_tiep_can_ket_hop_da.pdf