Gom cụm kết quả tìm kiếm video với hướng tiếp cận kết hợp đa đặc trưng

Abstract: This paper aims to extend our previous

researches on clustering web video search results,

which reported in [1, 2, 3]. To search videos, users

usually use online video search systems such as

YouTube, Google Video. However, the returned

search results of these systems may include many

videos of different categories, and as a result, users

find it difficult to locate video clips of interest.

Therefore, clustering web video search results is

necessary in order to improve the efficiency of

searching. The main idea of paper based on analysing

and combining the features extracted from video to

find the set of appropriate features to improve the

quality of video clusters.

15 trang phuongnguyen 6640

Download

Bạn đang xem tài liệu "Gom cụm kết quả tìm kiếm video với hướng tiếp cận kết hợp đa đặc trưng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Gom cụm kết quả tìm kiếm video với hướng tiếp cận kết hợp đa đặc trưng

Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-80-
Gom cụm kết quả tìm kiếm video với hƣớng
tiếp cận kết hợp đa đặc trƣng
Clustering Web Video Search Results with a Multi-Feature
Integration Approach
Nguyễn Quang Phúc
Abstract: This paper aims to extend our previous
researches on clustering web video search results,
which reported in [1, 2, 3]. To search videos, users
usually use online video search systems such as
YouTube, Google Video. However, the returned
search results of these systems may include many
videos of different categories, and as a result, users
find it difficult to locate video clips of interest.
Therefore, clustering web video search results is
necessary in order to improve the efficiency of
searching. The main idea of paper based on analysing
and combining the features extracted from video to
find the set of appropriate features to improve the
quality of video clusters.
Keywords: Clustering web video, video representa-
tion, multi-feature integration
I. GIỚI THIỆU
Gom cụm kết quả tìm kiếm trên Web đã cho thấy
tính hiệu quả, tiện lợi trong việc tìm kiếm qua các ứng
dụng thực tế như ứng dụng gom cụm kết quả tìm kiếm
đối với dữ liệu dạng văn bản như Clusty1, Carrot22;
đối với dữ liệu hình ảnh như ứng dụng tìm kiếm ảnh
của Google3. Với cùng ý tưởng gom cụm kết quả tìm
kiếm đối với dữ liệu dạng văn bản và hình ảnh, hướng
tiếp cận gom cụm kết quả tìm kiếm đối với dữ liệu
video đã được đầu tư nghiên cứu trong những năm gần
đây và đây là một hướng nghiên cứu còn khá mới mẽ
1
2
3 https://images.google.com
với nhiều thách thức đặt ra. Để tìm kiếm video, người
dùng thường sử dụng các công cụ tìm kiếm trực tuyến
như YouTube, Google Video thông qua các câu
truy vấn. Với một câu truy vấn bất kỳ, người dùng sẽ
nhận được một số lượng lớn kết quả trả về. Tùy thuộc
vào khả năng diễn đạt từ khóa của người dùng mà số
lượng video sẽ thay đổi và trải rộng trên nhiều chủ đề
khác nhau. Điều này gây trở ngại cho người dùng vì
phải tốn nhiều thời gian duyệt danh sách kết quả để
tìm được video mong muốn. Đặc biệt, đối với các truy
vấn quá ngắn hay mơ hồ do tính đa nghĩa của từ, hoặc
trong trường hợp video của chủ đề quan tâm bị áp đảo
bởi các chủ đề khác thì quá trình duyệt tìm video
mong muốn của người dùng càng gặp nhiều khó khăn.
Gom cụm kết quả tìm kiếm video là giải pháp khắc
phục vấn đề này. Giải pháp này giúp người dùng có
cái nhìn tổng quan hơn thông qua các chủ đề video cụ
thể đã được gom cụm. Từ đó, người dùng có thể dễ
dàng loại bỏ các cụm video không phù hợp và xác
định được các video cần tìm trong thời gian ngắn thay
vì phải duyệt toàn bộ danh sách kết quả video trả về.
Dữ liệu đầu vào và đầu ra của bài toán gom cụm
kết quả tìm kiếm video được minh họa trực quan ở
Hình 1.
Một trong những thách thức lớn khi giải quyết bài
toán gom cụm kết quả tìm kiếm video là ước lượng độ
tương tự giữa các video. Danh sách video từ kết quả
tìm kiếm video trên Web sẽ được gom thành từng cụm
bằng cách áp dụng thuật toán gom cụm dựa trên độ
tương tự giữa các video. Thông thường, độ tương tự
giữa các video sẽ được tính toán dựa trên các biểu
diễn của chúng.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-81-
Hình 1. Minh họa trực quan dữ liệu đầu vào và đầu ra của bài toán gom cụm kết quả tìm kiếm video ứng với
truy vấn “Tiger” trên YouTube
Dữ liệu video là một dạng dữ liệu có cấu trúc phức
tạp với nhiều loại đặc trưng như đặc trưng về thị giác
(visual), âm thanh (audio) hay thông tin văn bản đi
kèm. Để biểu diễn video, một cách đơn giản là chỉ sử
dụng một loại đặc trưng cụ thể. Theo hướng tiếp cận
này, Liu cùng các cộng sự đã khai thác thông tin từ
đặc trưng thị giác để biểu diễn và so khớp video [4].
Tuy nhiên, để biểu diễn thông tin nội dung video một
cách đầy đủ phù hợp cho việc so khớp hiệu quả thì
việc chỉ sử dụng một đặc trưng riêng lẻ để biểu diễn
video sẽ trở nên hạn chế.
Một hướng tiếp cận mới là sử dụng kết hợp đa đặc
trưng nhằm khai thác ưu thế của từng loại đặc trưng
giúp nâng cao hiệu quả so khớp và gom cụm video [5,
6]. Trong [5], Hindle cùng các cộng sự khai thác song
song đặc trưng thị giác và thông tin văn bản đi kèm
video. Tuy nhiên, các kỹ thuật được sử dụng để rút
trích đặc trưng và biểu diễn video vẫn còn khá đơn
giản chưa phát huy được ưu thế của từng loại đặc
trưng. Đối với đặc trưng thị giác, tác giả đề xuất mô
hình BCS (Bounded Coordinate System) để biểu diễn
video, mô hình này chủ yếu khai thác thông tin màu
sắc của video.
Mô hình này hiệu quả khi biểu diễn những video
có màu sắc tương đối ổn định, đối với những video có
nội dung đa dạng với các bối cảnh và màu sắc khác
nhau thì mô hình này có phần hạn chế. Đối với thông
tin văn bản đi kèm video, tác giả sử dụng hướng tiếp
cận so sánh theo các cặp từ (word-by-word), hạn chế
của phương pháp này là bỏ qua tính ngữ nghĩa của từ.
Trong [6], Huang cùng các cộng sự cũng khai thác
thông tin từ đặc trưng thị giác và thông tin văn bản đi
kèm video.
Với đặc trưng thị giác, tác giả chú trọng vào tính
bất biến của các đối tượng, hình ảnh trong video kết
hợp với thông tin về màu sắc. Với thông tin văn bản đi
kèm video, tác giả sử dụng mô hình VSM (Vector
Space Model) để biểu diễn và so khớp thông tin văn
bản. Mô hình này dựa vào tần suất xuất hiện của các
từ trong văn bản để xác định độ tương đồng giữa các
văn bản.
Tuy nhiên, do đặc điểm thông tin văn bản đi kèm
video thường ở dạng văn bản ngắn và được mô tả bởi
những người dùng khác nhau với các ngôn từ khác
nhau nên tần suất xuất hiện của các từ giống nhau giữa
...
Đầu vào
(danh sách video trả về từ kết quả
tìm kiếm trên Web)
...
Cụm 1
Cụm 2
Cụm 3
Đầu ra
(các cụm video theo từng chủ đề)
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-82-
các văn bản là hiếm hoặc thậm chí là không có. Vì
vậy, việc sử dụng mô hình VSM để biểu diễn và so
khớp thông tin văn bản đi kèm video cũng chưa thật
sự hiệu quả.
Nhìn chung, các công trình trước đây chú trọng vào
việc khai thác các đặc trưng từ dữ liệu video và thiên
về xử lý đặc trưng thị giác được trích xuất trực tiếp từ
nội dung video hơn là các thông tin văn bản đi kèm.
Thông qua nghiên cứu các công trình liên quan
trước đó, chúng tôi đã chọn hướng tiếp cận kết hợp đa
đặc trưng để giải quyết bài toán gom cụm kết quả tìm
kiếm video. Chúng tôi tập trung vào việc phân tích đặc
điểm thông tin văn bản đi kèm video và chú trọng vào
nội dung ngữ nghĩa kết hợp với đặc trưng thị giác để
nâng cao chất lượng gom cụm video [1, 2]. Dựa trên
việc phân tích đặc điểm các loại đặc trưng video,
chúng tôi đã đề xuất sử dụng thêm đặc trưng âm thanh
kết hợp với đặc trưng thị giác và thông tin văn bản đi
kèm video để nâng cao chất lượng các cụm video [3].
Trong bài báo này, chúng tôi tiếp tục phát triển
hướng nghiên cứu gom cụm kết quả tìm kiếm video
của chúng tôi trong [1, 2, 3] dựa trên việc phân tích,
kết hợp các đặc trưng dữ liệu video để tìm ra bộ đặc
trưng phù hợp nhằm nâng cao chất lượng gom cụm
video. Ý tưởng chính là kết hợp độ tương tự giữa các
video theo từng loại đặc trưng. Cụ thể, chúng tôi tận
dụng thông tin từ các loại đặc trưng như: thị giác, âm
thanh và thông tin văn bản đi kèm video để làm tăng
khả năng khai thác độ tương đồng giữa các video từ
đó nâng cao chất lượng gom cụm video. Ngoài ra, một
ứng dụng web được xây dựng minh họa chức năng
gom cụm kết quả tìm kiếm video, với chức năng này
các kết quả tìm kiếm video thay vì được trình bày như
một danh sách phẳng thuộc nhiều chủ đề được trộn lẫn
với nhau thì được tổ chức theo các cụm ứng với từng
chủ đề cụ thể từ đó giúp người dùng xác định được
video mà họ quan tâm một cách nhanh chóng.
Mô hình tổng quát cho bài toán gom cụm kết quả
tìm kiếm video được thể hiện ở Hình 2 bao gồm các
thành phần sau:
Hình 2. Mô hình tổng quát cho bài toán gom cụm kết
quả tìm kiếm video
 Dữ liệu video: Dữ liệu video được thu thập từ
kết quả tìm kiếm video trên các kênh video trực
tuyến (ví dụ như YouTube, Google Video).
 Trích xuất đặc trƣng biểu diễn video: Video
được biểu diễn dựa trên các đặc trưng như: đặc
trưng thị giác (visual), đặc trưng âm thanh
(audio), thông tin văn bản đi kèm video. Kết
quả giai đoạn này là mỗi video sẽ được đại diện
bởi một véc tơ đặc trưng đa chiều ứng với từng
đặc trưng.
 Tính độ tƣơng tự: Độ tương tự được tính nhằm
mục đích so khớp hai video có tương tự nhau về
nội dung hay không. Độ tương tự càng lớn thì
khả năng hai video có nội dung tương tự nhau
càng cao. Độ tương tự giữa hai video sẽ được
ước lượng dựa trên khoảng cách giữa hai véc tơ
đặc trưng biểu diễn chúng với các độ đo phổ
biến hiện nay như Cosine, L1 (Manhattan), L2
(Euclidean)...
 Gom cụm video: Áp dụng thuật toán gom cụm
để thực hiện gom cụm video dựa trên các độ đo
tương tự.
Trong bài báo này, chúng tôi tập trung vào hai
thành phần chính là trích xuất đặc trưng biểu diễn
video và tính độ tương tự so khớp video. Chúng tôi
không đặt trọng tâm vào việc phân tích thuật toán gom
cụm vì các thuật toán gom cụm hiện nay được xây
dựng khá ổn định, mặt khác chất lượng kết quả gom
cụm video phụ thuộc chủ yếu vào độ tương đồng giữa
các video dựa trên các biểu diễn của chúng.
Các mục tiếp theo của bài báo được tổ chức như
sau: mục 2 trình bày chi tiết về giải pháp đề xuất, mục
3 trình bày các kết quả thí nghiệm, mục 4 thảo luận về
kết quả đạt được.
Trích
xuất
đặc trƣng
Tính độ
tƣơng tự
Kết quả
gom cụm
video
Thuật toán
gom cụm
Tập
dữ
liệu
video
Kết
quả gom
cụm
video
Thuật
toán
gom
cụm
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-83-
II. GIẢI PHÁP ĐỀ XUẤT
II.1 Mô hình đề xuất
Việc khai thác đặc trưng thị giác sẽ giúp gom các
video có thể hiện thị giác (sự xuất hiện của những đối
tượng, hình ảnh) giống nhau về cùng một cụm. Tuy
nhiên, với sự đa dạng của dữ liệu video trên Web,
những video có nội dung tương tự nhau (tức thuộc
cùng một chủ đề) nhưng có thể có những đối tượng và
hình ảnh không giống nhau. Khi đó, việc khai thác nội
dung ngữ nghĩa từ thông tin văn bản đi kèm video (ví
dụ như các thành phần tiêu đề, mô tả hay các thẻ từ
khóa) sẽ giúp gom các video có nội dung tương đồng
ngữ nghĩa về cùng một cụm. Do đó, đặc trưng thị giác
và thông tin văn bản đi kèm video sẽ góp phần bổ
sung cho nhau để biểu diễn nội dung video một cách
“đầy đủ” làm tăng khả năng khai thác độ tương đồng
cũng như chất lượng gom cụm video. Tuy nhiên, một
vấn đề đặt ra là việc khai thác nội dung thông tin văn
bản đi kèm video chỉ thực sự hiệu quả khi chúng được
mô tả đúng với nội dung thực sự của video. Trong
thực tế, các thông tin đi kèm video sẽ được người
dùng khai báo khi chia sẻ trên các kênh video trực
tuyến. Các thông tin này có thể không khớp với nội
dung thực sự của video bởi nhiều lý do khác nhau như
do cảm nhận chủ quan của người dùng, thu hút lượt
xem.... Trong ngữ cảnh như vậy, chúng tôi tin rằng
việc khai thác kết hợp đặc trưng âm thanh (ví dụ như
những video về ca nhạc thường có các âm thanh như
tiếng reo hò, tiếng vỗ tay; những video đua xe thì âm
thanh đi kèm là tiếng động cơ xe...) sẽ góp phần cải
thiện chất lượng gom cụm video.
Từ những phân tích trên, chúng tôi xem xét mối kết
hợp đặc trưng thị giác, đặc trưng âm thanh và thông
tin văn bản đi kèm video để giải quyết bài toán gom
cụm kết quả tìm kiếm video (xem Hình 3).
Hình 3. Mô hình kết hợp đa đặc trưng giải quyết bài
toán gom cụm kết quả tìm kiếm video
II.2 Biểu diễn và tính độ tƣơng tự video theo đặc
trƣng thị giác
Một video bao gồm một tập hợp tuần tự các frame.
Đặc trưng thị giác được rút trích trực tiếp từ mỗi
frame và được biểu diễn dưới dạng véc tơ đặc trưng.
Mỗi video có thể được biểu diễn bằng một tập các véc
tơ đặc trưng. Với cách biểu diễn này, độ tương tự giữa
các video được tính thông qua việc so sánh độ tương
tự từng frame của mỗi video (tức mỗi frame trong
video này phải được so sánh với tất cả các frame trong
video kia) (xem Hình 4). Phương pháp này không hiệu
quả khi số lượng frame trong video cũng như số lượng
video càng lớn.
Hình 4. Video X với m frame, video Y với n frame. Độ
tương tự giữa hai video được tính thông qua việc so
sánh từng cặp frame (frame-by-frame)
Mặt khác, dữ liệu video trên các kênh video trực
tuyến có thể được tùy chỉnh và chia sẻ bởi nhiều người
dùng. Điều này có thể dẫn đến số lượng frame khác
nhau hoàn toàn trong các phiên bản của cùng một
video. Trong những trường hợp này, nếu xem xét tính
tương đồng giữa các video dựa trên việc ước lượng số
frame tương tự của chúng thì phương pháp nêu trên
không phản ánh hoàn toàn độ tương đồng giữa các
fyn ... fy9 fy8 fy7 fy6 fy5 fy4 fy3 fy2 fy1 Y
fx8 fx5 fx3 fx2 ...
fy9 fy7 fy4 fy2 .
..
fxm ... fx9 fx8 fx7 fx6 fx5 fx4 fx3 fx2 fx1 X
Tập
dữ
liệu
video
Độ
tƣơng tự
Độ
tƣơng tự
Độ
tƣơng tự
Đặc
trƣng thị
giác
Thông tin
văn bản
Đặc
trƣng âm
thanh
Độ
tƣơng
tự kết
hợp
Kết quả
gom
cụm
video
f
yn
.
..
f
y9
f
y8
f
y7
f
y6
f
y5
f
y4
f
y3
f
y2
f
y1
Y
f
x8
f
x5
f
x3
f
x2
.
..
f
y9
f
y7
f
y4
f
y2
.
..
fx
m
.
..
f
x9
f
x8
f
x7
f
x6
f
x5
f
x4
f
x3
f
x2
f
x1
X
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-84-
video. Cho video X, tạo video Y bằng cách chọn một
frame của video X và lặp lại nhiều lần. Nếu số frame
của video Y lớn hơn số frame của video X thì hai video
X và Y được xem như là tương tự nhau mặc dù chúng
chỉ có một frame tương tự.
Vấn đề trên có thể khắc phục bằng cách gom các
frame tương tự trong cùng một video thành các cụm
không giao nhau. Một cụm lý tưởng chỉ chứa các
frame tương tự nhau và không có bất kỳ frame tương
tự nào nằm ở cụm khác. Khi đó, độ tương tự giữa hai
video X và Y được ước lượng thông qua việc xem xét
số cụm được tạo ra từ hợp hai tập frame của video X
và Y (X Y). Nếu trong một cụm mà có chứa các
frame thuộc hai video thì các frame này được xem như
là tương tự nhau theo đặc trưng thị giác. Tỷ lệ giữa số
cụm cùng chứa các frame của hai video và tổng số
cụm được tạo ra được xem như là độ tương tự giữa
hai video. Độ tượng tự này có thể được xem là lý
tưởng.Tuy nhiên, chi phí thực hiện tính toán cao. Giả
sử cần tính độ tương tự giữa hai video có l frame, yêu
cầu đầu tiên là phải thực hiện tính toán khoảng cách
tương đồng của l2 cặp frame trước khi chạy thuật toán
gom cụm các frame và tính độ tương tự giữa hai
video. Hơn nữa, các tính toán này đòi hỏi phải lưu trữ
toàn bộ dữ liệu video. Điều này là không phù hợ ... riển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-90-
độ đo Entropy và Purity được thể hiện ở Bảng 2 và
Bảng 3.
Kết quả thể hiện ở Bảng 2 cho thấy phương pháp
V-T [2] cho kết quả gom cụm video tốt hơn (đạt giá trị
Entropy thấp hơn) phương pháp V-T [5], V-T [6] trên
toàn bộ dữ liệu video của các truy vấn. Điều này
chứng tỏ rằng phương pháp rút trích và biểu diễn đặc
trưng thị giác với SIFT kết hợp với phương pháp so
khớp thông tin văn bản đi kèm video sử dụng từ điển
WordNet mà chúng tôi đề xuất sử dụng trong [2] cho
chất lượng gom cụm video tốt hơn so với các phương
pháp được sử dụng trước đó. Vì thế, trong các thực
nghiệm tiếp theo, chúng tôi sẽ sử dụng SIFT để biểu
diễn đặc trưng thị giác và từ điển WordNet trong việc
so khớp thông tin văn bản đi kèm video.
Sau đây, chúng tôi tiếp tục đánh giá vai trò của
từng loại đặc trưng cụ thể ảnh hưởng đến chất lượng
gom cụm video. Dựa vào kết quả thực nghiệm ở Bảng
2, chúng tôi thấy rằng trên đa số các truy vấn thì
phương pháp sử dụng đặc trưng thị giác (V) và đặc
trưng âm thanh (A) cho kết quả gom cụm video tốt
hơn (đạt giá trị Entropy thấp hơn) so với thông tin văn
bản đi kèm (T). Điều này cho thấy đặc trưng thị giác
và đặc trưng âm thanh chiếm ưu thế hơn so với thông
tin văn bản đi kèm video khi thực hiện gom cụm video
dựa trên từng loại đặc trưng riêng lẻ.
Ngoài ra, kết quả gom cụm video bằng việc kết
hợp các cặp đặc trưng khác nhau cũng cho thấy
phương pháp kết hợp đặc trưng thị giác và đặc trưng
âm thanh (V-A) cho kết quả gom cụm tốt hơn so với
các phương pháp kết hợp đặc trưng thị giác với thông
tin văn bản (V-T) hay đặc trưng âm thanh với thông
tin văn bản (A-T). Điều này cho thấy xu hướng những
video có nội dung tương tự nhau (tức thuộc cùng chủ
đề) thường có những đối tượng hình ảnh, âm thanh
giống nhau.
Bảng 2. Kết quả gom cụm video được đánh giá theo Entropy
Truy vấn
Entropy
V [2, 3] A [3] T [2, 3] V-A V-T [2] V-T [5] V-T [6] A-T V-A-T V
*
-A
*
-T
*
1. Apple 0.5414 0.5004 0.5122 0.4442 0.4586 0.5141 0.5001 0.4895 0.4378 0.2884
2. Aston 0.5130 0.4277 0.5111 0.3896 0.4465 0.4918 0.4861 0.4299 0.3953 0.3276
3. Cobra 0.5523 0.5145 0.5837 0.4545 0.5258 0.5593 0.5341 0.4883 0.4675 0.3048
4. Dragon 0.5317 0.4649 0.6410 0.3454 0.4403 0.5312 0.4929 0.5382 0.3892 0.2817
5. Jaguar 0.4713 0.4465 0.5251 0.3518 0.3681 0.4402 0.4240 0.4237 0.3723 0.2146
6. Java 0.2844 0.3266 0.5149 0.1584 0.2083 0.3525 0.2322 0.3529 0.1187 0.0570
7. Jupiter 0.3300 0.4182 0.4875 0.2538 0.2701 0.3992 0.3080 0.4467 0.2891 0.1883
8. Leopard 0.4160 0.5057 0.5610 0.2252 0.2686 0.3767 0.3234 0.5320 0.2487 0.1029
9. Lion 0.5412 0.5030 0.5570 0.4660 0.4828 0.5311 0.5113 0.4893 0.4880 0.3126
10. Lotus 0.5096 0.5018 0.6525 0.3423 0.3751 0.4857 0.4426 0.5789 0.3894 0.1431
11. Mustang 0.5500 0.5203 0.5887 0.4347 0.4828 0.5233 0.5111 0.5137 0.4662 0.1869
12. Ocean 0.5716 0.5351 0.6559 0.4622 0.5207 0.5766 0.5421 0.5708 0.4971 0.3064
13. Panda 0.4066 0.5106 0.6058 0.2693 0.2803 0.4181 0.3321 0.5396 0.3069 0.2082
14. Pluto 0.3546 0.3166 0.5026 0.2887 0.3396 0.3715 0.3402 0.4191 0.3223 0.1773
15. Python 0.3320 0.4048 0.5246 0.2023 0.2352 0.3685 0.2545 0.4521 0.2467 0.1068
16. Scorpion 0.4294 0.3707 0.6082 0.3099 0.3735 0.4445 0.3987 0.4044 0.3331 0.2454
17. Tiger 0.4181 0.4147 0.5460 0.3301 0.3682 0.4120 0.3811 0.4237 0.3561 0.2185
18. Venus 0.5598 0.5001 0.6751 0.4336 0.4813 0.5426 0.5069 0.4813 0.4112 0.2072
19. Viper 0.5415 0.5018 0.5927 0.3729 0.4301 0.5560 0.4842 0.5356 0.4160 0.2527
20. Zebra 0.6405 0.5963 0.6863 0.5156 0.5598 0.6302 0.6098 0.6532 0.4992 0.3094
Trung bình 0.4748 0.4640 0.5766 0.3525 0.3958 0.4763 0.4308 0.4881 0.3725 0.2220
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-91-
Với sự phong phú, đa dạng của dữ liệu video trên
web thì những video thuộc cùng một chủ đề nhưng có
thể có những đối tượng hình ảnh và âm thanh khác
nhau. Khi đó, chúng tôi tin rằng việc khai thác thông
tin văn bản đi kèm video sẽ giúp cải thiện chất lượng
gom cụm. Như vậy, các thông tin được trích xuất từ
đặc trưng thị giác, đặc trưng âm thanh và thông tin văn
bản đi kèm video sẽ bổ trợ cho nhau làm tăng khả
năng khai thác sự tương đồng giữa các video từ đó
nâng cao chất lượng kết quả gom cụm.
Tuy nhiên, vấn đề đặt ra là kết hợp như thế nào để
có thể tận dụng được ưu thế của từng loại đặc trưng.
Để xem xét vấn đề này, chúng tôi tiến hành hai thí
nghiệm sau: (i) kết hợp tuyến tính không sử dụng
trọng số giữa đặc trưng thị giác, đặc trưng âm thanh và
thông tin văn bản (V-A-T), (ii) kết hợp đặc trưng thị
giác, đặc trưng âm thanh và thông tin văn bản với các
trọng số khác nhau cho mỗi đặc trưng (V*-A*-T*).
Trong phương pháp V-A-T, ưu thế của các đặc
trưng được xem như cân bằng nhau. Kết quả thực
nghiệm cho thấy phương pháp này cũng cho kết quả
tốt hơn so với việc sử dụng từng loại đặc trưng riêng
lẻ trên hầu hết các bộ dữ liệu video của các truy vấn.
Điều này một lần nữa minh chứng cho tính hiệu quả
của việc kết hợp đa đặc trưng. Tuy nhiên, với dữ liệu
video thực tế thì mỗi loại đặc trưng đóng một vai trò
khác nhau trong việc thể hiện nội dung video dẫn tới
việc kết hợp nhiều loại đặc trưng với sự cân bằng về
vai trò chưa hẳn sẽ cho một kết quả gom cụm tốt nhất.
Giả định rằng một trong các đặc trưng không thể hiện
tốt nội dung video thì việc kết hợp với sự cân bằng về
ưu thế sẽ làm hạn chế vai trò của các đặc trưng còn lại.
Ví dụ như trong trường hợp thông tin văn bản đi
kèm video được người dùng mô tả không sát với nội
dung thực sự của video thì việc kết hợp thêm thông tin
văn bản với sự cân bằng về vai trò sẽ làm hạn chế ưu
thế của đặc trưng thị giác và đặc trưng âm thanh. Kết
quả Bảng 2 cho thấy phương pháp V-A cho kết quả
gom cụm tốt hơn so với phương pháp V-A-T khi vai
trò của các đặc trưng được cân bằng.
Với phương pháp V*-A*-T*, mỗi đặc trưng được
gán trọng số khác nhau thể hiện vai trò khác nhau. Kết
quả Bảng 2 cho thấy phương pháp này cho kết quả
gom cụm video tốt nhất (đạt giá trị Entropy thấp nhất
chứng minh xác suất phân bố các video thuộc cùng
một chủ đề vào các cụm khác nhau là thấp nhất) trên
hầu hết các bộ dữ liệu video thực nghiệm. Bằng thực
nghiệm, chúng tôi thấy rằng với bộ trọng số
(ứng với đặc trưng thị giác), (ứng với đặc
trưng âm thanh), (ứng với thông tin
văn bản đi kèm video) cho kết quả tốt hơn các trường
hợp còn lại.
Kết quả gom cụm video thể hiện ở Bảng 3 cho thấy
phương pháp V*-A*-T* cũng cho kết quả gom cụm
video tốt nhất (đạt giá trị Purity cao nhất chứng minh
tỉ lệ phân bố những video thuộc cùng một chủ đề vào
cùng một cụm là cao nhất) so với các phương pháp
thực nghiệm khác.
Tóm lại, đối với dữ liệu video trên web thì đặc
trưng thị giác, đặc trưng âm thanh và thông tin văn
bản đi kèm đều có vai trò nhất định trong việc thể hiện
nội dung video. Trong từng trường hợp cụ thể thì vai
trò của các đặc trưng thể hiện không giống nhau. Kết
quả thực nghiệm của chúng tôi cho thấy rằng việc kết
hợp đặc trưng thị giác, âm thanh và thông tin văn bản
đi kèm video với các trọng số phù hợp sẽ mang đến
hiệu quả cải thiện đáng kể chất lượng gom cụm video.
Hình 8 thể hiện chất lượng gom cụm video được đánh
giá trên toàn bộ các truy vấn qua các phương pháp
thực nghiệm.
Với kết quả thực nghiệm đạt được, chúng tôi xây
dựng một ứng dụng web minh họa cho chức năng tổ
chức kết quả tìm kiếm video trả về theo các cụm. Với
chức năng này, người dùng có thể duyệt qua kết quả
tìm kiếm video một cách dễ dàng hơn thay vì phải
xem xét một danh sách phẳng với nhiều video thuộc
nhiều chủ đề trộn lẫn vào nhau. Song song với chức
năng hiển thị kết quả tìm kiếm video theo dạng danh
sách như các công cụ tìm kiếm video trước đây, ứng
dụng hỗ trợ chức năng hiển thị kết quả tìm kiếm video
theo các cụm giúp người dùng có cái nhìn trực quan
hơn đối với những video mà họ quan tâm (xem Hình
9).
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-92-
Bảng 3. Kết quả gom cụm video được đánh giá theo Purity
Truy vấn
Purity
V [2, 3] A [3] T [2, 3] V-A V-T [2] V-T [5] V-T [6] A-T V-A-T V
*
-A
*
-T
*
1. Apple 0.4625 0.4875 0.4375 0.5375 0.5500 0.4375 0.5000 0.4500 0.6000 0.7250
2. Aston 0.4268 0.5610 0.4512 0.5976 0.5122 0.4634 0.4756 0.5488 0.6341 0.6585
3. Cobra 0.4130 0.4239 0.4130 0.5435 0.5000 0.3913 0.4565 0.5326 0.5435 0.7303
4. Dragon 0.4390 0.5122 0.3780 0.6341 0.5976 0.5000 0.5122 0.4756 0.5854 0.6829
5. Jaguar 0.4419 0.5349 0.4651 0.6512 0.6628 0.5698 0.5930 0.6279 0.6047 0.8333
6. Java 0.7126 0.6897 0.4483 0.8621 0.8276 0.6552 0.7586 0.6437 0.9195 0.9529
7. Jupiter 0.6543 0.5802 0.4938 0.7407 0.7037 0.6049 0.6790 0.5432 0.6790 0.8462
8. Leopard 0.6316 0.5474 0.4842 0.8211 0.7474 0.6632 0.6947 0.4526 0.7895 0.9053
9. Lion 0.4270 0.4944 0.3820 0.5169 0.4831 0.4157 0.4607 0.4494 0.5056 0.7528
10. Lotus 0.4835 0.4835 0.3626 0.6703 0.6264 0.5275 0.5275 0.4176 0.6374 0.8681
11. Mustang 0.4578 0.4940 0.4096 0.6386 0.5663 0.4819 0.5060 0.5060 0.5542 0.8675
12. Ocean 0.4556 0.4778 0.4000 0.5667 0.5111 0.4667 0.5000 0.4222 0.5333 0.7444
13. Panda 0.5567 0.4124 0.3711 0.7423 0.6804 0.4948 0.6289 0.4536 0.7010 0.8041
14. Pluto 0.6706 0.6824 0.5647 0.7294 0.6941 0.6706 0.6824 0.6118 0.7059 0.8171
15. Python 0.6786 0.6235 0.4471 0.7765 0.7294 0.6471 0.7059 0.5529 0.7176 0.9294
16. Scorpion 0.6000 0.6444 0.4111 0.7111 0.6556 0.5778 0.6222 0.6333 0.6778 0.7556
17. Tiger 0.5062 0.5309 0.3827 0.6420 0.6049 0.5185 0.5556 0.5062 0.5926 0.7654
18. Venus 0.4607 0.5393 0.3483 0.6404 0.5618 0.4494 0.5393 0.5281 0.5955 0.8315
19. Viper 0.4368 0.4943 0.3908 0.6667 0.6092 0.4368 0.5057 0.4598 0.6092 0.7586
20. Zebra 0.3737 0.4242 0.3535 0.5152 0.4949 0.4040 0.4040 0.3232 0.5051 0.7857
Trung bình 0.5144 0.5319 0.4197 0.6602 0.6159 0.5188 0.5654 0.5069 0.6345 0.8007
Hình 8. Chất lượng gom cụm video được đánh giá trên toàn bộ các truy vấn qua các phương pháp
thực nghiệm
Kết quả thí nghiệm thể hiện ở Hình 9 bao gồm 5
cụm video liên quan đến truy vấn “Leopard”. Cụm 1
bao gồm những video liên quan đến động vật (con
báo). Cụm 2 bao gồm những video liên quan đến xe
tăng. Cụm 3 bao gồm những video liên quan đến hệ
điều hành máy tính (hệ điều hành Snow Leopard của
hãng Apple). Cụm 4 bao gồm những video liên quan
đến nghệ thuật vẽ móng tay và cụm 5 bao gồm những
video liên quan đến bánh ngọt. Thông qua kết quả
gom cụm video trực quan, người dùng có thể xác định
được những video mà họ quan tâm một cách dễ dàng
hơn.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-93-
Hình 9. Ứng dụng web gom cụm kết quả tìm kiếm video ứng với truy vấn “Leopard”
Giả định rằng với truy vấn “Leopard”, người dùng
muốn tìm kiếm những video liên quan đến xe tăng
nhưng hầu hết các kết quả tìm kiếm video trả về liên
quan đến động vật, hệ điều hành máy tính và những
chủ đề khác. Khi đó, việc gom cụm kết quả tìm kiếm
video theo các chủ đề riêng biệt sẽ giúp người dùng
định hướng tìm kiếm một cách nhanh chóng.
IV. KẾT LUẬN
Trên cơ sở phân tích đặc điểm các đặc trưng của dữ
liệu video, chúng tôi đã đề xuất các giải pháp kết hợp
nhằm tìm ra bộ đặc trưng phù hợp giúp nâng cao chất
lượng gom cụm kết quả tìm kiếm video trên các kênh
video trực tuyến. Kết quả thực nghiệm cho thấy rằng
việc sử dụng bộ đặc trưng bao gồm đặc trưng thị giác,
âm thanh và thông tin văn bản đi kèm video đã làm
tăng hiệu quả cải thiện chất lượng gom cụm video.
Bằng thực nghiệm chúng tôi đã đề xuất được bộ trọng
số phù hợp cho các đặc trưng.
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 16 (36), tháng 12/2016
-94-
Về mặt thực tiễn, chúng tôi bước đầu xây dựng một
ứng dụng web thử nghiệm tìm kiếm video với chức
năng gom cụm kết quả trả về. Với chức năng này,
danh sách video trả về sẽ được gom theo từng cụm
với từng chủ đề nhằm giúp người dùng có thể xác định
video cần tìm một cách nhanh chóng thay vì phải quệt
qua một danh sách phẳng các video thuộc nhiều chủ
đề được trộn lẫn với nhau.
Trong tương lai, bằng cách dịch và so sánh các
thông tin văn bản đi kèm video với các ngôn ngữ khác
nhau, chúng tôi hy vọng có thể gom cụm các video có
nội dung tương tự mặc dù thông tin văn bản đi kèm có
thể được thể hiện bởi một ngôn ngữ khác với truy vấn.
TÀI LIỆU THAM KHẢO
[1] NGUYỄN QUANG PHÚC, NGUYỄN HOÀNG TÚ
ANH, NGÔ ĐỨC THÀNH, LÊ ĐÌNH DUY, “Gom cụm
dữ liệu web video theo hướng tiếp cận early fusion cho
đặc trưng văn bản”, Kỷ yếu Hội nghị Khoa học Quốc
gia lần thứ 7 về Nghiên cứu cơ bản & ứng dụng Công
nghệ thông tin (FAIR), tr. 145-152, 2014.
[2] PHUC QUANG NGUYEN, ANH-THU NGUYEN-
THI, THANH DUC NGO, TU-ANH HOANG
NGUYEN, “Using Textual Semantic Similarity to
Improve Clustering Quality of Web Video Search
Results”, Proceedings of the 7th International Con-
ference on Knowledge and Systems Engineering (KSE),
pp. 156-161, 2015.
[3] NGUYỄN QUANG PHÚC, NGUYỄN THỊ ANH THƯ,
NGÔ ĐỨC THÀNH, LÊ ĐÌNH DUY, NGUYỄN
HOÀNG TÚ ANH, “Nâng cao chất lượng gom cụm kết
quả tìm kiếm video sử dụng kết hợp đặc trưng âm thanh,
đặc trưng thị giác và thông tin văn bản”, Kỷ yếu Hội
thảo Quốc gia về Điện tử, Truyền thông và Công nghệ
thông tin (REV-ECIT), tr. 130-135, 2015.
[4] S. LIU, M. ZHU, Q. ZHENG, “Mining similarities for
clustering web video clips”, CSSE (4), pp. 759-762,
2008.
[5] A. HINDLE, J. SHAO, D. LIN, J. LU, R. ZHANG,
“Clustering Web Video Search Results Based on
Integration of Multiple Features”, WWW, pp. 53-73,
2011.
[6] H. HUANG, Y. LU, F. ZHANG, S. SUN, “A Multi-
modal Clustering Method for Web Videos”, Trustworthy
Computing and Services, pp. 163-169, 2013.
[7] D. G. LOWE, “Distinctive Image Features from Scale-
Invariant Keypoints”, International Journal of Computer
Vision, 60(2), pp. 91-110, 2004.
[8] D. G. LOWE, “Object Recognition from Local Scale-
Invariant Features”, International Conference on
Computer Vision, vol. 2, pp. 1150-1157, 1999.
[9] U. SRINIVASAN, S. PFEIFFER, S. NEPAL, M. LEE,
L. GU, S. BARRASS, “A Survey of Mpeg-1 Audio,
Video and Semantic Analysis Techniques”, Multimedia
Tools and Applications, 27(1), pp. 105-141, 2005.
[10] Y. H. LI, Z. BANDAR, D. MCLEAN, “An approach
for measuring semantic similarity using multiple infor-
mation sources”, IEEE Transactions on Knowledge and
Data Engineering, 15(4), pp. 871-882, 2003.
Nhận bài ngày: 16/03/2016
SƠ LƢỢC VỀ TÁC GIẢ
NGUYỄN QUANG PHÚC
Tốt nghiệp cử nhân tại Trường
ĐH Sư phạm TP. HCM, chuyên
ngành Sư phạm Tin học năm
2012.
Hiện đang là học viên cao học của
Trường ĐH Công nghệ thông tin,
ĐH Quốc gia TP. HCM chuyên
ngành Khoa học máy tính.
Hướng nghiên cứu: khai thác dữ liệu đa phương tiện,
thị giác máy tính và máy học.
Email: phucnq@uit.edu.vn

File đính kèm:

gom_cum_ket_qua_tim_kiem_video_voi_huong_tiep_can_ket_hop_da.pdf