Nghiên cứu các kỹ thuật khai phá mẫu dãy cho dữ liệu dãy
Khai phá mẫu dãy là một nội dung quan trọng trong khai phá dữ liệu với nhiều ứng dụng rộng rãi
như phân tích thị trường, phân tích mẫu truy cập web, phát hiện xâm nhập trong môi trường mạng,
trong nghiên cứu DNA, dự đoán nhu cầu mua sắm của khách hàng, Khai phá mẫu dãy là việc
phát hiện các dãy con phổ biến trong cơ sở dữ liệu dãy. Kể từ khi được đề xuất bởi Agrawal và
Srikant đến nay bài toán này đã thu hút được nhiều nghiên cứu và có nhiều kỹ thuật được đề xuất.
Đầu tiên là thuật toán dựa trên nguyên lý Apriori, sau đó là các thuật toán mở rộng được phát triển
cho các ứng dụng phức tạp. Bài báo giới thiệu và phân tích các kỹ thuật bằng cách phân loại các
kỹ thuật theo hai nhóm tiếp cận chính: phương pháp tiếp cận dựa trên Apriori và phương pháp tiến
cận phát triển mẫu. Trong bài báo cũng phân tích mở rộng các kỹ thuật khác nhau dựa trên các đặc
tính quan trọng và thảo luận một số tồn tại đang được tập trung nghiên cứu.
Tóm tắt nội dung tài liệu: Nghiên cứu các kỹ thuật khai phá mẫu dãy cho dữ liệu dãy
Quách Xuân Trưởng và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 118(04): 125 - 131 125 NGHIÊN CỨU CÁC KỸ THUẬT KHAI PHÁ MẪU DÃY CHO DỮ LIỆU DÃY Quách Xuân Trưởng*, Nguyễn Văn Sự, Đinh Đức Hoàng Trường ĐH Công nghệ Thông tin và Truyền thông – ĐH Thái Nguyên TÓM TẮT Khai phá mẫu dãy là một nội dung quan trọng trong khai phá dữ liệu với nhiều ứng dụng rộng rãi như phân tích thị trường, phân tích mẫu truy cập web, phát hiện xâm nhập trong môi trường mạng, trong nghiên cứu DNA, dự đoán nhu cầu mua sắm của khách hàng, Khai phá mẫu dãy là việc phát hiện các dãy con phổ biến trong cơ sở dữ liệu dãy. Kể từ khi được đề xuất bởi Agrawal và Srikant đến nay bài toán này đã thu hút được nhiều nghiên cứu và có nhiều kỹ thuật được đề xuất. Đầu tiên là thuật toán dựa trên nguyên lý Apriori, sau đó là các thuật toán mở rộng được phát triển cho các ứng dụng phức tạp. Bài báo giới thiệu và phân tích các kỹ thuật bằng cách phân loại các kỹ thuật theo hai nhóm tiếp cận chính: phương pháp tiếp cận dựa trên Apriori và phương pháp tiến cận phát triển mẫu. Trong bài báo cũng phân tích mở rộng các kỹ thuật khác nhau dựa trên các đặc tính quan trọng và thảo luận một số tồn tại đang được tập trung nghiên cứu. Từ khóa: Cơ sở dữ liệu dãy, khai phá mẫu dãy, phát triển mẫu, apriori, phân tích mẫu. GIỚI THIỆU* Khai phá mẫu dãy là phương pháp tìm kiếm các mẫu dãy có ích từ trong cơ sở dữ liệu lớn, nó phát hiện ra các dãy con phổ biến từ cơ sở dữ liệu dãy. Đây là một chủ đề thiết thực và quan trọng trong khai phá dữ liệu với nhiều ứng dụng như phân tích giao dịch mua bán của khách hàng, phân tích web-log, khai thác các dãy DNA, các dự báo khí tượng thủy văn hay phân tích các dữ liệu y học [12][13][14]. Khai phá mẫu dãy là xác định những mẫu mà sự xuất hiện của chúng trong cơ sở dữ liệu thỏa mãn mức hỗ trợ tối thiểu nào đó do người dùng định nghĩa. Với số lượng các mẫu có thể là rất lớn và với các yêu cầu và lợi ích khác nhau, bằng cách sử dụng ngưỡng tối thiểu thì các mẫu không thỏa mãn ngưỡng tối thiểu được xem là không có ý nghĩa và không cần xem xét đến làm cho quá trình khai phá sẽ hiệu quả hơn. MỘT SỐ KHÁI NIỆM CƠ BẢN Cho một tập I={i1, i2, ., im} gồm m phần tử và gọi là các item. Mỗi phần tử được kết hợp với một tập thuộc tính như giá trị, giá cả, lợi nhuận, thời gian, giá trị trong thuộc tính A của phần tử i được kí hiệu bằng i.A. Một itemset là một tập con không rỗng các item và một itemset có lực lượng là k được gọi là k- itemset. * Tel: 0989090832; Email: qxtruong@ictu.edu.vn Một dãy S= là một danh sách có thứ tự những itemset. Mỗi si (1≤i≤n) là một itemset, n là số lượng itemset. Kính thước của dãy bằng số lượng itemset có trong dãy. Chiều dài của dãy là tổng số item có trong dãy kí hiệu là 1 n j j l s = =∑ . Dãy có chiều dài k còn gọi là k-sequence, ví dụ: S= là một 3-sequence có kính thước là 2. Chuỗi β= được gọi là dãy con của dãy ∝= hay chuỗi ∝ là dãy cha của dãy β, kĩ hiệu là β⊆∝, nếu tồn tại những số nguyên 1≤j1<j2<<jn<m sao cho b1⊆aj1, b2⊆aj2, , bm⊆ajm. Một cơ sở dữ liệu dãy là một tập hợp các bộ dữ liệu có dạng (sid, s), trong đó sid là định danh của dãy và s là dãy các itemset. Cho một cơ sở dữ liệu dãy D, độ hỗ trợ tuyệt đối của một mẫu tuần tự f là tổng số dãy trong D có chứa f, kí hiệu là supD(f)=|{Si∈D|f⊆Si}|. Độ hỗ trợ tương đối của f là tỉ lệ phần trăm dãy trong D chứa f. Ở đây, mức hỗ trợ tuyệt đối hoặc tương đối sẽ được sử dụng chuyển đổi qua lại, ký hiệu là sup(f). Như vậy vấn đề khai phá mẫu dãy là đi tìm tập toàn bộ các mẫu đối với một cơ sở dữ liệu dãy với một độ hỗ trợ tối thiểu min_sup cho trước. Một mẫu f được coi là phổ biến nếu độ hỗ trợ của nó lớn hơn hoặc bằng min_sup: sup(f)≥min_sup, khi đó f được gọi là mẫu dãy [12]. Quách Xuân Trưởng và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 118(04): 125 - 131 126 CÁC PHƯƠNG PHÁP KHAI PHÁ MẪU DÃY Phát hiện các mẫu dãy phổ biến có thể được xem như là việc phát hiện luật kết hợp trên cơ sở dữ liệu thời gian. Các thuật toán khai phá mẫu dãy kế thừa nhiều từ các thuật toán khai phá luật kết hợp, trong đó sự khác biệt chính là trong khai phá mẫu dãy tìm kiếm các mẫu dãy liên tục (trong nhiều giao dịch) mà ở đó thứ tự của các item và itemset là rất quan trọng, trong khi luật kết hợp chỉ tìm kiếm các mẫu nội bộ (trong một giao dịch). Theo các nghiên cứu, các thuật toán khai phá mẫu dãy chủ yếu tập trung vào hai nội dung sau: (1) Cách thức mà dãy ứng viên được sinh ra và lưu trữ. Các thuật toán có thể có các cách khác nhau với mục tiêu là giảm thiểu số lượng dãy ứng viên để giảm chi phí I/O. (2) Cách mà độ hỗ trợ được tính và tần xuất dãy ứng viên được kiểm tra. Dựa vào các tiêu chí trên, thuật toán khai phá mẫu dãy có thể được nhóm thành hai hướng tiếp cận chính: thuật toán dựa trên Apriorri, thuật toán phát triển mẫu. Phương pháp tiếp cận dựa trên Apriori Nguyên lý Apriori ứng dụng cho dãy là nếu một dãy S không phải là dãy phổ biến thì mọi dãy cha của S cũng không phải là dãy phổ biến. Các thuật toán này dựa vào nguyên lý apriori để sinh và kiểm tra các dãy ứng viên, trong đó nếu một dãy được kiểm tra không thỏa mãn ngưỡng tối thiểu thì các dãy chứa nó cũng sẽ bị loại. Có một số thuật toán theo phương pháp tiếp cận dựa trên Apriori như AprioriAll, GSP, SPADE, SPAM... và các biến thể của chúng. (1) Thuật toán GSP: Cấu trúc cơ bản của thuật toán GSP [14] là thuật toán duyệt dữ liệu nhiều lần, lần duyệt đầu tiên xác định độ hỗ trợ của từng item. Kết thúc lần duyệt đầu tiên, thuật toán đưa ra được tập các 1-sequence phổ biến gọi là tập khởi đầu. Tập khởi đầu được sử dụng để sinh ra các dãy ứng viên mới với mỗi dãy ứng viên có ít nhất một item thuộc dãy khởi đầu, vì thế tất cả các dãy ứng viên trong một lần duyệt sẽ có cùng số item. Độ hỗ trợ của các dãy ứng viên này được tìm thấy trong quá trình duyệt dữ liệu. Kết thúc lần duyệt, thuật toán xác định các dãy ứng viên phổ biến và những dãy ứng viên phổ biến này trở thành tập khởi đầu cho lần duyệt tiếp theo. Thuật toán kết thúc khi không tìm được dãy ứng viên nào cuối lần duyệt, hoặc khi không có dãy ứng viên nào được sinh ra. Hình 1. Sinh các ứng viên và mẫu dẫy trong GSP (2) Thuật toán SPADE: thuật toán SPADE [17] tổ chức dữ liệu theo chiều dọc, trong đó ứng với mỗi item sẽ lưu danh sách định danh của các dãy dữ liệu và định danh của các itemset có chứa item đó. Độ hỗ trợ của item được tính trực tiếp từ danh sách các định danh. Mặt khác, SPADE còn dựa trên lý thuyết dàn để chia nhỏ không gian tìm kiếm và thao tác nối đơn giản để sinh ra tập các ứng viên. Thuật toán này gom nhóm các mẫu dãy dựa theo tiền tố thành các lớp tương đương. Thuật toán chỉ duyệt cơ sở dữ liệu ba lần: lần nhứ nhất và thứ hai thực hiện tìm các mẫu dãy có độ dài 1 và 2. Ở lần duyệt thứ ba, thuật toán phát triển mẫu độ dài k từ hai mẫu độ dài (k-1) có (k-2) item đầu giống nhau, tiến hành duyệt trên từng lớp tương đương do đó thuật toán giảm được khá nhiều chi phí tính toán và sử dụng bộ nhớ hiệu quả hơn; tuy nhiên thuật toán cũng cần một lượng thời gian để chuyển đổi một cơ sở dữ liệu theo chiều ngang sang định dạng theo chiều dọc. Hình 2. Tổ chức dữ liệu và chia nhỏ không gian tìm kiếm trong SPADE Quách Xuân Trưởng và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 118(04): 125 - 131 127 (3) Thuật toán SPAM: thuật toán SPAM [3] kết hợp các giải pháp của các thuật toán GSP, SPADE, FreeSpan. Tương tự như SPADE, thuật toán này cũng tổ chức dữ liệu theo chiều dọc, thông tin của các mẫu ứng viên được biểu diễn dưới dạng bảng bit dọc, mỗi bit ứng với một itemset của một dãy trong cơ sở dữ liệu. Nếu item có mặt trong itemset j thì bit tương ứng được đánh dấu là 1, ngược lại là 0. Độ hỗ trợ của mẫu được xác định dựa trên bảng bit. SPAM sử dụng phương pháp duyệt cây theo chiều sâu để sinh các ứng viên và nguyên tắc apriori để tỉa các ứng viên nhằm giảm không gian tìm kiếm. Thuật toán này hiệu quả đối với các cơ sở dữ liệu lớn vì tổ chức và lưu trữ dữ liệu dưới dạng bit nên thao tác sinh ứng viên và đếm độ hỗ trợ rất hiệu quả. Hình 3. Biến đổi dữ liệu sang dạng nhị phân dọc trong SPAM Các thuật toán theo phương pháp tiện cận dựa Apriori về cốt lõi dựa trên các đặc điểm chính sau [10]: - Tìm kiếm theo chiều rộng: Khi thuật toán xây dựng tập tất cả các dãy k-sequence trong mỗi lần lặp thứ k, thuật toán duyệt qua toàn bộ không gian tìm kiếm - Sinh và kiểm tra ứng viên: Thuật toán sử dụng phương pháp tạo và tỉa các ứng viên, tuy nhiên phương pháp tạo ứng viên sinh ra một lượng lớn các dãy ứng viên và việc kiểm tra từng ứng viên thoả mãn ngưỡng cho phép làm tiêu tốn nhiều bộ nhớ trong giai đoạn đầu của quá trình. - Duyệt cơ sở dữ liệu nhiều lần: Cơ sở dữ liệu gốc sẽ được duyệt lặp lại nhiều lần để kiểm tra các ứng viên được tạo ra có phổ biến hay không. Đây là điểm hạn chế của hầu hết các phương pháp dựa trên apriori vì nó đòi hỏi nhiều thời gian xử lý và chi phí I/O. Phương pháp tiếp cận phát triển mẫu Ý tưởng chính của phương pháp tiếp cận hướng phát triển mẫu là để tránh việc sinh toàn bộ các ứng viên và tập chung vào tìm kiếm trên một phần được hạn chế trên cơ sở dữ liệu ban đầu, việc phân vùng không gian tìm kiếm là nội dung quan trọng trong hướng tiếp cận này. Các thuật toán phát triển mẫu là các thuật toán duyệt theo chiều sâu, kỹ thuật này tạo ra cơ sở dữ liệu quy chiếu cho mỗi mẫu có chiều dài k và lặp lại quá trình để tìm kiếm mẫu có chiều dài k+1. Hướng tiếp cận này sử dụng kỹ thuật chia để trị, việc tạo cơ sở dữ liệu quy chiếu là một giải pháp nhằm làm giảm không gian tìm kiếm. Có một số thuật toán theo phương pháp tiếp cận như FreeSpan, PrefixSpan, Wap-mine, Prism... và các biến thể của chúng (1) Thuật toán FreeSpan, PrefixSpan: Tiếp cận theo hướng chia nhỏ dữ liệu, FreSpan[6] là thuật toán đầu tiên thực hiện phép chiếu trên cơ sở dữ liệu để giảm chi phí dữ liệu. Sau đó, thuật toán này được phát triển thành PrefixSpan [11]. Xuất phát từ tập mẫu dãy có độ dài 1, PrefixSpan tạo ra cơ sở dữ liệu được chiếu với mỗi mẫu đó. Trong cơ sở dữ liệu quy chiếu, mỗi dãy dữ liệu chỉ giữ lại phần hậu tố, đối với tiền tố đã chiếu, mẫu được phát triển bởi những item phổ biến tìm được trong cơ sở dữ liệu được chiếu, quá trình này lặp đi lặp lại cho đến khi cơ sở dữ liệu chiếu không còn item phổ biến nào. Tuy nhiên khi phát triển mẫu cả FreeSpan, PrefixSpan đều phải thực hiện chiếu cơ sở dữ liệu và duyệt cơ sở dữ liệu quy chiếu để tìm item phổ biến. Hình 4. Xây dựng cơ sở dữ liệu quy chiếu trong PrefixSpan Quách Xuân Trưởng và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 118(04): 125 - 131 128 (2) Thuật toán Wap-mine: Wap-mine [7] sử dụng kỹ thuật cấu trúc cây WAP-tree, trong kỹ thuật này cơ sở dữ liệu được duyệt hai lần để xây dựng cây WAP-tree từ các dãy phổ biến cùng với độ hỗ trợ của chúng. Một bảng được gọi là “header table” được sử dụng để chỉ sự xuất hiện lần đầu của item trong các tập phổ biến, nó được sử dụng để theo dõi các luồng trong khai phá cây. Wap-mine có hiệu quả trong việc hạn chế sinh các ứng viên, tuy nhiên lại phát sinh vấn đề tiêu thụ bộ nhớ do việc xây dựng lặp lại nhiều cây WAP-tree trung gian. Hình 5. Khai phá cây WAP – tree trong thuật toán WAP – Mine (3) Thuật toán Prism: Thuật toán Prism [2] sử dụng phương pháp mã hóa nguyên tố để biểu diễn thông tin của mẫu ứng viên và sử dụng cấu trúc dữ liệu cây từ điển để lưu trữ các mẫu dãy tuần tự. Thuật toán chỉ duyệt cơ sở dữ liệu đúng một lần để tìm tập mẫu dãy tuần tự có độ dài 1 cùng với khối mã hóa thông tin tương ứng cho các mẫu đó. Sau đó, phát triển mẫu bằng cách thêm vào mẫu một item phổ biến. Thông tin của mẫu mới được xác định dựa trên khối mã hóa của mẫu cũ và của item thêm vào, độ hỗ trợ của các ứng viên được xác định trực tiếp từ khối mã hóa nguyên tố. Như vậy, thuật toán Prism không phải duyệt cơ sở dữ liệu nhiều lần, đồng thời thuật toán làm giảm chi phí tính toán bằng cách sử dụng bảng tra cho khối mã hóa thông tin dựa trên lý thuyết mã hóa nguyên tố. Các thuật toán theo phương pháp tiện cận phát triển mẫu về cốt lõi dựa trên các đặc điểm chính sau [5]: - Phân vùng không gian tìm kiếm: Giải pháp cho phép phân vùng không gian tìm kiếm trong trường hợp số lượng lớn các dãy ứng viên được sinh ra giúp cho việc quản lý bộ nhớ hiệu quả hơn. Sau khi phân vùng không gian tìm kiếm, các phân vùng nhỏ có thể được khai phá song song. Hình 6. Không gian tìm kiếm mẫu dãy và mã hóa nguyên tố cho mẫu mở rộng trong Prism - Cây quy chiếu: Các thuật toán sử dụng cấu trúc dữ liệu cây để biểu diễn không gian tìm kiếm và sau đó sử dụng phương pháp duyệt theo chiều rộng hoặc duyệt theo chiều sâu để tìm kiếm các dãy phổ biến và tỉa các ứng viên dựa trên nguyên lý Apriori. - Duyệt theo theo chiều sâu: kỹ thuật duyệt cây theo chiều sâu được xem là một trong những tính chất quan trọng trong các thuật toán sử dựng mô hình cây. Theo một số nghiên cứu [2][15][1][4] nó được đánh giá cao và thực hiện rất hiệu quả vì sử dụng ít bộ nhớ hơn và định hướng không gian tìm kiếm do đó tạo ra số lượng ứng viên ít hơn kỹ thuật duyệt theo chiều rộng. - Tỉa các dãy ứng viên: Giải pháp tỉa trước các dãy ứng viên giúp việc biểu diễn không gian tìm kiếm nhỏ hơn và duy trì một thủ tục tìm kiếm có hướng và phạm vi hẹp hơn. Phần lớn các thuật toán này sử dụng kỹ thuật tìm kiếm theo chiều sâu và ứng dụng tính chất phản đơn điệu của nguyên lý Apriori. CÁC HẠN CHẾ VÀ MỘT SỐ VẤN ĐỀ MỞ RỘNG Thông qua một số vấn đề thảo luận ở trên, có rất nhiều các kỹ thuật hiệu quả và các biến thể của chúng được đề xuất, cung cấp cho chúng ta các giải pháp hiệu quả trong nhiều trường hợp. Tuy nhiên các kỹ thuật này vẫn còn một số hạn chế mà đến nay vẫn đang là những trở ngại và thách thức trong quá trình thực hiện khai phá mẫu dãy: Quách Xuân Trưởng và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 118(04): 125 - 131 129 - Các thuật toán theo hướng tiếp cận dựa trên Apriori, với cơ sở dữ liệu dãy lớn nó sẽ tạo ra một lượng rất lớn các ứng viên. Mặt khác, trong quá trình khai phá kỹ thuật này đòi hỏi phải duyệt cơ sở dữ liệu gốc nhiều lần. - Trong hướng tiếp cận phát triển mẫu, chi phí chủ yếu của các kỹ thuật này là việc xây dựng cơ sở dữ liệu quy chiếu. Trong trường hợp xấu nhất, chúng ta phải xây dựng cơ sở dữ liệu quy chiếu cho mọi mẫu, với số lượng mẫu lớn thì chi phí này là không tầm thường. - Trong quá trình khai phá có thể tạo ra lượng lớn các mẫu dãy phổ biến, nhưng người sử dụng chỉ quan tâm một lượng nhỏ các mẫu có ích trong đó phù hợp với mục tiêu sử dụng, việc biểu diễn toàn bộ các mẫu gây khó khăn cho việc sử dụng. - Khó khăn trong quá trình khai phá các mẫu dãy dài bởi vì các mẫu này phải được phát triển từ một lượng lớn các mẫu ngắn, vì thế số lượng các ứng viên được sinh ra sẽ là cấp số nhân. Khai phá mẫu dãy đã được tập chung nghiên cứu mạnh mẽ trong những năm gần đây. Với các mục đích ứng dụng khác nhau tạo ra một lượng lớn sự đa dạng các thuật toán khai phá mẫu dãy, nhiều phần mở rộng của các định nghĩa ban đầu được đề xuất cho các mục đích đặc biệt như khai phá dãy mẫu với những rành buộc, mẫu dãy đóng, đa chiều, gia tăng Khai phá mẫu dãy đa chiều Mẫu dãy đơn chiều là chúng ta chỉ xem xét một thuộc tính cùng với các nhãn thời gian trong quá trình khai phá. Trong khi đó, với mẫu dãy đa chiều chúng ta có thể xem xét nhiều thuộc tính cùng một lúc. Khai phá mẫu dãy tuần tự đa chiều được giới thiệu bởi Helen Pinto và JiaweiHan [8] có thể cung cấp cho chúng ta các mẫu hữu ích và mang nhiều thông tin hơn. Khai phá mẫu dãy đóng Các thuật toán khai phá mẫu dãy được phát triển cho đến nay có hiệu suất tốt trong cơ sở dữ liệu có chứa các dãy phổ biến ngắn. Tuy nhiên, khi khai thác các dãy phổ biến dài, hoặc khi sử dụng ngưỡng hỗ trợ rất thấp, hiệu suất của các thuật toán trên thường giảm đáng kể. Ví dụ cơ sở dữ liệu chỉ chứa một dãy phổ biến , nó sẽ tạo ra 2100-1 dãy phổ biến nếu ngưỡng tối thiểu là 1, mặc dù tất cả các dãy phổ biến này ngoại trừ dãy dài nhất là không cần thiết. Vì vậy, một giải pháp đề xuất thay vì khai thác tập toàn bộ các mẫu dãy phổ biến, chúng ta chỉ khai thác dãy phổ biến đóng, nghĩa là chỉ lấy tập các mẫu dãy phổ biến mà chúng không được chứa dãy phổ biến khác có cùng độ hỗ trợ [15][16]. Kỹ thuật này sẽ tạo ra một số lượng dãy ít hơn đáng kể so với dãy kỹ thuật truyền thống trong khi vẫn giữ được tính hiệu quả. Khai phá mẫu dãy dựa vào các ràng buộc Mặc dù hiệu quả của việc khai phá tập toàn bộ các mẫu dãy đã được cải thiện đáng kể dựa trên nhiều kỹ thuật được đề xuất. Tuy nhiên, trong nhiều trường hợp khai phá mẫu dãy vẫn phải đối mặt với các thách thức trong cả hai vấn đề hiệu suất và tính hiệu quả. Mặt khác, trong số lượng lớn các mẫu dãy, người sử dụng có thể chỉ quan tâm đến một nhóm nhỏ các mẫu trong đó. Nếu biểu diễn toàn bộ các mẫu có thể làm cho kết quả khó hiểu và khó sử dụng. Để khắc phục vấn đề này Jian Pei, JiaweiHan, Weiwang [5] đã giới thiệu hệ thống các ràng buộc được đưa vào phương pháp phát triển mẫu để khai phá mẫu dãy. Những ràng buộc này có thể được xem như những bộ lọc được áp dụng cho việc trích xuất các mẫu dãy. Khai phá mẫu dựa vào ràng buộc có thể vượt qua những khó khăn về hiệu suất và tính hiệu quả khi tập trung khai phá các mẫu dựa vào các ràng buộc phù hợp với lợi ích người sử dụng, hạn chế số lượng các mẫu tìm được trong một tập con đáp ứng các điều kiện mạnh. Khai phá mẫu dãy gia tăng Các thuật toán khai khá dữ liệu có độ phức tạp tính toán cao, do đó nếu sử dụng các giải pháp truyền thống thì khi thêm bản ghi dữ liệu mới phải khai phá lại từ đầu sẽ tiêu tốn một lượng thời gian lớn. Vì thế, có một hướng tiếp cận mới cho nội dung này gọi là khai phá mẫu dãy gia tăng. Ý tưởng chính của hướng tiếp cận này là khi thêm một lượng dữ liệu vào cơ sở dữ liệu thì phần dữ liệu gia tăng này được duyệt qua và kết hợp với các Quách Xuân Trưởng và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 118(04): 125 - 131 130 mẫu dãy phổ biến đã được phát hiện trong lần khai phá trước nhằm xác định các thành phần của cơ sở dữ liệu ban đầu cần duyệt lại. Do vậy không cần phải duyệt lại toàn bộ cơ sở dữ liệu gốc. Một số thuật toán khai phá mẫu dãy gia tăng [5] được phát triển dựa trên các thuật toán GSP, SPADE và một số thuật toán mới được đề xuất như IUS, ISE, KISP. KẾT LUẬN Hiện nay, khai phá mẫu dãy có vai trò quan trọng. Nó hỗ trợ hiệu quả trong việc tìm kiếm các mối quan hệ giữa các dữ liệu. Trong nội dụng bài báo này, chúng tôi đã khảo sát và tông hợp các vấn đề cơ bản về khai thác mẫu dãy và các phương pháp cơ bản được sử dụng trong khai phá mẫu dãy. Trong thực tế, dữ liệu luôn được bổ sung và cập nhật liên tục trong cơ sở dữ liệu, việc khai phá mẫu dãy phổ biến luôn được quan tâm nghiên cứu. Các thuật toán khác nhau được phát triển để khai phá mẫu dãy trong dữ liệu, chúng đã chứng minh được tính hiệu quả cho các cơ sở dữ liệu nhỏ nhưng khi kích thước của cơ sở dữ liệu liên tục tăng lên, hiệu suất của các thuật toán này có thể giảm đáng kể. Do đó các phương pháp phải được cải thiện hoặc đề xuất mới để thực hiện quá trình khai phá một cách tốt hơn. TÀI LIỆU THAM KHẢO [1]. ANTUNES, C. AND OLIVEIRA, A. L. 2004. Sequential pattern mining algorithms: Trade-offs between speed and memory. In Proceedings of the Workshop on Mining Graphs, Trees and Sequences (MGTSECML/PKDD ’04). [2]. AYRES, J., FLANNICK, J.,GEHRKE, J., AND YIU, T. 2002. Sequential pattern mining using a bitmap representation. In Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 429–435. [3]. Ayres, J., Gehrke, J.E., Yiu, T., Flannick, J. (2002), “Sequential Pattern Mining using a Bitmap Representaion”, in SIGKDD Conf., pp. 1–7. [4]. EZEIFE, C. I. AND LU, Y. 2005. Mining web log sequential patterns with position coded pre- order linked WAP-tree. Int. J. Data Mining Knowl. Discovery 10, 5–38. [5]. F. Masseglia, P. Poncelet, M. Teisseire (2000), "Incremental Mining of Sequential Patterns in Large Databases", BDA'OO, France [6]. Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C., (2000), “Freespan: Frequent pattern-projected sequential pattern mining”, in Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining (KDD’00), pp. 355–359. [7]. Han, J., Pei, J., Mortazavi-Asl, B. and Zhu, H., “Mining access patterns efficiently from web logs”, In Proceedings of the Pacific- Asia Conference on Knowledge Discovery and Data Mining (PAKDD’00) Kyoto Japan, 2000. [8]. Helen Pinto Jiawei Han Jian Pei Ke Wang, “Multidimensional Sequential Pattern Mining”, In Proc. 2001 Int. Conf. Information and Knowledge Management (CIKM’01), Atlanta, GA, Nov. 2001 pp. 81–88. [9]. Jian Pei, Jiawei Han, Wei Wang, “Constraint- based sequential pattern mining: the pattern growth methods”, J Intell Inf Syst , Vol. 28, No.2, ,2007, pp. 133 –160. [10]. NIZAR R. MABROUKEH and C. I. EZEIFE, “A Taxonomy of Sequential Pattern Mining Algorithms”, ACM Computing Surveys, Vol. 43, No. 1, Article 3, Publication date: November 2010. [11]. Pei, J., et al. (2004), “Mining Sequential Patterns by Pattern-Growth: The PrefixSpan Approach”, in: IEEE Trans. Knowledge and Data Engineering 16(10), pp. 1424–1440. [12]. Qiankun Zhao. Sourav S.Bhowmick, “Sequential Pattern Mining: A Survey”, Technical report, CAIS, Nanyang Technological University, Singgapore, No. 2003118, 2003. [13]. Rakesh Agrawal Ramakrishna Srikant, “Mining Sequential Patterns” , 11th Int. Conf. on Data Engineering, IEEE Computer Society Press, Taiwan, 1995 pp. 3-14 [14]. Srikant R. and Agrawal R., “Mining sequential patterns: Generalizations and performance improvements”, Proceedings of the 5th International Conference Extending Database Technology, 1996, 1057, 3-17. [15]. Wang, J. and Han, J. 2004. BIDE: Efficient mining of frequent closed sequences. In Proceedings of the 20th International Conference on Data Engineering. 79–90. [16]. Yan, X., Han, J., and Afshar, R. (2003), “CloSpan: Mining Closed Sequential Patterns in Large Databases”, in: Proceedings of SIAM International Conference on Data Mining [17]. Zaki, M.J. (2000), “SPADE: An Efficient Algorithm for Mining Frequent Sequences”, Machine Learning Journal 42(1/2), pp. 31–60. Quách Xuân Trường và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 118(04): 125 - 131 131 SUMMARY RESEARCHES OF SEQUENTIAL PATTERN MINING ALGORITHMS IN SEQUENTIAL DATA Quach Xuan Truong*, Nguyen Van Su, Dinh Duc Hoang College of Information Technology and Communications – TNU Sequential pattern mining is an important data mining problem with broad applications such as market analysis, web access, pattern analysis, intrusion detection in network environment, in DNA research, and predicting the shopping needs of customers. Sequential pattern mining discovers frequent subsequences as patterns in sequence database. Since introduced by Agrawaland Srikant, now, this problem has attracted a lot of researchers and there are many techniques proposed. The very first was Apriori-based algorithm, later more scalable algorithms for complex applications were developed. This paper presents and analyzes the techniques by clustering techniques in three main groups: apriori-based, pattern-growth, early-pruning. This paper also compares different techniques based on the important key features and discusses some challenges in which existing research is focused Key words: Sequential patterns, apriori based, pattern growth, Sequence database, pattern analysis. Ngày nhận bài: 13/3/2014; Ngày phản biện: 15/3/2014; Ngày duyệt đăng: 25/3/2014 Phản biện khoa học: TS. Vũ Đức Thái – Trường ĐH CNTT&TT – ĐH Thái Nguyên * Tel: 0989090832; Email: qxtruong@ictu.edu.vn
File đính kèm:
- nghien_cuu_cac_ky_thuat_khai_pha_mau_day_cho_du_lieu_day.pdf