Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng

Tóm tắt

Hiện nay, hĩnh thức thanh toán bằng thẻ tín dụng (dưới dạng thẻ vạt lý hoặc online) đang được ưa chuộng. Đi cùng với sự nở rộ của hĩnh thức thanh toán này là các loại tội phạm về gian lận và lừa đảo trong thanh toán thẻ. Các ngân hàng cần phải xây dựng các hệ thống phòng ngừa và kiếm tra gian lận trong moi giao dịch. Khai phá dữ liệu là một trong những kỹ thuật được ứng dụng trong các hệ thông này Bài báo trĩnh bày một số thuật toán trong khai phá được đánh giá là hiệu quả nhât trong các hệ thông phát hiện gian lận giao dịch thẻ tín dụng.

 

doc 5 trang phuongnguyen 9800
Bạn đang xem tài liệu "Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng

Một số thuật toán ứng dụng trong phát hiện gian lận thanh toán thẻ tín dụng
MỘT SỐ THUẬT TOÁN ỨNG DỤNG TRONG PHÁT HIÊN
GIAN LẬN THANH TOÁN THẺ TÍN DỤNG
Nguyễn Thị Hồng Loan
Trường Đại học Tài nguyên và Môi trường Hà Nội
Tóm tắt
Hiện nay, hĩnh thức thanh toán bằng thẻ tín dụng (dưới dạng thẻ vạt lý hoặc online) đang được ưa chuộng. Đi cùng với sự nở rộ của hĩnh thức thanh toán này là các loại tội phạm về gian lận và lừa đảo trong thanh toán thẻ. Các ngân hàng cần phải xây dựng các hệ thống phòng ngừa và kiếm tra gian lận trong moi giao dịch. Khai phá dữ liệu là một trong những kỹ thuật được ứng dụng trong các hệ thông này Bài báo trĩnh bày một số thuật toán trong khai phá được đánh giá là hiệu quả nhât trong các hệ thông phát hiện gian lận giao dịch thẻ tín dụng.
Từ khoá: Phát hiện gian lận; Khai phá dữ liệu
Abstract
Some algorithms applied in credit card fraud detection
In recent years, credit card transactions including physical credit card payment and online payment are increasingly used in many countries in the world. This convenience payment method attracts more and more crimes, especially credit card frauds. Consequently many banks in the world have developed systems that prevent and detect fraudfor each credit card transaction. Data mining is one of techniques applied in these systems. This paper analyses some popular algorithms used in detecting credit card fraud systems.
Keywords: Fraud detection; Data mining
Giói thiệu
Các hình thức thanh toán của ngân hàng ngày càng đa dạng và thay đoi theo xu hướng phát trien của công nghệ. Cụ thê, hâu hêt các ngân hàng ở Việt Nam đã cho phép khách hàng thanh toán trực tuyến thông qua dịch vụ ngân hàng điện tử hoặc qua thẻ tín dụng. Trong đó, thẻ tín dụng được coi là phương thức thanh toán ngày càng pho biến và tiện lợi. Theo Nilson Report, số lượng giao dịch bằng thẻ tín dụng trên toàn thế giới ngày càng tăng, đến năm 2016 có đến 257,17 tỷ giao dịch liên quan đến thẻ tín dụng [ 1]. Chính vì khách hàng ngày càng ưa chuộng hình thức thanh toán qua thẻ tín dụng nên số vụ lừa đảo, gian lận liên quan đến loại hình thanh toán này có xu hướng tăng. Theo số liệu của Nilson, năm 2015 cả the giới bị mất 28,8 tỉ đô la do các lừa đảo hoặc gian lận về thẻ tín dụng. Trong đó số vụ gian lận ở Châu Á Thái Bình dương là lớn nhất [2]. Tuy nhiên, một vài năm trở lại đây, các vụ gian lận về thanh toán thẻ tín dụng đã hạn chế một cách đáng ke. Đe làm được điều đó, các ngân hàng đã phải xây dựng các hệ thống ngăn ngừa và phát hiện gian lận trong các giao dịch, trong đó có giao dịch thẻ tín dụng. Hệ thống này hoạt động theo quy tắc chung: 1) lưu trữ thông tin giao dịch qua thẻ của khách hàng; 2) phân tích dữ liệu giao dịch và khoanh vùng phạm vi sử dụng thẻ; 3) khi một giao dịch được tiến hành, hệ thống dựa vào dữ liệu trong quá khứ đe phỏng đoán xem giao dịch có gì bất thường không, từ đó đưa ra các cảnh báo cần thiết.
Các nhà nghiên cứu đã đưa ra nhiều kỹ thuật đe phát hiện gian lận trong thanh toán thẻ tín dụng như: phát hiện gian lận dựa vào cây quyết định; sử dụng mạng Nơ ron đe phán đoán các giao dịch bất thường; dựa vào cây quyết định đe phán đoán email giả mạo;... Trong bài báo này, tác giả tập trung phân tích và giớithiệu các thuật toán khai phá đuợc đánh giá là hiệu quả nhất.
Khai phá dữ liệu và phát hiện gian lận
Khai phá dữ liệu là quá trình tính toán đe tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phuơng pháp tại giao điếm của máy học, thống kê và các hệ thống cơ sở dữ liệu [3]. Ngân hàng là một trong những ngành có thê áp dụng rất tốt các kỹ thuật khai phá dữ liệu, bởi ngân hàng sở hữu luợng dữ liệu không lô vê các giao dịch cũng nhu thông tin liên quan đến hoạt động tiền tệ khác. Các công cụ khai phá dữ liệu hoạt động băng cách thu thập dữ liệu từ nhiều nguồn, sau đó phân tích và đua ra các mẫu đe từ đó hiếu ý nghĩa của dữ liệu, đồng thời giúp nhân viên ngân hàng đua ra quyết định.
Đe xác định gian lận cần phải tiến hành qua hai buớc:
Bước 1. Ngân hàng thu thập các thông tin về chủ thẻ cũng nhu các giao dịch mà họ đã thực hiện đe lập hồ sơ khách hàng.
Bước 2. Thực hiện các kỹ thuật khai phá dữ liệu đe nhận diện gian lận. Đối với mỗi giao dịch, nếu phát hiện dấu hiện gian lận thì đua ra những cảnh báo, nguợc lại đe các giao dịch tiến hành bình thuờng.
Hình 1: Quy trình phát hiện gian lận [3]
Một số thuật toán phát hiện gian lận
Cây quyết định
Phuơng pháp cây quyết định dùng đe giải quyết các bài toán đệ quy hoặc phân cụm bằng cách the hiện dữ liệu duới dạng cây. Theo cách biếu diễn này, mỗi cây có một nút gốc, các nút trong và các nút lá. Mỗi nút đuợc gán nhãn bang là tên các thuộc tính, mỗi cạnh đuợc gán nhãn là giá trị của các thuộc tính. Đe dự đoán giá trị của một bản ghi, cần phải duyệt cây từ nút gốc. So sánh giá trị của các thuộc tính ở nút gốc và các thuộc tính của bản ghi. Dựa vào kết quả của phép so sánh đế đi duyệt các nút kế tiếp. Quá trình so sánh và chuyến nút đuợc thực hiện liên tục cho đến khi gặp các nút lá [4]. Cây quyết định là phuơng pháp dễ hiếu, dễ thực thi hơn so với các thuật toán phân cụm khác.
Đối với bài toán xác định gian lận, cây quyết định đuợc ứng dụng trong dò tìm địa chỉ email và IP của nguời sử dụng thẻ [5]. Hệ thống so sánh những địa chỉ mua sắm trong quá khứ của chủ thẻ với địa diem mua sắm hiện tại, nếu có dấu hiệu bất thuờng sẽ tiến hành dò tìm địa chỉ email cũng nhu địa chỉ IP của nguời đang thực hiện giao dịch.
Cây quyết định là phương pháp đầu tiên và cũng là hiệu quả nhât được áp dụng trong các hệ thống xác định gian lận trong giao dịch thẻ tín dụng.
Mô hình Markov an (HMM)
Mô hình Markov an (Hidden Markov Model - HMM) là mô hình thong kê trong đó hệ thống được mô hình hóa là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ấn từ các tham số quan sát được, dựa trên sự thừa nhận này. Các tham số của mô hình được rút ra sau đó có the sử dụng đe thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu [3].
Trong phát hiện gian lận, HMM được sử dụng đê phát hiện giao dịch khả nghi bang cách tính toán hành vi tiêu tiền của khách hàng dựa trên dữ liệu giao dịch trong quá khứ như: số tiền, địa chỉ IP, địa chỉ giao hàng, địa chỉ giao dịch gần đây nhất. Có the phân xu hướng tiêu tiền của chủ thẻ thành ba loại:
Tiêu tiền ít
Tiêu tiền trung bình
Tiêu nhiều tiền
Bước đầu tiên trong phán đoán gian lận là phân tích hồ sơ và giao dịch trong quá khứ đe biết chủ thẻ thuộc nhóm nào trong các xu hướng mua sắm [6]. Quy trình xác định gian lận được tiến hành qua hai bước như sau:
Bước 1. Huấn luyện HMM bang các dữ liệu giao dịch trong quá khứ.
Bước 2. Đưa dữ liệu giao dịch hiện tại vào chạy HMM đe kiếm tra giao dịch hiện tại có tuân theo quy luật thông thường không.
Hình 2: Xác định gian lận sử dụngHMM [6]
Giải thuật di truyền
Giải thuật di truyền là sự mô phỏng lại quá trình tiến hóa di truyền trong tự nhiên. Một cách chính xác, đó là giải thuật chỉ ra các tập cá the được hình thành, ước lượng và biến đoi ra sao. Cụ the là làm thế nào đe lựa chọn ra cá the tái tạo và cá the bị loại bỏ. Mục đích chính của giải thuật là tìm ra giải pháp tối ưu và đưa ra kết luận về giao dịch nghi ngờ gian lận dựa trên kho dữ liệu của ngân hàng [7].
Bước đầu tiên trong quá trình xác định gian lận là lựa chọn bộ dữ liệu, sau đó chuẩn hóa dữ liệu và thêm các dữ liệu về thông tin chủ thẻ. Bước tiếp theo, tính giá trị “cực đoan” dựa vào mức độ sử dụng thẻ thường xuyên, số dư, mức độ thấu chi, nơi sử dụng thẻ của những giao dịch trong quá khứ. Khi một giao dịch được tiến hành, dữ liệu giao dịch đó được mang ra đe so sánh với giá trị “cực đoan”, từ đó đưa ra phán đoán giao dịch có gian lận hay không.
Hình 3: Xác định gian lận sử dụng giải thuật di truyên [8]
không [9].
Mạng Nơ ron
Mạng Nơ ron cũng là một trong những thuật toán thường được áp dụng cho các hệ thống phát hiện gian lận trong thanh toán thẻ tín dụng. Sử dụng mạng Nơ ron trong xác định gian lận thanh toán được ví như áp dụng nguyên lý tư duy của con người đe phán đoán sự việc. Bộ não người lưu trữ kinh nghiệm có được từ cuộc sống, khi một hiện tượng xảy ra, dựa vào kinh nghiệm có sẵn, con người sẽ suy luận đê đưa ra phán đoán. Cách thức hoạt động của mạng Nơ ron cũng như vậy.
Trong bài toán nhận diện gian lận, thuật toán này chia thông tin thành nhiều nhóm. Nhóm đâu tiên, lưu thông tin thu thập, nghề nghiệp. Nhóm thứ hai, lưu thông tin thanh toán như số lần thanh toán nhiều tiền, mức độ thường xuyên của những lần mua sắm nhiều tiền, nơi mua sắm. Những dữ liệu này được dùng đê phán đoán xem giao dịch trong tương lai có đúng do chủ thẻ thực hiện hay
Mô hình xác định gian lận sử dụng mạng Nơ ron chia thành ba tầng:
Hình 4: Xác định gian lận sử dụng mạng
Nơ ron [9]
• Tầng đầu. Tầng này bao gồm các nút đầu vào đe kiếm tra thông tin chủ thẻ
Tầng ấn. Chức các nút thực hiện giải thuật mạng Nơ ron đe phán đoán giao dịch hiện tại có gian lận hay không.
Tầng đầu ra. Đưa ra kết quả của việc phân tích, thường đưa ra giá trị nam trong khoảng từ 0 tới 1.
Bảng 1. Đánh giá các thuật toán phát hiện gian lận
Thuật toán
Ưu điểm
Nhược điểm
Cây quyết định
Phù hợp với để xác định gian lận thẻ tín dụng qua các giao dịch trực tuyến
Dễ thực thi
Thuật toán
Ưu điểm
Nhược điểm
Mô hình Markov ẩn
Phát đoán nhanh
Chi phí cao
Độ chính xác thấp
Khả năng làm việc với lượng dữ liệu lớn kém
Giải thuật di truyền
Xử lý nhiễu tốt
Dễ dàng tích hợp vào các hệ thống
Dễ cài đặt
Cần dùng thêm các công cụ tri thức mở rộng để cài đặt
Khó hiểu
Mạng Nơ ron
Có khả năng rút ra các luật và dự đoán các hoạt động trong tương lai dựa vào tình huống hiện tại
Khả năng phán đoán nhanh
Xử lý nhiễu hiệu quả
Đối với mạng Nơ ron lớn, thời gian xử lý lớn
Khó cài đặt
Dữ liệu phi số cần được chuyển đổi và chuẩn hóa
Ket luận
Thẻ tín dụng ngày càng được sử dụng rộng rãi trong các hoạt động mua săm và thanh toán. Đi cùng với nó, các tội phạm liên quan tới loại hình thanh toán này cũng tăng và đa dạng về hình thức. Mục đích chính của bài báo là đưa ra những thuật toán đã và đang được áp dụng hiệu quả trong các hệ thông phát hiện gian lận, lừa đảo liên quan tới thẻ tín dụng. Hình thức hiệu quả nhất là dựa vào dữ liệu trong quá khứ đê phán đoán cho giao dịch hiện tại. Trong các kỹ thuật đã trình bày, cây quyêt định và mô hình Markov an được đánh giá là phương pháp hiệu quả nhất.
TÀI LIỆU THAM KHẢO
. T. N. report (2017). Card & Mobile
payment Industry Statistics. [Online]. Available:	https://nilsonreport.com/
publication_chart_and_graphs_archive. php?1=1&year=2017.
. The Nilson Report (2017). [Online]. Available: https://nilsonreport. com/upload/content_promo/The_Nilson_ Report_Issue_1118.pdf.
.	Mr.P.Matheswaran,
Mrs.E.SivaSankari ME, Mr.R.Rajesh (2015/ Fraud Detection in Credit Card Using Data Mining Techniques. IJRSET, vol. II, no. I.
. S. al, (2015). Credit Card Fraud Detection Using Decision Tree Induction Algorithm. International Journal of Computer Science and Mobile Computing, vol. 4, no. 4.
. Dinesh L. Talekar, K. P Adhiya (2014). Credit Card Fraud Detection Using Decision Tree For Tracing Email And Ip. IJCSI International Journal of Research(IJMER), vol. 4, no. 9.
. Dinesh L. Talekar, K. P Adhiya (2014). Credit Card Fraud Detection System: A Survey. International Journal Of Modern Engineering Research(IJMER), vol. 4, no. 9.
. Pooja Chougule#1, A.D. Thakare, Prajakta Kale, MadhuraGole, PriyankaNanekar (2015). Genetic K-means Algorithm for Credit Card Fraud Detection. International Journal of Computer Science and Information Technologies (IJCSIT), vol. 6, no. 2.
. Dr. R.Dhanapal1, Gayathiri.P2 (2012). Fraud Detection of Credit Card Payment System by Genetic Algorithm. International Journal of Scientific & Computer Science Issues, vol. 9, no. 5.
. Raghavendra Patidar, Lokesh Sharma (2011). Credit Card Fraud Detection Using Neural Network. International Journal of Soft Computing and Engineering (IJSCE), vol. 1.
BBT nhận bài: 10/8/2018; Phản biện
xong: 05/9/2018

File đính kèm:

  • docmot_so_thuat_toan_ung_dung_trong_phat_hien_gian_lan_thanh_to.doc
  • pdf40424_128244_1_pb_0875_532512.pdf