Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy

Thông qua việc sử dụng dữ liệu gần 10.000 khách hàng từ Hà Nội, Hải Phòng và Quảng Ninh, nghiên cứu nhằm phân tích hành vi rời bỏ của khách hàng thẻ tín dụng tại một ngân hàng Việt Nam.

Nguyễn Đồng Thái Sơn, Emmanuel Lance Christopher VI M. Plan

Trường Quản trị và Kinh doanh, Đại học Quốc gia Hà Nội

Tóm tắt

Việc dự đoán khách hàng rời bỏ đóng vai trò then chốt trong việc giúp các ngân hàng ổn định doanh thu và nâng cao năng lực cạnh tranh. Thông qua việc sử dụng dữ liệu gần 10.000 khách hàng từ Hà Nội, Hải Phòng và Quảng Ninh, nghiên cứu nhằm phân tích hành vi rời bỏ của khách hàng thẻ tín dụng tại một ngân hàng Việt Nam. Ba mô hình học máy được áp dụng gồm Hồi quy logistic, Rừng ngẫu nhiên và XGBoost, trong đó XGBoost cho hiệu suất tốt nhất. Kết quả cho thấy, các yếu tố liên quan đến rời bỏ bao gồm: Thời gian sử dụng dưới 5 năm, Số dư tài khoản bằng 0 hoặc rất thấp, Không hoạt động trong 12 tháng gần nhất, Khách hàng lớn tuổi có số dư trung bình và Nhóm khách hàng trẻ dưới 25 tuổi dùng thẻ dưới 1 năm. Những phát hiện này giúp ngân hàng nhận diện sớm nhóm khách hàng có nguy cơ cao để triển khai các biện pháp giữ chân phù hợp và tăng cường sự hài lòng.

Từ khóa: dự đoán tỷ lệ rời bỏ, dịch vụ thẻ tín dụng, ngành ngân hàng, mô hình học máy

Summary

Customer churn prediction plays a critical role in helping banks stabilize revenue and enhance their competitive advantage. Utilizing data from nearly 10,000 credit card customers in Hanoi, Hai Phong, and Quang Ninh, this study analyzes churn behavior in a Vietnamese bank. Three machine learning models were employed, including Logistic Regression, Random Forest, and XGBoost, with XGBoost delivering the best performance. The results indicate several key churn-related factors: account usage duration under five years, account balance at or near zero, inactivity over the past 12 months, older customers with average balances, and younger customers (under 25) using credit cards for less than one year. These insights enable banks to proactively identify high-risk customer segments and implement appropriate retention strategies to improve satisfaction.

Keywords: churn prediction, credit card services, banking sector, machine learning models

GIỚI THIỆU

Rời bỏ là hiện tượng khách hàng chấm dứt việc sử dụng sản phẩm, dịch vụ, công nghệ hoặc chương trình khuyến mãi của doanh nghiệp (Agarwal và cộng sự, 2022). Điều này thường xảy ra khi khách hàng cảm thấy lựa chọn hiện tại không còn phù hợp với nhu cầu của họ (Tran và cộng sự, 2023). Giảm tỷ lệ rời bỏ là một trong những thách thức lớn đối với các doanh nghiệp cả trong nước lẫn quốc tế, bởi hiện tượng này ảnh hưởng trực tiếp đến doanh thu và lợi nhuận. Vì vậy, việc giữ chân khách hàng và tìm ra giải pháp hiệu quả để hạn chế rời bỏ luôn là ưu tiên hàng đầu trong chiến lược kinh doanh (Prabadevi và cộng sự, 2023). Có nhiều cách để xác định nguyên nhân khách hàng rời bỏ, trong đó thu thập phản hồi và đề xuất giải pháp là phương pháp truyền thống phổ biến. Tuy nhiên, cách làm này thường thiếu chính xác và không hiệu quả với dữ liệu lớn. Sự phát triển của các thuật toán học máy cùng khả năng truy cập dữ liệu ngày càng cao đã mở ra hướng tiếp cận mới trong việc dự đoán hành vi rời bỏ (Ahmad và cộng sự, 2019).

Đối với hoạt động của ngành ngân hàng, việc dự đoán chính xác tỷ lệ rời bỏ của khách hàng có ý nghĩa đặc biệt, vì điều này mang lại nhiều lợi ích quan trọng cho ngân hàng. Chẳng hạn, các chuyên gia trong lĩnh vực ngân hàng xem một khách hàng là đã rời bỏ nếu tổng giá trị giao dịch hàng năm và số dư tài khoản trung bình hằng năm của họ giảm 30% (Kumar và cộng sự, 2023). Các nghiên cứu đã chỉ ra rằng ngay cả khi tỷ lệ giữ chân khách hàng chỉ tăng nhẹ cũng có thể tạo ra tác động lớn, vì mối quan hệ phụ thuộc lẫn nhau giữa các khách hàng tồn tại, và khi một khách hàng rời bỏ, xác suất rời bỏ trong mạng lưới xã hội của họ cũng có xu hướng tăng theo (Manzoor và cộng sự, 2024).

Vì vậy, việc tiến hành một nghiên cứu nhằm giải quyết bài toán rời bỏ khách hàng trong lĩnh vực ngân hàng bằng cách ứng dụng các kỹ thuật học máy để xác định và phân tích các yếu tố ảnh hưởng đến hành vi rời bỏ thẻ tín dụng đóng vai trò quan trọng (Bài viết sử dụng cách viết số thập phân theo chuẩn quốc tế).

CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU

Cơ sở lý thuyết

Việc giữ chân khách hàng là yếu tố then chốt giúp các tổ chức tài chính duy trì lợi nhuận, nhiều nghiên cứu đã áp dụng các thuật toán học máy, như: hồi quy logistic, KNN, rừng ngẫu nhiên và cây quyết định để dự đoán hành vi rời bỏ (Tran và cộng sự, 2023). Chẳng hạn, Prabadevi và cộng sự (2023) đã so sánh hiệu suất của nhiều mô hình học máy dựa trên độ chính xác, khả năng sử dụng bộ nhớ và điểm F1. Nhằm tối ưu hiệu quả, nhiều nghiên cứu đã sử dụng kỹ thuật hiệu chỉnh tham số bằng Grid Search Cross-Validation, giúp cải thiện khả năng phân loại và đạt giá trị AUROC cao, thể hiện tính chính xác và ổn định của mô hình (Vijayakumar Bharathi và cộng sự, 2022).

Thuật toán XGBoost đã được chứng minh là có hiệu suất vượt trội trong dự đoán hành vi rời bỏ, và vì vậy được sử dụng phổ biến trong nhiều nghiên cứu gần đây (Krishna và cộng sự, 2024). Trong nghiên cứu này, tác giả còn áp dụng kỹ thuật lựa chọn đặc trưng để xác định các biến có ảnh hưởng lớn đến hành vi rời bỏ, góp phần cải thiện độ chính xác của mô hình. Nghiên cứu cũng so sánh hiệu quả của nhiều thuật toán như Random Forest, Naive Bayes, KNN và XGBoost, tất cả đều cho kết quả tích cực.

(Gerde, n.d.) đã nghiên cứu hành vi rời bỏ trong lĩnh vực ngân hàng và bán lẻ, dựa trên dữ liệu từ 602 khách hàng trưởng thành và trẻ tuổi. Nghiên cứu sử dụng nhiều thuật toán học máy như ridge classification kết hợp cross-validation, KNN, cây quyết định, hồi quy logistic và SVM. Trong số đó, Extra-Tree đạt hiệu suất dự đoán cao nhất. Các yếu tố chính liên quan đến rời bỏ gồm không sử dụng dịch vụ ngân hàng trên thiết bị di động, có khoản vay không lãi suất, số dư tài khoản bằng 0 và ít tương tác trực tuyến (Xiahou và Harada, 2022) đã đề xuất một phương pháp kết hợp giữa phân cụm k-means và các mô hình phân loại, như: SVM và hồi quy logistic để dự đoán hành vi rời bỏ khách hàng. Việc chia khách hàng thành ba nhóm đã giúp cải thiện đáng kể hiệu suất dự đoán, trong đó SVM cho kết quả chính xác vượt trội so với hồi quy logistic.

Phương pháp nghiên cứu

Nghiên cứu này sử dụng tập dữ liệu liên quan đến hành vi rời bỏ của khách hàng sử dụng thẻ tín dụng tại một ngân hàng ở Việt Nam. Dữ liệu được thu thập vào tháng 11/2024, gồm thông tin của 10.000 khách hàng tại ba thành phố lớn: Hà Nội, Hải Phòng và Quảng Ninh - những khu vực được chọn do có dấu hiệu rõ rệt về tình trạng rời bỏ. Cuối năm 2023, ngân hàng từng triển khai chiến dịch khuyến mãi nhằm thúc đẩy việc mở và sử dụng thẻ tín dụng tại 3 địa phương này. Dù chiến dịch ban đầu ghi nhận sự gia tăng số lượng người dùng mới, tỷ lệ khách hàng ngừng sử dụng trong vòng một năm vẫn ở mức cao. Do đó, tập dữ liệu được xây dựng để bao gồm cả khách hàng mới và cũ, nhằm đánh giá khả năng dự đoán hành vi rời bỏ và đề xuất giải pháp hạn chế tình trạng này.

Bộ dữ liệu gồm 12 biến, trong đó có một biến phụ thuộc (churn – rời bỏ) và 11 biến độc lập (Bảng 1). Có tổng cộng 2,299 khách hàng được xác định là đã rời bỏ, chiếm khoảng 23% toàn bộ dữ liệu. Các biến sau đó được phân tích thông qua các chỉ số thống kê như giá trị nhỏ nhất, lớn nhất, phương sai, độ lệch chuẩn, độ tương quan lên biến phụ thuộc.

Bảng 1: Mô tả các đặc trưng của dữ liệu

Đặc trưng

Diễn giải

CIF.

ID khách hàng

Credit_Score.

Điểm tín dụng của khách hàng

City.

Thành phố sinh sống của khách hàng

Gender.

Giới tính khách hàng, M = Nam, F = Nữ

Age.

Tuổi của khách hàng

Tenure.

Số năm sử dụng thẻ tín dụng.

Balance.

Số dư tài khoản của khách hàng.

Product_number.

Sản phẩm thẻ mà khách hàng đang sử dụng

Active_member.

Tài khoản hoạt động trong năm vừa qua (1 = Có, 0 = Không)

Credit_card

Khách hàng hiện đang sở hữu hay sử dụng thẻ tín dụng không

Estimated_Salary.

Mức lương hàng tháng ước tính của khách hàng

Marital.

Tình trạng hôn nhân của khách hàng

Churn.

Trạng thái rời bỏ của khách hàng (1 = Có, 0 = Không).

Nguồn: Nghiên cứu của nhóm tác giả

Tiền xử lý dữ liệu là bước quan trọng nhằm cải thiện chất lượng dữ liệu và đảm bảo hiệu quả cho các mô hình học máy (Alexandropoulos và cộng sự, 2019). Các biến số như Credit_Score, Balance và Estimated_Salary được chuẩn hóa để đưa về cùng thang đo, trong khi các biến phân loại như City và Product_number được xử lý bằng one-hot encoding. Biến Gender được mã hóa thành dạng nhị phân (gender_Male) để phù hợp với mô hình.

Để giảm thiểu tác động của sự mất cân bằng lớp, dữ liệu được điều chỉnh về tỷ lệ gần đồng đều giữa hai nhóm rời bỏ và không rời bỏ. Cụ thể, tập dữ liệu sau xử lý bao gồm 2,230 khách hàng rời bỏ và 2,477 khách hàng không rời bỏ, tạo ra phân phối gần 1:1. Tỷ lệ cân bằng này giúp mô hình học tốt hơn cho cả 2 nhóm và hạn chế tình trạng dự đoán thiên lệch.

Hình 1 cho thấy, các đặc trưng có mối tương quan cao hơn với biến rời bỏ (churn) bao gồm: active_member (-0.28), tuổi (age) với hệ số 0.23, điểm tín dụng (credit_score) (-0.19), thu nhập ước tính (estimated_salary) (0.024), thời gian gắn bó (tenure) (-0.071) và số dư tài khoản (balance) (-0.05). Các hệ số này cho thấy mức độ ảnh hưởng của từng yếu tố đến khả năng khách hàng rời bỏ dịch vụ.

Hình 1: Bản đồ nhiệt tương quan giữa các biến

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

Các mô hình học máy

Quy trình xây dựng mô hình học máy trong nghiên cứu được thực hiện một cách hệ thống nhằm đảm bảo hiệu suất tối ưu. Trước hết, mối quan hệ đa cộng tuyến giữa các biến đầu vào được kiểm tra thông qua hệ số phóng đại phương sai (VIF), từ đó loại bỏ các biến có VIF cao và chỉ giữ lại những biến có mức đa cộng tuyến thấp để tăng độ ổn định và khả năng dự đoán của mô hình.

Tiếp đến, GridSearchCV được sử dụng để tinh chỉnh và lựa chọn tổ hợp siêu tham số tối ưu cho từng thuật toán. Sau khi xác định được cấu hình phù hợp, các mô hình được huấn luyện trên dữ liệu đã qua tiền xử lý và cuối cùng được đánh giá trên tập kiểm tra bằng các chỉ số phân loại tiêu chuẩn nhằm xác định hiệu quả dự đoán.Các mô hình học máy được sử dụng trong nghiên cứu bao gồm:

- Hồi quy Logistic (Logistic Regression – LR) là một phương pháp phân loại phổ biến dùng để dự đoán kết quả nhị phân, như khả năng khách hàng rời bỏ, bằng cách tính xác suất thông qua hàm sigmoid trên tổ hợp tuyến tính của các đặc trưng đầu vào (Korkmaz và cộng sự, 2014)

- Rừng ngẫu nhiên (Random Forest – RF) là một thuật toán học tổ hợp xây dựng nhiều cây quyết định từ các tập dữ liệu con và đưa ra dự đoán cuối cùng bằng cách lấy kết quả phổ biến nhất từ các cây, giúp tăng độ chính xác trong phân loại (Ako và cộng sự, 2024).

- XGBoost (Extreme Gradient Boosting – XGB) là một thuật toán tăng cường hiệu quả cao, xây dựng các cây quyết định tuần theo cách tự, với mỗi cây mới khắc phục lỗi của cây trước đó. Mô hình tối ưu hóa đồng thời hàm mất mát và điều chỉnh độ phức tạp, giúp cải thiện hiệu suất dự đoán, đặc biệt với dữ liệu có cấu trúc (Maulana và Hidayati, 2025).

KẾT QUẢ NGHIÊN CỨU

Ba thuật toán được so sánh dựa trên các chỉ số đánh giá chính, như trình bày trong Bảng 2. Tất cả các mô hình đều sử dụng GridSearchCV để lựa chọn bộ siêu tham số tối ưu. Trong khi đó, XGB thể hiện hiệu suất tổng thể cao nhất, với accuracy 0.874, precision 0.873, recall 0.872 và F1-score 0.874. Hiệu quả này cũng được minh họa rõ qua đường cong ROC trong Hình 2. Xét về mặt hiệu suất, mô hình XGB chỉ mất 1 phút 50 giây để hoàn thành quá trình dự đoán nhanh hơn so với LR và RF, cả hai mô hình trên vốn có thời gian chạy kéo dài do quá trình tinh chỉnh siêu tham số.

Bảng 2: Các chỉ số đánh giá hiệu suất của các mô hình học máy

Method

Accuracy

Precision

Recall

F1 score

LR

0.828

0.793

0.662

0.816

RF

0.863

0.847

0.745

0.853

XGBoost

0.874

0.873

0.872

0.874

Nguồn: Nghiên cứu của nhóm tác giả

Hình 2: Đường cong ROC cho các mô hình phân loại

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

Hình 3: Phân tích so sánh độ chính xác của các mô hình LR, RF và XGB

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

Ma trận nhầm lẫn trong Hình 4 phản ánh sự khác biệt rõ rệt về khả năng dự đoán hành vi rời bỏ. Cả ba mô hình đều đạt hiệu quả cao trong việc nhận diện đúng khách hàng không rời bỏ, thể hiện qua số lượng lớn giá trị âm đúng (true negatives). Tuy nhiên, mức độ chính xác trong việc phát hiện khách hàng rời bỏ lại có sự chênh lệch đáng chú ý.

XGB là mô hình nhận diện tốt nhất với 380 trường hợp rời bỏ được dự đoán đúng, vượt trội so với các mô hình còn lại. RF xếp thứ hai với 366 trường hợp đúng và cũng cho thấy khả năng hạn chế dương tính giả, phản ánh độ chính xác dự đoán cao. Trong khi đó, LR đạt kết quả thấp nhất với chỉ 259 trường hợp dự đoán đúng.

Hình 4: Kết quả ma trận nhầm lẫn

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

Một vấn đề then chốt là làm thế nào để ngân hàng xác định được các đặc điểm nổi bật của nhóm khách hàng có nguy cơ rời bỏ để kịp thời can thiệp. Hình 5 minh họa bảng xếp hạng tầm quan trọng của các đặc trưng đầu vào theo ba mô hình học máy.

Hình 5: Mức độ quan trọng của các đặc trưng theo các thuật toán khác nhau

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

Trong LR, các đặc trưng nổi bật gồm product_number_3, active_member, product_number_4, tiếp theo là product_number_2 và gender, trong khi các yếu tố tài chính, như: balance và credit_score lại ít quan trọng hơn. Ngược lại, RF đánh giá cao age, balance và credit_score — các yếu tố tài chính không được ưu tiên trong LR. Với XGB, năm đặc trưng quan trọng hàng đầu là active_member, age, product_number_2, product_number_3 và balance. Trong đó, age và balance trùng khớp với RF, còn active_member và product_number_3 cũng là yếu tố chủ chốt trong LR. Tổng hợp từ ba mô hình, những đặc trưng như active_member, age, product_number_3, balance, product_number_2 và credit_score thường xuyên xuất hiện trong nhóm quan trọng nhất, cho thấy vai trò nổi bật của chúng trong việc dự đoán hành vi rời bỏ của khách hàng.

Sau khi xác định các đặc trưng quan trọng từ các mô hình, nghiên cứu tiếp tục phân tích mối quan hệ giữa các biến này với hành vi rời bỏ của khách hàng nhằm phát hiện các mẫu hành vi và nhóm đối tượng có nguy cơ cao. Kết quả cho thấy khách hàng có thời gian gắn bó dưới 5 năm có tỷ lệ rời bỏ cao hơn đáng kể so với nhóm lâu năm, phản ánh khả năng mất kết nối ở khách hàng mới (Hình 6). Hình 7 cho thấy phần lớn khách hàng rời bỏ có số dư tài khoản gần bằng 0, và một nhóm khác gồm những người từ 45 tuổi trở lên với số dư trung bình từ 8.000–18.000 cũng có xu hướng rời bỏ cao, có thể do kỳ vọng không được đáp ứng. Bên cạnh đó, Hình 8 cho thấy khách hàng không hoạt động thường xuyên có tỷ lệ rời bỏ cao hơn nhiều so với nhóm hoạt động thường xuyên. Từ đó, có thể phác họa nhóm khách hàng có nguy cơ rời bỏ cao gồm: người gắn bó dưới 5 năm, tài khoản có số dư thấp hoặc bằng 0, trạng thái không hoạt động, khách hàng lớn tuổi với số dư trung bình, và nhóm dưới 25 tuổi dùng thẻ dưới 1 năm. Việc xác định các đặc điểm này giúp phân đoạn khách hàng chính xác hơn và xây dựng các chiến lược giữ chân phù hợp.

Hình 6: Phân bố tỷ lệ rời bỏ theo thời gian gắn bó và độ tuổi

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

Hình 7: Phân bố tỷ lệ rời bỏ theo độ tuổi và số dư tài khoản

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

Hình 8: Phân bố tỷ lệ rời bỏ theo trạng thái thành viên

Dự đoán tỷ lệ rời bỏ dịch vụ thẻ tín dụng trong ngành ngân hàng bằng các mô hình học máy
Nguồn: Nghiên cứu của nhóm tác giả

KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI

Nghiên cứu này đã tiến hành đánh giá và so sánh hiệu suất của ba mô hình học máy — Hồi quy Logistic (LR), Rừng ngẫu nhiên (Random Forest) và XGBoost (XGB) — trong việc dự đoán hành vi rời bỏ khách hàng, một bài toán phân loại phổ biến trong lĩnh vực ngân hàng. Các mô hình được đánh giá dựa trên các chỉ số tiêu chuẩn và kết quả cho thấy XGB vượt trội hơn so với các mô hình còn lại, đạt hiệu suất cao nhất trên tất cả các chỉ số đánh giá. Đồng thời, XGB cũng có thời gian xử lý ngắn nhất, minh chứng cho khả năng thích ứng tốt trong những tình huống đòi hỏi sự cân bằng giữa độ chính xác và hiệu quả tính toán.

Phân tích mức độ quan trọng của các đặc trưng trên ba mô hình học máy cho thấy các yếu tố như trạng thái thành viên hoạt động, độ tuổi, loại sản phẩm sử dụng, số dư tài khoản, điểm tín dụng và thời gian gắn bó có ảnh hưởng lớn đến hành vi rời bỏ. Kết quả phân tích khám phá bổ sung cũng chỉ ra rằng khách hàng có thời gian gắn bó ngắn (dưới 5 năm), tài khoản ít hoạt động, số dư bằng 0 hoặc thấp, cùng nhóm khách hàng lớn tuổi có số dư trung bình (8.000.000–15.000.000) thường có tỷ lệ rời bỏ cao. Ngược lại, những khách hàng duy trì tài khoản lâu dài, tài chính ổn định và hoạt động tích cực có xu hướng trung thành hơn. Những phát hiện này nhấn mạnh tầm quan trọng của việc xây dựng chiến lược giữ chân phù hợp, dựa trên hành vi và mức độ tương tác của khách hàng.

Tuy nhiên, nghiên cứu vẫn tồn tại hạn chế do số lượng đặc trưng còn hạn chế và một số cột bị loại bỏ vì thiếu dữ liệu, ảnh hưởng đến độ chính xác của mô hình. Trong tương lai, việc bổ sung các biến như lịch sử giao dịch, mức độ tương tác và phản hồi dịch vụ có thể nâng cao chất lượng dự báo. Ngoài ra, việc cải tiến mô hình qua tối ưu siêu tham số hoặc thử nghiệm thêm các thuật toán khác như SVM, KNN và các phương pháp tổ hợp tiên tiến hơn cũng là hướng đi đầy tiềm năng để nâng cao độ chính xác và hiệu suất tính toán./.

Tài liệu tham khảo

1. Agarwal, V., Taware, S., Yadav, S. A., Gangodkar, D., Rao, A. L. N., & Srivastav, V. K. (2022). Customer - Churn Prediction Using Machine Learning. Proceedings of International Conference on Technological Advancements in Computational Sciences, ICTACS 2022, 893–899. https://doi.org/10.1109/ICTACS56270.2022.9988187

2. Ahmad, A. K., Jafar, A., & Aljoumaa, K. (2019). Customer churn prediction in telecom using machine learning in big data platform. Journal of Big Data, 6(1). https://doi.org/10.1186/s40537-019-0191-6

3. Ako, R. E., Aghware, F. O., Okpor, M. D., Akazue, M. I., Yoro, R. E., Ojugo, A. A., Setiadi, D. R. I. M., Odiakaose, C. C., Abere, R. A., Emordi, F. U., Geteloma, V. O., & Ejeh, P. O. (2024). Effects of Data Resampling on Predicting Customer Churn via a Comparative Tree-based Random Forest and XGBoost. Journal of Computing Theories and Applications, 2(1), 86–101. https://doi.org/10.62411/jcta.10562

4. Gerde, M. (n.d.). Predicting customer churn and customer lifetime value (clv) using machine learning. http://www.maths.lu.se/

5. Korkmaz, M., Güney, S., & Yiğiter, Ş. (2014). The importance of logistic regression implementations in the turkish livestock sector and logistic regression implementations/fields. Harran Tarım ve Gıda Bilimleri Dergisi, 16(2), 25–36.

6. Krishna, R., Jayanthi, D., Shylu Sam, D. S., Kavitha, K., Maurya, N. K., & Benil, T. (2024). Application of machine learning techniques for churn prediction in the telecom business. Results in Engineering, 24. https://doi.org/10.1016/j.rineng.2024.103165

7. Kumar, R. P. R., Sahithi, B., Neeharika, K., Shivaleela, M., Singh, D., & Reddy, K. R. K. (2023). Automation of Credit Card Customer Churn Analysis using Hybrid Machine Learning Models. E3S Web of Conferences, 430. https://doi.org/10.1051/e3sconf/202343001034

8. Manzoor, A., Atif Qureshi, M., Kidney, E., & Longo, L. (2024). A Review on Machine Learning Methods for Customer Churn Prediction and Recommendations for Business Practitioners. IEEE Access, 12, 70434–70463. https://doi.org/10.1109/ACCESS.2024.3402092.

9. Maulana, B. A., & Hidayati, N. (2025). Churn Prediction in Credit Customers Using Random Forest and XGBoost Methods. Indonesian Journal of Data and Science, 6(1), 82–90. https://doi.org/10.56705/ijodas.v6i1.215

10. Prabadevi, B., Shalini, R., & Kavitha, B. R. (2023). Customer churning analysis using machine learning algorithms. International Journal of Intelligent Networks, 4. https://doi.org/10.1016/j.ijin.2023.05.005

11. Tran, H., Le, N., & Nguyen, V. H. (2023). Customer churn prediction in the banking sector using machine learning-based classification models. Interdisciplinary Journal of Information, Knowledge, and Management, 18. https://doi.org/10.28945/5086

12. Vijayakumar Bharathi, S., Pramod, D., & Raman, R. (2022). An Ensemble Model for Predicting Retail Banking Churn in the Youth Segment of Customers. Data, 7(5). https://doi.org/10.3390/data7050061

13. Xiahou, X., & Harada, Y. (2022). B2C E-Commerce Customer Churn Prediction Based on K-Means and SVM. Journal of Theoretical and Applied Electronic Commerce Research, 17(2), 458–475. https://doi.org/10.3390/jtaer17020024.

Ngày nhận bài: 26/5/2025; Ngày hoàn thiện biên tập: 08/6/2025; Ngày duyệt đăng: 16/6/2025