MỤC ĐÍCH
Khai phá dữ liệu được sử dụng để cải thiện việc ra quyết định bằng cách tìm các mẫu hữu ích và hiểu biết sâu sắc từ dữ liệu.
MÔ TẢ
Khai phá dữ liệu là một quá trình phân tích kiểm tra một lượng lớn dữ liệu từ các quan điểm khác nhau và tóm tắt dữ liệu theo cách mà các mẫu và mối quan hệ hữu ích được phát hiện.
Kết quả của các kỹ thuật khai phá dữ liệu nói chung là các mô hình hoặc phương trình toán học mô tả các mẫu và mối quan hệ cơ bản. Các mô hình này có thể được triển khai cho quá trình ra quyết định của con người thông qua bảng điều khiển và báo cáo trực quan hoặc cho các hệ thống ra quyết định tự động thông qua hệ thống quản lý quy tắc nghiệp vụ hoặc triển khai trong cơ sở dữ liệu.
Khai phá dữ liệu có thể được sử dụng trong các cuộc điều tra có giám sát hoặc không có giám sát. Trong một cuộc điều tra được giám sát, người dùng có thể đặt câu hỏi và mong đợi câu trả lời có thể thúc đẩy quá trình đưa ra quyết định của họ. Một cuộc điều tra không giám sát là một bài tập khám phá mẫu thuần túy trong đó các mẫu được phép xuất hiện và sau đó được cân nhắc khả năng ứng dụng vào các quyết định nghiệp vụ.
Khai thác dữ liệu là một thuật ngữ chung bao gồm các kỹ thuật mô tả, chẩn đoán và dự đoán:
- Mô tả: chẳng hạn như việc phân cụm giúp dễ dàng xem các mẫu trong một tập hợp dữ liệu, chẳng hạn như sự tương đồng giữa các khách hàng.
- Chẩn đoán: chẳng hạn như cây quyết định hoặc phân khúc có thể chỉ ra lý do tại sao mẫu tồn tại, chẳng hạn như các đặc điểm của một tổ chức nhất khách hàng có lãi.
- Dự đoán: chẳng hạn như hồi quy hoặc mạng thần kinh có thể cho thấy khả năng một điều gì đó là đúng trong tương lai, chẳng hạn như dự đoán khả năng một yêu cầu cụ thể là gian lận.
Trong mọi trường hợp, điều quan trọng là phải xem xét mục tiêu của việc khai phá dữ liệu và chuẩn bị cho nỗ lực đáng kể trong việc đảm bảo đúng loại, khối lượng và chất lượng dữ liệu để làm việc.
YẾU TỐ
Khơi gợi Yêu cầu
Mục tiêu và phạm vi khai phá dữ liệu được thiết lập theo yêu cầu quyết định đối với một quyết định nghiệp vụ quan trọng đã xác định hoặc theo lĩnh vực chức năng nơi dữ liệu liên quan sẽ được khai phá để khám phá mẫu cụ thể theo lĩnh vực. Chiến lược khai phá từ trên xuống so với từ dưới lên này cho phép BA chọn tập hợp các kỹ thuật khai thác dữ liệu chính xác.
Các kỹ thuật mô hình hóa quyết định chính thức (xem Mô hình hóa quyết định) được sử dụng để xác định các yêu cầu đối với các bài tập khai phá dữ liệu từ trên xuống. Đối với các bài tập khám phá mẫu từ dưới lên, sẽ rất hữu ích nếu thông tin chi tiết được phát hiện có thể được đặt trên các mô hình quyết định hiện có, cho phép sử dụng và triển khai thông tin chi tiết nhanh chóng.
Các bài tập khai phá dữ liệu hiệu quả khi được quản lý như một môi trường linh hoạt. Chúng hỗ trợ quá trình lặp lại, xác nhận và triển khai nhanh chóng đồng thời cung cấp các biện pháp kiểm soát dự án.
Chuẩn bị dữ liệu: Bộ dữ liệu phân tích
Các công cụ khai thác dữ liệu hoạt động trên một tập dữ liệu phân tích. Điều này thường được hình thành bằng cách hợp nhất các bản ghi từ nhiều bảng hoặc nguồn thành một tập dữ liệu rộng, duy nhất.
Các nhóm lặp lại thường được thu gọn thành nhiều nhóm trường. Dữ liệu có thể được trích xuất vật lý vào một tệp thực tế hoặc có thể là một tệp ảo được để lại trong cơ sở dữ liệu hoặc kho dữ liệu để có thể phân tích. Các bộ dữ liệu phân tích được chia thành một bộ được sử dụng để phân tích, một bộ hoàn toàn độc lập để xác nhận rằng mô hình được phát triển hoạt động trên dữ liệu không được sử dụng để phát triển nó và một bộ xác thực để xác nhận lần cuối.
Khối lượng dữ liệu có thể rất lớn, đôi khi dẫn đến nhu cầu làm việc với các mẫu hoặc làm việc trong kho dữ liệu để tránh tình trạng dữ liệu thường xuyên phải di chuyển.
Phân tích dữ liệu
Khi dữ liệu có sẵn, nó được phân tích. Nhiều biện pháp thống kê thường được áp dụng và các công cụ trực quan được sử dụng để xem cách các giá trị dữ liệu được phân phối, dữ liệu nào bị thiếu và các đặc điểm được tính toán khác nhau hoạt động như thế nào. Bước này thường dài nhất và phức tạp nhất trong nỗ lực khai phá dữ liệu và ngày càng trở thành tâm điểm của tự động hóa.
Phần lớn sức mạnh của nỗ lực khai phá dữ liệu thường đến từ việc xác định các đặc điểm hữu ích trong dữ liệu. Chẳng hạn, một đặc điểm có thể là số lần khách hàng ghé thăm cửa hàng trong 80 ngày qua. Xác định rằng số lượng trong 80 ngày qua hữu ích hơn số lượng trong 70 hoặc 90 ngày qua là điều quan trọng.
Kỹ thuật mô hình hóa
Có rất nhiều kỹ thuật khai phá dữ liệu.
Một số ví dụ về kỹ thuật khai phá dữ liệu là:
- Cây phân loại và hồi quy (CART), C5 và các kỹ thuật phân tích cây quyết định khác.
- Hồi quy tuyến tính và hồi quy logistic.
- Mạng thần kinh.
- Máy móc hỗ trợ
- Thẻ điểm dự đoán (cộng tính).
Tập dữ liệu phân tích và các đặc điểm tính toán được đưa vào các thuật toán này. Các thuật toán này không được giám sát (người dùng không biết họ đang tìm gì) hoặc được giám sát (người dùng đang cố gắng tìm hoặc dự đoán điều gì đó cụ thể).
Nhiều kỹ thuật thường được sử dụng để xem cái nào hiệu quả nhất. Một số dữ liệu được đưa ra khỏi mô hình và được sử dụng để xác nhận rằng kết quả có thể được sao chép với dữ liệu không được sử dụng trong quá trình tạo ban đầu.
Triển khai
Khi một mô hình đã được xây dựng, nó phải được triển khai để trở nên hữu ích. Các mô hình khai thác dữ liệu có thể được triển khai theo nhiều cách khác nhau, để hỗ trợ người ra quyết định là con người hoặc để hỗ trợ các hệ thống ra quyết định tự động. Đối với người dùng, kết quả khai phá dữ liệu có thể được trình bày bằng cách sử dụng phép ẩn dụ trực quan hoặc dưới dạng trường dữ liệu đơn giản.
Nhiều kỹ thuật khai phá dữ liệu xác định các quy tắc nghiệp vụ tiềm năng có thể được triển khai bằng hệ thống quản lý quy tắc nghiệp vụ. Các quy tắc nghiệp vụ thực thi được như vậy có thể được đưa vào một mô hình quyết định cùng với các quy tắc chuyên gia khi cần thiết.
Một số kỹ thuật khai thác dữ liệu – đặc biệt là những kỹ thuật được mô tả là kỹ thuật phân tích dự đoán – dẫn đến các công thức toán học. Chúng cũng có thể được triển khai dưới dạng các quy tắc kinh doanh có thể thực thi nhưng cũng có thể được sử dụng để tạo SQL hoặc mã để triển khai. Ngày càng có nhiều tùy chọn triển khai trong cơ sở dữ liệu cho phép các mô hình như vậy được tích hợp vào cơ sở hạ tầng dữ liệu của tổ chức.
CÂN NHẮC SỬ DỤNG
Điểm mạnh
- Tiết lộ các mẫu ẩn và tạo thông tin chi tiết hữu ích trong quá trình phân tích (giúp xác định dữ liệu nào có thể hữu ích để nắm bắt hoặc có bao nhiêu người có thể bị ảnh hưởng bởi các đề xuất cụ thể).
- Có thể tích hợp vào một thiết kế hệ thống để tăng độ chính xác của dữ liệu.
- Có thể được sử dụng để loại bỏ hoặc giảm bớt sự thiên vị của con người bằng cách sử dụng dữ liệu để xác định sự thật.
Hạn chế
- Áp dụng một số kỹ thuật mà không hiểu cách thức hoạt động của chúng có thể dẫn đến các mối tương quan sai lầm và hiểu biết sâu sắc khi áp dụng sai.
- Truy cập vào dữ liệu lớn và các bộ công cụ và phần mềm khai phá dữ liệu tinh vi có thể dẫn đến việc vô tình sử dụng sai mục đích.
- Nhiều kỹ thuật và công cụ đòi hỏi phải có kiến thức chuyên môn để làm việc.
- Một số kỹ thuật sử dụng toán cao cấp trong nền tảng và một số các bên liên quan có thể không có những hiểu biết trực tiếp về kết quả. Sự thiếu minh bạch được nhận thức có thể gây ra sự phản đối từ một số bên liên quan.
- Kết quả khai phá dữ liệu có thể khó triển khai nếu việc ra quyết định mà chúng dự định gây ảnh hưởng không được hiểu rõ.