ITIL 4 Management Practices - Bài 62 : Monitoring and Event Management – Sự Kiện Thông Tin, Cảnh Báo, Ngoại Lệ: Làm Chủ Tín Hiệu Hệ Thống Để Phản Ứng Kịp Thời

 Chào mừng các bạn trở lại với blog của ITSM Expert!

Trong bài viết trước, chúng ta đã cùng nhau đặt nền móng cho Monitoring and Event Management (MEM) – Giám sát và Quản lý Sự kiện, hiểu rằng đây là Practice (thực hành) thiết yếu giúp chúng ta "nghe nhịp đập" của hệ thống công nghệ thông tin (CNTT). MEM giúp chúng ta quan sát có hệ thống các dịch vụ và thành phần để phát hiện các thay đổi trạng thái có ý nghĩa.

Hôm nay, chúng ta sẽ đi sâu vào việc phân loại các sự kiện mà hệ thống phát hiện được, từ những thông tin tưởng chừng vô hại đến những cảnh báo cần hành động ngay lập tức, và quan trọng hơn cả, cách các sự kiện này có thể kích hoạt các Practice khác trong ITIL Service Value System (SVS) như Incident Management (Quản lý Sự cố) hay Problem Management (Quản lý Vấn đề). Việc nắm rõ cách phân loại và ứng phó với sự kiện là chìa khóa để duy trì sự ổn định và hiệu suất của dịch vụ.



Nhắc lại về Monitoring and Event Management (MEM) và khái niệm Sự kiện

Mục đích của thực hành giám sát và quản lý sự kiện là quan sát một cách có hệ thống các dịch vụ và thành phần dịch vụ, và ghi lại, báo cáo các thay đổi trạng thái được xác định là sự kiện. Một sự kiện (event)bất kỳ thay đổi trạng thái nào có ý nghĩa đối với việc quản lý dịch vụ hoặc thành phần cấu hình (CI). Các sự kiện thường được nhận biết thông qua thông báo được tạo bởi một dịch vụ CNTT, thành phần cấu hình hoặc công cụ giám sát.

MEM quản lý các sự kiện trong suốt vòng đời của chúng để ngăn chặn, giảm thiểu hoặc loại bỏ tác động tiêu cực của chúng đối với hoạt động kinh doanh. Để làm được điều này, việc phân loại sự kiện là bước thiết yếu. Không phải tất cả các sự kiện đều có cùng ý nghĩa hoặc yêu cầu cùng một phản ứng. ITIL 4 phân loại sự kiện thành ba loại chính:


Ba Loại Sự Kiện Chính và Cách Ứng Phó

1. Informational Events (Sự kiện Thông tin)

  • Định nghĩa: Đây là những sự kiện không yêu cầu hành động ngay tại thời điểm chúng được nhận diện. Chúng thường chỉ ra một trạng thái hoạt động bình thường của hệ thống, một hoạt động đã hoàn thành thành công, hoặc một thay đổi nhỏ không gây ra mối đe dọa tức thì.

  • Mục đích: Dữ liệu thu thập được từ các sự kiện thông tin có thể hữu ích cho phân tích sau này, giúp nhận diện các mẫu hình, xu hướng, hoặc các bước chủ động có lợi cho dịch vụ.

  • Phản ứng điển hình: Ghi nhận (logging) để phục vụ việc kiểm toán (auditing), báo cáo, và phân tích xu hướng dài hạn. Không cần hành động ngay lập tức hoặc leo thang.

  • Ví dụ thực tế:

    • "Người dùng 'Nguyen Van A' đăng nhập thành công vào ứng dụng."

    • "Sao lưu cơ sở dữ liệu hoàn tất thành công."

    • "Lượng truy cập website tăng 5% trong 15 phút qua." (Không phải lúc nào cũng là vấn đề, nhưng là một chỉ báo để theo dõi)

  • Ví dụ tại Axle Car Hire: Một sự kiện thông tin có thể là "Xe số 123 đã hoàn tất chuyến đi và được trả về bãi đỗ xe". Sự kiện này chỉ đơn thuần xác nhận một hoạt động bình thường đã xảy ra, nhưng tổng hợp dữ liệu này theo thời gian có thể giúp Axle phân tích mô hình sử dụng xe.

2. Warning Events (Sự kiện Cảnh báo)

  • Định nghĩa: Đây là những sự kiện chỉ ra rằng một điều gì đó bất thường đã xảy ra hoặc một ngưỡng đã bị vi phạm, cho phép hành động được thực hiện trước khi có bất kỳ tác động tiêu cực nào thực sự xảy ra với hoạt động kinh doanh. Chúng là tín hiệu "đèn vàng", báo trước nguy hiểm tiềm ẩn.

  • Mục đích: Ngăn chặn một vấn đề tiềm ẩn trở thành sự cố (incident) nghiêm trọng hoặc gây ra tác động đến dịch vụ. Phát hiện sớm các vấn đề để đội ngũ CNTT có thể chủ động xử lý.

  • Phản ứng điển hình: Kiểm tra, điều tra sâu hơn, và thực hiện các biện pháp phòng ngừa. Có thể là kích hoạt một quy trình tự động hóa nhỏ (ví dụ: khởi động lại một dịch vụ) hoặc gửi thông báo đến một kỹ thuật viên để kiểm tra thủ công.

  • Ví dụ thực tế:

    • "Mức sử dụng CPU của máy chủ ứng dụng đạt 80% trong 5 phút liên tục."

    • "Dung lượng ổ đĩa còn dưới 10%."

    • "Số lượng lỗi truy vấn cơ sở dữ liệu tăng nhẹ (2% trong 1 giờ)."

    • "Hệ thống tự động phát hiện một vài lần đăng nhập thất bại liên tiếp từ một địa chỉ IP lạ."

  • Ví dụ tại Axle Car Hire: Đối với đội xe điện của Axle, một sự kiện cảnh báo có thể là "Mức pin của xe số XYZ đã xuống dưới 20% và xe đang cách trạm sạc gần nhất 50km". Điều này không phải là sự cố ngay lập tức (xe vẫn chạy), nhưng cần hành động (ví dụ: thông báo cho tài xế sạc pin, hoặc điều phối xe đến trạm sạc gần nhất) để tránh việc xe hết pin hoàn toàn giữa đường, gây ra sự cố gián đoạn dịch vụ cho khách hàng.

3. Exception Events (Sự kiện Ngoại lệ)

  • Định nghĩa: Đây là những sự kiện chỉ ra rằng đã nhận diện một sự vi phạm so với một chuẩn đã thiết lập (ví dụ: một thỏa thuận mức độ dịch vụ - SLA bị vi phạm), yêu cầu hành động ngay lập tức, mặc dù tác động kinh doanh có thể chưa được trải nghiệm. Chúng là tín hiệu "đèn đỏ", báo hiệu một vấn đề nghiêm trọng cần được giải quyết ngay.

  • Mục đích: Khắc phục ngay lập tức một tình trạng bất thường đã vượt ngưỡng chấp nhận được, có khả năng gây ra sự cố hoặc đã gây ra sự cố.

  • Phản ứng điển hình: Kích hoạt quy trình xử lý sự cố (Incident Management). Thường là tự động tạo một Incident Ticket (phiếu sự cố) với mức ưu tiên cao, gửi cảnh báo đến đội ngũ trực ban, hoặc kích hoạt các quy trình tự động hóa để khôi phục dịch vụ.

  • Ví dụ thực tế:

    • "Máy chủ ứng dụng ngừng phản hồi hoàn toàn."

    • "Tỷ lệ lỗi giao dịch trên cổng thanh toán đạt 5% trong 1 phút."

    • "Hệ thống phát hiện truy cập trái phép vào cơ sở dữ liệu khách hàng." (Đây là một sự cố bảo mật, thường là loại ngoại lệ).

  • Ví dụ tại Axle Car Hire: Một Sự kiện Ngoại lệ có thể là "Ứng dụng đặt xe của Axle không khả dụng (lỗi 500) trong 5 phút". Mặc dù có thể có hệ thống dự phòng đang hoạt động và người dùng chưa bị ảnh hưởng trực tiếp (nếu có), nhưng đây là một vi phạm nghiêm trọng về tính sẵn sàng và cần được điều tra ngay lập tức để ngăn chặn nó trở thành một sự cố toàn diện.


Kích hoạt các Practice khác: Incident Management & Problem Management

Một trong những vai trò quan trọng nhất của Monitoring and Event Management là khả năng kích hoạt các Practice khác trong ITIL SVS để xử lý các vấn đề và thúc đẩy cải tiến.

  1. Kích hoạt Incident Management (Quản lý Sự cố):

    • Thông thường, một sự kiện ngoại lệ hoặc một loạt các sự kiện cảnh báo liên quan có thể là bằng chứng về một sự cố đang diễn ra hoặc sắp xảy ra.

    • Trong trường hợp này, Monitoring and Event Management sẽ tự động hoặc thủ công tạo ra một sự cố, kích hoạt quy trình Incident Management để khôi phục dịch vụ càng nhanh càng tốt.

    • Ví dụ: Cảnh báo "Tỷ lệ lỗi giao dịch tăng đột biến trên ứng dụng Axle" sẽ tự động tạo một sự cố P1 (Priority 1) trong hệ thống Incident Management, kích hoạt đội ngũ phản ứng khẩn cấp.

  2. Kích hoạt Problem Management (Quản lý Vấn đề):

    • Các sự kiện lặp đi lặp lại hoặc các mẫu hình bất thường cho thấy hiệu suất nằm ngoài mức mong muốn có thể là bằng chứng về một vấn đề tiềm ẩn. Điều này sẽ kích hoạt hoạt động trong thực hành quản lý vấn đề.

    • Problem Management sẽ điều tra nguyên nhân gốc rễ của những sự kiện này để tìm giải pháp vĩnh viễn, ngăn chặn sự cố tái diễn.

    • Ví dụ: Nếu Axle liên tục nhận được các sự kiện cảnh báo về "Mức sử dụng RAM cao bất thường trên máy chủ ứng dụng" sau mỗi lần cập nhật phần mềm, điều này có thể chỉ ra một vấn đề về rò rỉ bộ nhớ hoặc tối ưu hóa mã nguồn. Dữ liệu này sẽ được chuyển cho Problem Management để điều tra nguyên nhân gốc rễ và tìm giải pháp vĩnh viễn (ví dụ: viết lại module phần mềm bị lỗi).

  3. Kích hoạt Change Control (Kiểm soát Thay đổi):

    • Đối với một số sự kiện, phản ứng đúng đắn không phải là tạo sự cố hay vấn đề, mà là khởi tạo một thay đổi. Ví dụ, một cảnh báo về việc chứng chỉ SSL sắp hết hạn sẽ kích hoạt một yêu cầu thay đổi tiêu chuẩn để gia hạn chứng chỉ.

Mặc dù công việc của thực hành này, một khi được thiết lập, có tính tự động cao, sự can thiệp của con người vẫn là cần thiết và thực sự thiết yếu. Để định nghĩa các chiến lược giám sát và ngưỡng cụ thể, cần có nhiều góc nhìn, bao gồm cơ sở hạ tầng, ứng dụng, chủ sở hữu dịch vụ, quản lý mức độ dịch vụ và đại diện từ các thực hành liên quan đến bảo đảm.


Lợi ích khi phân loại sự kiện và ứng phó hiệu quả

Việc phân loại sự kiện hiệu quả trong Monitoring and Event Management mang lại nhiều lợi ích quan trọng cho tổ chức, biến hệ thống giám sát thành một lợi thế cạnh tranh:

  1. Phản ứng kịp thời và phù hợp: Đảm bảo đội ngũ CNTT biết chính xác khi nào cần hành động và hành động như thế nào, từ việc ghi nhận log đến kích hoạt quy trình khẩn cấp.

  2. Giảm thiểu tác động của sự cố: Ngăn chặn các vấn đề nhỏ trở thành sự cố lớn hoặc giảm thiểu thời gian ngừng hoạt động và thiệt hại kinh doanh.

  3. Chủ động ngăn ngừa vấn đề: Nhận diện các sự kiện cảnh báo và thực hiện biện pháp phòng ngừa trước khi vấn đề xảy ra, góp phần vào Problem Management và Continual Improvement.

  4. Tối ưu hóa nguồn lực: Tập trung nguồn lực vào các sự kiện quan trọng nhất, tránh lãng phí công sức vào các sự kiện thông tin không cần thiết.

  5. Nâng cao sự hài lòng của khách hàng: Dịch vụ ổn định và ít bị gián đoạn hơn, tăng cường lòng tin và trải nghiệm tích cực.

  6. Cung cấp dữ liệu cho cải tiến: Dữ liệu sự kiện là nguồn thông tin quý giá cho việc học hỏi và cải tiến liên tục quy trình và chất lượng dịch vụ.

  7. Tăng cường an toàn thông tin: Phát hiện sớm các sự kiện bảo mật tiềm ẩn và phản ứng kịp thời để giảm thiểu rủi ro an ninh mạng.


Kết luận

Từ sự kiện thông tin, cảnh báo đến ngoại lệ, việc phân loại chính xác là nền tảng để Quản lý Giám sát và Sự kiện hoạt động hiệu quả. Bằng cách hiểu rõ từng loại sự kiện và cách chúng kích hoạt các hành động tiếp theo, bạn sẽ giúp tổ chức mình phản ứng nhanh chóng, chủ động và giữ cho dịch vụ luôn hoạt động ổn định và đáng tin cậy.

Hãy để mọi sự kiện là một tín hiệu để hành động thông minh hơn và thúc đẩy sự phát triển của tổ chức bạn!


Bạn muốn tìm hiểu sâu hơn?

Đừng bỏ lỡ video tiếp theo của tôi trên YouTube, nơi chúng ta sẽ khám phá cách Monitoring and Event Management tích hợp vào Chuỗi Giá Trị Dịch vụ của ITIL, và những lợi ích chiến lược mà nó mang lại!


Nếu bạn thấy bài viết này hữu ích, đừng quên chia sẻ và để lại bình luận nhé!

Đăng nhận xét

0 Nhận xét