简介
本文档介绍与Unified Computing System Manager(UCSM)3.1.3a版中引入的数据管理引擎(DME)数据库(DB)相关的功能。
先决条件
要求
Cisco 建议您了解以下主题:
使用的组件
本文档中的信息基于以下软件和硬件版本:
- UCSM软件版本3.1.3a
- 交换矩阵互联(FI)6200系列和6332型号
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
背景信息
DME是UCSM软件架构的核心组件,用于保存系统状态信息。信息存储在
本地存储FI设备,其形式为嵌入式数据库,称为DME DB。
数据库中的数据完整性可能因存储硬件设备故障而损坏。UCSM 3.1.3a版本提供许多新功能
通过定期数据库运行状况检查、通过DME数据库的自动备份无缝恢复损坏的数据库和数据保护,来增强UCSM的恢复能力。
UCSM DME数据库运行状况检查功能
定期数据库运行状况检查
UCS管理器定期启动数据库运行状况检查,以验证数据的完整性。
系统还允许用户手动运行运行状况检查和验证数据库完整性。
检验默认配置
默认情况下,每12小时执行一次运行状况检查,以显示当前状态,使用以下命令:
UCS # scope system
UCS /system # show mgmt-db-check-policy detail
Management Database Integrity Check Policy:
Health Check Interval (hours): 12
Last Integrity Check Time: 2017-05-07T14:42:47.019
Internal Backup Interval (days): 14
Last Internal Backup Time: 2017-04-28T14:52:12.648
UCS /system #
更改间隔
虽然可以修改时间间隔或禁用运行状况检查,但强烈建议不要更改默认配置。
警告:强烈建议不要更改默认值
在本例中,间隔从12小时更改为48小时。
UCS /system # set mgmt-db-check-policy health-check-interval 48
UCS /system* # commit-buffer
UCS /system # show mgmt-db-check-policy detail
Management Database Integrity Check Policy:
Health Check Interval (hours): 48
Last Integrity Check Time: 2017-05-07T14:42:47.019
Internal Backup Interval (days): 14
Last Internal Backup Time: 2017-04-28T14:52:12.648
要禁用运行状况检查,请将值设置为零。
手动运行运行状况检查
要验证数据库运行状况检查,可以执行这些命令。如果终端上未打印消息,则DB运行良好。
UCS # scope system
UCS /system # start-db-check
UCS /system* # commit-buffer
此外,任何错误消息都将记录在主FI DME日志文件中(UCSM技术支持捆绑包的一部分)。
[prt:executeHealthCheck] Health Check complete with no corruption
此命令允许您进一步验证数据库状态:
UCS # scope system
UCS /system # show mgmt-db
Management Database Status:
Fabric Id Corrupted Count Last Occurrence Time
--------- ----------------------- --------------------
A 0 1970-01-01T00:00:00.000
B 0 1970-01-01T00:00:00.000
数据库损坏 — 用户级故障和恢复机制
如果UCSM在运行状况检查期间检测到数据库损坏,它会生成故障消息。
当发生一次故障且发生多次损坏时,会生成信息级故障,并记录主要级故障,您需要采取进一步措施并与思科TAC联系。收集技术支持捆绑包。
ucs /system # show fault
Severity Code Last Transition Time ID Description
--------- -------- ------------------------ -------- -----------
Info F1899 2017-04-28T01:09:23.332 263649 Management database corruption detected and recovered on Fabric Interconnect B. Number of corruption events: 1. Last corruption event timestamp: 2017-04-28T01:09:23.332
Major F1900 2017-05-02T00:52:07.846 263651 High number of management database corruption events on Fabric Interconnect A. Number of corruption events: 3. Last corruption event timestamp: 2017-05-02T01:06:06.387
恢复机制
UCSM可自动解决损坏问题,而不会对任何服务或数据平面流量产生任何影响,它会从内存覆盖数据库或从对等FI复制好的数据库。
损坏事件 |
系统恢复机制 |
主要FI |
从内存管理信息树(MIT)中恢复数据库 |
从属FI |
从主FI检索数据库文件 |
重置损坏计数
数据库损坏会一直持续到手动清除。例如,如果根据进一步调查更换了FI硬件以解决损坏,则可以执行此命令以重置损坏故障计数。
ucs-A # scope system
ucs-A /system # set mgmt-db-check-policy reset-corruption-count yes
ucs-A /system* # commit-buffer
定期备份
为了最大限度地提高数据保护,UCSM每两周进行一次UCSM配置(DME DB)的完全状态备份,可用于恢复目的。
此外,验证数据库完整性检查,以便备份包括处于良好状态的配置。
完整状态备份文件保存在每个FI的/workspace/backup目录中。
UCS # connect local-mgmt
UCS(local-mgmt)# dir backup/
1 1823454 Apr 28 14:53:23 2017 internalBackup.1493391132.tgz
更改备份作业间隔
备份作业的频率可从1天更改为60天。如本例所示,我们将值更改为28天。
UCS # scope system
UCS /system # set mgmt-db-check-policy internal-backup-interval 28
UCS /system* # commit-buffer
UCS /system # show mgmt-db-check-policy detail
Management Database Integrity Check Policy:
Health Check Interval (hours): 24
Last Integrity Check Time: 2017-05-10T10:35:24.909
Internal Backup Interval (days): 28
Last Internal Backup Time: 2017-04-28T14:52:12.648
UCS /system #
相关信息