Сегодня днем кто-то в нашем офисе решил отключить наш сервер от штурма, потому что он на улице бушевал. Они не закрыли его, они просто вытащили вилку из розетки во время работы.
Сервер имеет 4 диска SATA в конфигурации программного RAID 10 и LVM, работающий поверх RAID. Сервер работает под управлением CentOS 6.2 Minimal и является хостом виртуальной машины, использующим KVM. В то время, когда он был отключен, на компьютере работало много гостевых машин. У каждого гостя есть один или несколько разделов LVM, которые он использует непосредственно в качестве жестких дисков. Гостевые разделы: EXT3, EXT4 и NTFS. Хост ОС находится в разделе EXT4.
Позже, когда власть вернулась, этот человек включил ее обратно, и она запустилась. Поскольку они подключили его, не подключая монитор в первую очередь, нет возможности увидеть, что появилось на экране. Я попытался подключить монитор сейчас, но он не будет работать, если монитор не подключен при загрузке. Я оставил все как есть, пока не получу несколько советов, поскольку не хочу ничего портить (дальше).
Я могу войти в хост через SSH. Я еще не перезагружал его, если в журнале есть что-то, что может быть полезно.
Что мне нужно сделать, это проверить все диски и разделы на целостность данных, если это вообще возможно. Я думаю, что RAID 10 использует какой-то кэш на основе памяти, и я беспокоюсь о том, что диски будут несовместимы, или файлы будут повреждены, если в реплике были записаны вещи, которые еще не были записаны.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Меня также беспокоит, что он называет мои массивы «почти копиями». Это нормально?
Какие проверки дисков следует выполнить, чтобы убедиться, что с дисками и данными все в порядке? Есть ли другие вещи, которые я должен проверить?
ОБНОВИТЬ
Вывод mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3