пятница, 12 ноября 2010 г.

беды с xen-серверком

Отпала ссш консолька от виртуалки.. В xm console вошел, получил строку
Message from syslogd@ at Thu Nov 11 20:31:38 2010 ...
centos-x64-xen kernel: journal commit I/O error

В дом0 в дмесге

...
end_request: I/O error, dev sda, sector 8726615
sd 3:0:0:0: SCSI error: return code = 0x00040000
end_request: I/O error, dev sda, sector 8726615
sd 3:0:0:0: SCSI error: return code = 0x00040000
...

end_request: I/O error, dev sda, sector 7601039
type=1701 audit(1289516342.948:3540): auid=500 uid=0 gid=0 ses=514 subj=user_u:system_r:unconfined_t:s0 pid=15252 comm="smartctl" sig=7

(попробовал запустить smartctl, получил Bus error)
И это при том, что сейчас файл с виртуалкой лежит на другой машине и получается через NFS.

root@file:/backup/nfs# gmirror status
Name Status Components
mirror/gm0 COMPLETE ad7
ad5

Там все в порядке.


[root@centos-x64-xen named]# /etc/init.d/avahi-daemon stop
Shutting down Avahi daemon: Failed to open PID file: Read-only file system
Failed to kill daemon: Read-only file system
rm: cannot remove `/var/lock/subsys/avahi-daemon': Read-only file system

Интересная хрень!

В хвосте /var/log/messages строки:

Nov 11 20:29:41 centos-x64-xen kernel: ata4.00: exception Emask 0x50 SAct 0x1 SE
rr 0x680901 action 0x6 frozen
Nov 11 20:29:41 centos-x64-xen kernel: ata4.00: irq_stat 0x0c000000, interface f
atal error
Nov 11 20:29:41 centos-x64-xen kernel: ata4: SError: { RecovData UnrecovData Hos
tInt 10B8B BadCRC Handshk }
Nov 11 20:29:41 centos-x64-xen kernel: ata4.00: cmd 61/08:00:27:c1:00/00:00:00:0
0:00/40 tag 0 ncq 4096 out
Nov 11 20:29:41 centos-x64-xen kernel: res 40/00:04:27:c1:00/00:00:00:0
0:00/40 Emask 0x50 (ATA bus error)
Nov 11 20:29:41 centos-x64-xen kernel: ata4.00: status: { DRDY }
Nov 11 20:29:41 centos-x64-xen kernel: ata4: hard resetting link
Nov 11 20:29:42 centos-x64-xen kernel: ata4: softreset failed (device not ready)
Nov 11 20:29:42 centos-x64-xen kernel: ata4: failed due to HW bug, retry pmp=0
Nov 11 20:29:42 centos-x64-xen kernel: ata4: SATA link up 3.0 Gbps (SStatus 123
SControl 300)
Nov 11 20:29:42 centos-x64-xen kernel: ata4.00: configured for UDMA/133
Nov 11 20:29:42 centos-x64-xen kernel: ata4: EH complete
Nov 11 20:29:42 centos-x64-xen kernel: SCSI device sda: 625140335 512-byte hdwr
sectors (320072 MB)
Nov 11 20:29:42 centos-x64-xen kernel: sda: Write Protect is off

Все, лог кончился.. где-то 6 часов назад.

При этом

[root@centos-x64-xen named]# touch /var/xen/nfs/test
успешен. Хотя это как раз нфс-шара...

Следом идущие баги:

[root@centos-x64-xen named]# xm list
Traceback (most recent call last):
File "/usr/sbin/xm", line 5, in ?
from xen.xm import main
File "/usr/lib64/python2.4/site-packages/xen/xm/main.py", line 55, in ?

File "/usr/lib64/python2.4/site-packages/xen/util/xsm/xsm.py", line 7, in ?
....

IOError: [Errno 2] No usable temporary directory found in ['/tmp', '/var/tmp', '/usr/tmp', '/etc/named']

В общем, хана. Надо ребутиться. Проблема в том, что это уже второй раз. Но сначала попробуем хоть чуть-чуть оживить...

[root@centos-x64-xen named]# mount -t tmpfs none /tmp
[root@centos-x64-xen named]# xm list
Name ID Mem VCPUs State Time(s)
Domain-0 0 1473 4 r----- 139784.4
...

Ура.

И напоследок еще забавный момент.

[root@centos-x64-xen named]# xm list
Name ID Mem VCPUs State Time(s)
Domain-0 0 1473 4 r----- 139802.9
SVN 16 256 1 ---s-- 3203.7
aqua3.wm 22 512 2 ---s-- 140.1
jabber-server 20 256 2 ---s-- 110.2
mail 17 256 1 ---s-- 2244.8
test2-nfs 7 512 1 -b---- 11836.6
zabbix-server 13 256 2 ---s-- 53772.9

В документации что-то было на тему, что -s- юзер никогда не должен увидеть. Ага.

Комментариев нет:

Отправить комментарий