Есть админы, которые…

Опубликовал(а): admin в: 15 марта 2011 Оставить комментарий3 комментария Перейти к комментариям

Много много букавак….

Все мы знаем, что есть админы, которые не делают бэкапы, и кто уже делает бэкапы…

Я вот непонятно кто, есть у меня сервер со злым рейдом на 4 порта, исторически сложилось, что на нём 2 зеркальных массива.
2х500 и 2х1500гб

И посетило меня чудо-юдо..
один винт из зеркального рейда пошёл в мир иной, точнее как пошёл, из одной папки пропала вся инфа, я подумал, что юзеры удалили попытался туда вернуть файлы из бэкапа, но убунта мне сказала что они уже там лежат.

вот весело, идём в /var/log/messages а там мама дорогая наш 3ware материться как может, что не получается у него чтение с массива…. перезагружаю сервер, вроде всё нормально, данные появились. ну думаю показалось дальше покуриваю логи, но всё повторяется через пол часа, понимаю, что дело хуже чем кажется, сервер у меня великой фирмы HP с великой штуковиной iLO
Зацепился и перезагружаю сервер и мне 3ware намекает мол браток винт с номером 3 fail!
Ну думаю ясно, бегу в магазин за винтом на 1.5Тб включаю назад рейду говорю, что хочу вот сюда всё скопировать, рейд говорит окей и затихает, система грузится дальше, винта не вижу..
начал гуглить как общаться с этим рейдом из консоли.
оказалось всё просто.

Утилита крутая, можно ей вносить новые винты делать REBUILD

[cc lang=”bash”]
# ./tw_cli
//SERVER> info

Ctl Model (V)Ports Drives Units NotOpt RRate VRate BBU
————————————————————————
c0 9650SE-4LPML 4 4 2 0 1 1 –

[/cc]

так нам сказали что массив звать c0 (бывает ещё показывает c4 например)

дальше смотрим что у нас в этом рейде
[cc lang=”bash”]
//SERVER> info c0

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
——————————————————————————
u0 RAID-1 OK – – – 465.651 ON OFF
u1 RAID-1 OK – – – 1396.97 ON OFF

Port Status Unit Size Blocks Serial
—————————————————————
p0 OK u0 465.76 GB 976773168 9QM031A0
p1 OK u0 465.76 GB 976773168 9QM05Y63
p2 OK u1 1.36 TB 2930277168 9VS0N8FE
p3 OK u1 1.36 TB 2930277168 S1XWJ9CZB00472
[/cc]

В общем прога умная, целых 180 страниц на неё мануал.

идём дальше.

на 90% ребилда возникла ошибка, тут становится яснее глубина проблемы.
Ладно, отключаем проверку ошибок и продолжаем ребилд… пока идёт ребилд, мы почитаем SMART

тут показывает, что всё ок с диском, но давайте посмотрим S.M.A.R.T.

Долго я игрался с параметрами smarttools чтоб считать параметры с этого массива

Но остановился вот на чём.

[cc lang=”bash”]
smartctl -d 3ware,2 -a /dev/twa0
_______________^[/cc]
где 2 это номер порта на контроллере. (у меня их от 0 до 3х)

Посмотрим что говорит наш винт. (Привожу полный лог для истории, для себя.)

[cc lang=”bash”]# smartctl -d 3ware,2 -a /dev/twa0
smartctl version 5.37 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model: ST31500341AS
Serial Number: 9VS0N8FE
Firmware Version: CC1G
User Capacity: 1 500 301 910 016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Not recognized. Minor revision code: 0x29
Local Time is: Tue Mar 15 20:48:20 2011 KRAT
SMART support is: Available – device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 617) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.

SMART Attributes Vendor Specific ID# ATTRIBUTE_NAME 1 Raw_Read_Error_Rate 3 Spin_Up_Time 4 Start_Stop_Count 5 Reallocated_Sector_Ct 7 Seek_Error_Rate 9 Power_On_Hours 10 Spin_Retry_Count 12 Power_Cycle_Count 184 Unknown_Attribute 187 Unknown_Attribute 188 Unknown_Attribute 189 Unknown_Attribute 190 Temperature_Celsius 194 Temperature_Celsius 195 Hardware_ECC_Recovered 197 Current_Pending_Sector 198 Offline_Uncorrectable 199 UDMA_CRC_Error_Count 240 Head_Flying_Hours 241 Unknown_Attribute 242 Unknown_Attribute Data Structure revision number: 10
SMART Attributes with Thresholds:
FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
0x000f 119 099 006 Pre-fail Always – 229705477
0x0003 100 100 000 Pre-fail Always – 0
0x0032 100 100 020 Old_age Always – 33
0x0033 097 097 036 Pre-fail Always – 131
0x000f 077 060 030 Pre-fail Always – 56935472
0x0032 080 080 000 Old_age Always – 18358
0x0013 100 100 097 Pre-fail Always – 0
0x0032 100 100 020 Old_age Always – 34
0x0032 100 100 099 Old_age Always – 0
0x0032 001 001 000 Old_age Always – 103
0x0032 100 100 000 Old_age Always – 0
0x003a 084 084 000 Old_age Always – 16
0x0022 058 053 045 Old_age Always – 774045738
0x0022 042 047 000 Old_age Always – 42 (Lifetime Min/Max 0/5)
0x001a 047 017 000 Old_age Always – 229705477
0x0012 100 100 000 Old_age Always – 0
0x0010 100 100 000 Old_age Offline – 0
0x003e 200 200 000 Old_age Always – 0
0x0000 100 253 000 Old_age Offline – 268336671769988
0x0000 100 253 000 Old_age Offline – 1679272636
0x0000 100 253 000 Old_age Offline – 1683060254

SMART Error Log Version: 1
ATA Error Count: 192 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It “wraps” after 49.710 days.

Error 192 occurred at disk power-on lifetime: 18242 hours (760 days + 2 hours)
When the command that caused the error occurred, the device was active or idle.