Festplatte mit /home Partition hängt sich auf

Liebe Alle,

 ich habe seit einiger Zeit unregelmäßig ein Problem mit meiner 

/home-Partition, die sich auf einer eigenen Festplatte befindet.
Reproduziert kann das Problem jederzeit bei intensivem Daten-Schreiben
auf die Festplatte. Irgendwann reagiert auf dem Desktop nichts mehr und
die LED der Festplatte leuchtet durchgehend.
Das einzige, was ich machen kann, ist, mit Strg+Alt+F2 zu einem Terminal
zu wechseln und mich dort als root einzuloggen (als user kann ich mich
dort nicht mehr einloggen, da die Festplatte mit der /home-Partition
anscheinen außer Gefecht ist.

Als root habe ich die dmesg-Meldungen abfangen können, siehe unten.
Ich kann daraus leider nichts erkennen, vielleicht kann mir jemand von
euch da mehr darüber sagen, was diese Meldungen bedeuten könnten. Ist es
ein Fesplattenfehler (ist diese dabei den Geist aufzugeben)? Ist das
Filesystem (btrfs) kaputt? Liegt es am RAM oder an der CPU?
Kernelfehler? Das System ist: Mageia 6, Kernel: 4.14.20-desktop-1.mga6
#1 SMP Sun Feb 18 01:22:02 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux.
Die Festplatte ist eine 2TB Western Digital Corp. WD2002FAEX-0, die
/home-Partition ist auf sdb1, andere Partitionen gibt es auf der
Festplatte nicht.

Wenn ich nur Emails lese und surfe, also kein intensiver Datentransfer
stattfindet, dann hängt sich die Festplatte nur alle 2-3 Tage einmal auf.

Wäre super, wenn jemand einen Hinweis geben könnte, wo ich weiter
ansetzen soll. Danke!

LG
Andreas

Hier die dmesg-Meldungen:

[ 2997.017788] ------------[ cut here ]------------
[ 2997.017800] WARNING: CPU: 5 PID: 0 at kernel/rcu/tree.c:2725
rcu_process_callbacks+0x4d6/0x4f0
[ 2997.017801] Modules linked in: dm_zero ipt_IFWLOG ipt_psd xt_set
ip_set_hash_ip ip_set iptable_nat nf_nat_ipv4 ipt_REJECT nf_reject_ipv4
iptable_mangle iptable_raw nf_conntrack_ipv4 nf_defrag_ipv4 nf_log_ipv4
nf_nat_tftp nf_nat_snmp_basic nf_nat_sip nf_nat_pptp nf_nat_proto_gre
nf_nat_irc nf_nat_h323 nf_nat_ftp nf_nat_amanda iptable_filter ip_tables
xt_recent ip6table_nat nf_nat_ipv6 nf_nat xt_comment ip6t_REJECT
nf_reject_ipv6 nvidia_modeset(PO) xt_addrtype bridge stp llc xt_mark
ip6table_mangle nf_conntrack_snmp xt_tcpudp xt_CT ip6table_raw
xt_multiport nf_conntrack_ipv6 nf_defrag_ipv6 xt_conntrack xt_NFLOG
nfnetlink_log xt_LOG nf_log_ipv6 nf_log_common nf_conntrack_tftp
nf_conntrack_sip nf_conntrack_sane nf_conntrack_pptp
nf_conntrack_proto_gre nf_conntrack_netlink nfnetlink
nf_conntrack_netbios_ns
[ 2997.017844] nf_conntrack_broadcast nf_conntrack_irc
nf_conntrack_h323 nf_conntrack_ftp ts_kmp nf_conntrack_amanda
nf_conntrack ip6table_filter ip6_tables x_tables af_packet binfmt_misc
msr dm_mirror dm_region_hash dm_log dm_mod nvidia(PO) intel_rapl
snd_hda_codec_hdmi fuse x86_pkg_temp_thermal intel_powerclamp coretemp
uas kvm_intel usb_storage kvm irqbypass crct10dif_pclmul
snd_hda_codec_realtek crc32_pclmul ghash_clmulni_intel psmouse
snd_hda_codec_generic pcbc input_leds snd_hda_intel snd_hda_codec
aesni_intel aes_x86_64 tg3 snd_hda_core crypto_simd glue_helper cryptd
snd_hwdep iTCO_wdt iTCO_vendor_support libphy intel_cstate snd_pcm
intel_uncore snd_timer ptp intel_rapl_perf pps_core i2c_i801 lpc_ich snd
mei_me soundcore mei shpchp evdev sch_fq_codel ipv6 crc_ccitt autofs4
mxm_wmi xhci_pci xhci_hcd
[ 2997.017872] ehci_pci ehci_hcd crc32c_intel serio_raw usbcore
firewire_ohci sr_mod firewire_core crc_itu_t usb_common wmi button
[ 2997.017878] CPU: 5 PID: 0 Comm: swapper/5 Tainted: P O
4.14.20-desktop-1.mga6 #1
[ 2997.017879] Hardware name: To Be Filled By O.E.M. To Be Filled By
O.E.M./X79 Extreme4, BIOS P3.70 02/13/2014
[ 2997.017880] task: ffff898aed771d00 task.stack: ffffa8e2019ec000
[ 2997.017881] RIP: 0010:rcu_process_callbacks+0x4d6/0x4f0
[ 2997.017882] RSP: 0018:ffff898affd43f10 EFLAGS: 00010002
[ 2997.017883] RAX: 0000000000000000 RBX: ffff898affd63500 RCX:
00000000000744bf
[ 2997.017884] RDX: ffffffffffffd801 RSI: ffff898affd43f20 RDI:
ffff898affd63538
[ 2997.017884] RBP: ffffffffb904f9c0 R08: 00000000000259c0 R09:
ffffffffb80da507
[ 2997.017885] R10: ffffda8810ad8480 R11: ffff898aef0b1b00 R12:
ffff898affd63538
[ 2997.017885] R13: ffff898aed771d00 R14: fffffffffffffff6 R15:
7fffffffffffffff
[ 2997.017887] FS: 0000000000000000(0000) GS:ffff898affd40000(0000)
knlGS:0000000000000000
[ 2997.017887] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[ 2997.017888] CR2: 00007fb1aa334000 CR3: 000000034200a001 CR4:
00000000000606e0
[ 2997.017889] Call Trace:
[ 2997.017891] <IRQ>
[ 2997.017894] __do_softirq+0xf5/0x295
[ 2997.017897] irq_exit+0xae/0xb0
[ 2997.017898] smp_apic_timer_interrupt+0x70/0x130
[ 2997.017899] apic_timer_interrupt+0x7d/0x90
[ 2997.017900] </IRQ>
[ 2997.017902] RIP: 0010:cpuidle_enter_state+0xa1/0x300
[ 2997.017903] RSP: 0018:ffffa8e2019efea8 EFLAGS: 00000246 ORIG_RAX:
ffffffffffffff10
[ 2997.017904] RAX: ffff898affd62800 RBX: 0000000000000003 RCX:
000000000000001f
[ 2997.017904] RDX: 0000000000000000 RSI: 00000000238e50d6 RDI:
0000000000000000
[ 2997.017905] RBP: ffffffffb90b4fe0 R08: ffff898affd61844 R09:
0000000000000018
[ 2997.017905] R10: 0000000000000382 R11: 0000000000000393 R12:
ffff898affd6aa90
[ 2997.017906] R13: ffffffffb90b5118 R14: 000002b9cc1ed81b R15:
000002b9cc2e09be
[ 2997.017908] ? cpuidle_enter_state+0x92/0x300
[ 2997.017910] do_idle+0x185/0x1e0
[ 2997.017911] cpu_startup_entry+0x6f/0x80
[ 2997.017914] start_secondary+0x1a9/0x200
[ 2997.017915] secondary_startup_64+0xa5/0xb0
[ 2997.017916] Code: f7 00 0f 8f 80 fd ff ff 48 8b 15 36 48 f7 00 48 89
93 b0 00 00 00 e9 6d fd ff ff 4c 89 f6 4c 89 e7 e8 5f 95 70 00 e9 eb fb
ff ff <0f> 0b e9 9e fd ff ff 0f 0b e9 9d fc ff ff e8 67 64 f9 ff 0f 1f
[ 2997.017935] ---[ end trace 52a7df19af975fd4 ]---
[ 3195.870786] INFO: task kworker/u16:3:108 blocked for more than 120
seconds.
[ 3195.870790] Tainted: P W O 4.14.20-desktop-1.mga6 #1
[ 3195.870791] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[ 3195.870793] kworker/u16:3 D 0 108 2 0x80000000
[ 3195.870800] Workqueue: btrfs-submit btrfs_submit_helper
[ 3195.870801] Call Trace:
[ 3195.870817] ? __schedule+0x3c0/0x870
[ 3195.870818] schedule+0x32/0x80
[ 3195.870821] io_schedule+0x12/0x40
[ 3195.870823] get_request+0x344/0x7f0
[ 3195.870826] ? wait_woken+0x80/0x80
[ 3195.870827] blk_queue_bio+0x119/0x420
[ 3195.870829] generic_make_request+0x122/0x2f0
[ 3195.870830] ? submit_bio+0x6c/0x130
[ 3195.870832] submit_bio+0x6c/0x130
[ 3195.870834] ? try_to_wake_up+0x54/0x460
[ 3195.870836] run_scheduled_bios+0x269/0x560
[ 3195.870838] ? btrfs_scrubparity_helper+0xcf/0x320
[ 3195.870839] ? run_scheduled_bios+0x560/0x560
[ 3195.870840] btrfs_scrubparity_helper+0xcf/0x320
[ 3195.870842] process_one_work+0x141/0x3f0
[ 3195.870844] worker_thread+0x47/0x430
[ 3195.870845] kthread+0xff/0x140
[ 3195.870846] ? process_one_work+0x3f0/0x3f0
[ 3195.870847] ? kthread_create_on_node+0x70/0x70
[ 3195.870850] ret_from_fork+0x35/0x40
[ 3195.870870] INFO: task pool:13761 blocked for more than 120 seconds.
[ 3195.870871] Tainted: P W O 4.14.20-desktop-1.mga6 #1
[ 3195.870872] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[ 3195.870873] pool D 0 13761 1 0x00000000
[ 3195.870874] Call Trace:
[ 3195.870875] ? __schedule+0x3c0/0x870
[ 3195.870876] schedule+0x32/0x80
[ 3195.870879] scsi_block_when_processing_errors+0xd5/0x110
[ 3195.870880] ? wait_woken+0x80/0x80
[ 3195.870882] sd_open+0x51/0x170
[ 3195.870885] __blkdev_get+0x366/0x450
[ 3195.870886] ? bd_acquire+0xc0/0xc0
[ 3195.870887] blkdev_get+0x119/0x2e0
[ 3195.870889] ? bd_acquire+0xc0/0xc0
[ 3195.870891] do_dentry_open+0x1e1/0x2e0
[ 3195.870893] path_openat+0x2a8/0x12b0
[ 3195.870895] do_filp_open+0x99/0x110
[ 3195.870898] ? __check_object_size+0xf6/0x190
[ 3195.870899] ? __alloc_fd+0x3d/0x170
[ 3195.870900] ? do_sys_open+0x126/0x210
[ 3195.870901] do_sys_open+0x126/0x210
[ 3195.870904] do_syscall_64+0x6e/0x120
[ 3195.870905] entry_SYSCALL_64_after_hwframe+0x3d/0xa2
[ 3195.870907] RIP: 0033:0x7f739ac0f44d
[ 3195.870907] RSP: 002b:00007f7393ffebc0 EFLAGS: 00000293 ORIG_RAX:
0000000000000002
[ 3195.870909] RAX: ffffffffffffffda RBX: 0000000001483360 RCX:
00007f739ac0f44d
[ 3195.870909] RDX: 00007f739c3208bf RSI: 0000000000000800 RDI:
00000000013f0f10
[ 3195.870910] RBP: 0000000001610e30 R08: 0000000000000073 R09:
0000000000000003
[ 3195.870911] R10: aaaaaaaaaaaaaaab R11: 0000000000000293 R12:
00007f7393ffed58
[ 3195.870911] R13: 00007f7393ffec80 R14: 0000000001610e30 R15:
0000000000000001
[ 3195.870961] INFO: task dcpomatic2:13412 blocked for more than 120
seconds.
[ 3195.870962] Tainted: P W O 4.14.20-desktop-1.mga6 #1
[ 3195.870963] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[ 3195.870964] dcpomatic2 D 0 13412 4589 0x00000000
[ 3195.870965] Call Trace:
[ 3195.870966] ? __schedule+0x3c0/0x870
[ 3195.870968] schedule+0x32/0x80
[ 3195.870969] io_schedule+0x12/0x40
[ 3195.870970] wait_on_page_bit+0xf4/0x130
[ 3195.870972] ? page_cache_tree_insert+0xb0/0xb0
[ 3195.870974] extent_write_cache_pages.constprop.58+0x193/0x3b0
[ 3195.870976] extent_writepages+0x5d/0x90
[ 3195.870978] ? btrfs_releasepage+0x40/0x40
[ 3195.870980] do_writepages+0x1a/0x60
[ 3195.870981] __filemap_fdatawrite_range+0x81/0xb0
[ 3195.870983] btrfs_start_ordered_extent+0xc8/0x130
[ 3195.870985] lock_and_cleanup_extent_if_need+0x33b/0x350
[ 3195.870986] ? prepare_pages+0x15a/0x1f0
[ 3195.870988] __btrfs_buffered_write+0x214/0x700
[ 3195.870990] btrfs_file_write_iter+0x1ff/0x540
[ 3195.870992] ? do_futex+0x2cb/0xb10
[ 3195.870994] new_sync_write+0xea/0x140
[ 3195.870995] vfs_write+0xb3/0x1a0
[ 3195.870997] SyS_write+0x52/0xc0
[ 3195.870998] do_syscall_64+0x6e/0x120
[ 3195.871000] entry_SYSCALL_64_after_hwframe+0x3d/0xa2
[ 3195.871000] RIP: 0033:0x7fe689598c2d
[ 3195.871001] RSP: 002b:00007fe5eb7fd230 EFLAGS: 00000293 ORIG_RAX:
0000000000000001
[ 3195.871002] RAX: ffffffffffffffda RBX: 0000000000000000 RCX:
00007fe689598c2d
[ 3195.871002] RDX: 0000000000005dc0 RSI: 00007fe604045940 RDI:
0000000000000020
[ 3195.871003] RBP: 00007fe604045940 R08: 8000000000000000 R09:
0000000000005dc0
[ 3195.871004] R10: 0000000000c74de0 R11: 0000000000000293 R12:
0000000000000005
[ 3195.871004] R13: 0000000000005dc0 R14: 0000000000005dc0 R15:
00007fe6040458c0
[ 3318.750811] INFO: task kworker/u16:3:108 blocked for more than 120
seconds.
[ 3318.750815] Tainted: P W O 4.14.20-desktop-1.mga6 #1
[ 3318.750816] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[ 3318.750817] kworker/u16:3 D 0 108 2 0x80000000
[ 3318.750823] Workqueue: btrfs-submit btrfs_submit_helper
[ 3318.750824] Call Trace:
[ 3318.750829] ? __schedule+0x3c0/0x870
[ 3318.750831] schedule+0x32/0x80
[ 3318.750833] io_schedule+0x12/0x40
[ 3318.750836] get_request+0x344/0x7f0
[ 3318.750838] ? wait_woken+0x80/0x80
[ 3318.750839] blk_queue_bio+0x119/0x420
[ 3318.750841] generic_make_request+0x122/0x2f0
[ 3318.750842] ? submit_bio+0x6c/0x130
[ 3318.750844] submit_bio+0x6c/0x130
[ 3318.750846] ? try_to_wake_up+0x54/0x460
[ 3318.750847] run_scheduled_bios+0x269/0x560
[ 3318.750850] ? btrfs_scrubparity_helper+0xcf/0x320
[ 3318.750851] ? run_scheduled_bios+0x560/0x560
[ 3318.750852] btrfs_scrubparity_helper+0xcf/0x320
[ 3318.750854] process_one_work+0x141/0x3f0
[ 3318.750856] worker_thread+0x47/0x430
[ 3318.750857] kthread+0xff/0x140
[ 3318.750858] ? process_one_work+0x3f0/0x3f0
[ 3318.750859] ? kthread_create_on_node+0x70/0x70
[ 3318.750862] ret_from_fork+0x35/0x40
[ 3318.750880] INFO: task pool:13761 blocked for more than 120 seconds.
[ 3318.750881] Tainted: P W O 4.14.20-desktop-1.mga6 #1
[ 3318.750882] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[ 3318.750883] pool D 0 13761 1 0x00000000
[ 3318.750884] Call Trace:
[ 3318.750885] ? __schedule+0x3c0/0x870
[ 3318.750886] schedule+0x32/0x80
[ 3318.750889] scsi_block_when_processing_errors+0xd5/0x110
[ 3318.750890] ? wait_woken+0x80/0x80
[ 3318.750892] sd_open+0x51/0x170
[ 3318.750894] __blkdev_get+0x366/0x450
[ 3318.750896] ? bd_acquire+0xc0/0xc0
[ 3318.750897] blkdev_get+0x119/0x2e0
[ 3318.750899] ? bd_acquire+0xc0/0xc0
[ 3318.750900] do_dentry_open+0x1e1/0x2e0
[ 3318.750903] path_openat+0x2a8/0x12b0
[ 3318.750905] do_filp_open+0x99/0x110
[ 3318.750908] ? __check_object_size+0xf6/0x190
[ 3318.750909] ? __alloc_fd+0x3d/0x170
[ 3318.750910] ? do_sys_open+0x126/0x210
[ 3318.750911] do_sys_open+0x126/0x210
[ 3318.750913] do_syscall_64+0x6e/0x120
[ 3318.750915] entry_SYSCALL_64_after_hwframe+0x3d/0xa2
[ 3318.750916] RIP: 0033:0x7f739ac0f44d
[ 3318.750917] RSP: 002b:00007f7393ffebc0 EFLAGS: 00000293 ORIG_RAX:
0000000000000002
[ 3318.750918] RAX: ffffffffffffffda RBX: 0000000001483360 RCX:
00007f739ac0f44d
[ 3318.750919] RDX: 00007f739c3208bf RSI: 0000000000000800 RDI:
00000000013f0f10
[ 3318.750919] RBP: 0000000001610e30 R08: 0000000000000073 R09:
0000000000000003
[ 3318.750920] R10: aaaaaaaaaaaaaaab R11: 0000000000000293 R12:
00007f7393ffed58
[ 3318.750920] R13: 00007f7393ffec80 R14: 0000000001610e30 R15:
0000000000000001
[ 3318.750968] INFO: task dcpomatic2:13412 blocked for more than 120
seconds.
[ 3318.750969] Tainted: P W O 4.14.20-desktop-1.mga6 #1
[ 3318.750970] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[ 3318.750971] dcpomatic2 D 0 13412 4589 0x00000000

Diese Meldungen wiederholen sich dann immer wieder ...

Hai già provato:
- boot da una linux live
- fsck del filesystem del tuo disco da 2TB
?
diego

attachment.htm (26.4 KB)

Andreas Weiss schrieb:
> Ist es ein Fesplattenfehler (ist diese dabei den Geist aufzugeben)?
Hast du schon die S.M.A.R.T.-Werte der Festplatte ausgelesen (entweder
mit den smartmontools oder mit herstellerspezifischen Tools)?

LG
Andreas

Danke einstweilen für die Hinweise!

Smartctl und ein Extended Test von smartctl haben keine Fehler gefunden,
also liegt es vielleicht am Filesystem. Oder vielleicht hat das das
neueste Kernel-Update etwas gebracht (bin gerade dabei zu testen).

Eine Frage zu btrfs:

Ich kenne mich bei diesen Hardware-Dingen leider null aus ... Bei btrfs
tut sich ja ständig was, daher würde es mich interessieren, ob es etwas
bringen würde, die Partition neu zu formatieren (sie wurde vor ca. 5
Jahren formatiert), oder betreffen all diese Änderungen an btrfs nur
Kernel bzw. Treibersoftware?

Einen fsck werde ich nach dem Backup aller Daten durchführen. Ich habe
da zwei Befehle gefunden:
# btrfs scrub
# btrfs check --repair <device>

Sollte reichen oder?

Danke!

LG
Andreas

Ok, der Computer und die Festplatte liefen jetzt über 5 Stunden auf
Vollgas ... Wenn der Fehler noch da wäre, wäre er sicherlich in dieser
Zeit aufgetreten.
Wahrscheinlich lag die Lösung im Kernel-Update von gestern, da war auch
irgendwie die Rede von ATA- und SCSI-Anschlüssen im Changelog, habe aber
nicht genau verstanden, worum es da wirklich ging ...

Also erstmal wieder abwarten und Tee trinken :slight_smile:

Danke!

LG
Andreas