Lession Learned: Mainboard-Tausch beim Proxmox Host

Confluencer

Active member
Ich möchte hier meine Erfahrungen teilen, die ich beim Maiboard-Tausch mit einem meiner Proxmox gemacht habe. Er ist Teil eines 3 Knoten Proxmox-Clusters.

Ursprünglich war ein Intel Xeon E3-1275x5 Board im Rechner, dass ich jetzt gegen ein Ryzen 7 7700 ausgetauscht habe. Die Boot NVME und einen zusätzlichen SATA-Controller habe ich ebenfalls übernommen. Auf dem Host ist eine NAS-VM, an den der SATA-Controller via PCI(e)-Passthrough durchgereicht wird.

Natürlich habe ich keinerlei Vorbereitungen gemacht und einfach nur Mainboard/CPU/RAM getauscht und die NVME und den SATA-Controller verbaut und mich von Problem zu Problem gehangelt.

Generell

1. PVE Node nach Boot nicht übers Netzwerk erreichbar.
  • Ursache: im neuen Board laut die Network Device Names anders.
  • Lösung: Network Device Names in /etc/network/interfaces anpassen und dann mittels ifreload -a scharfschalten
    • Die neuen Device Names habe ich mit ip a und dmesg | grep "{device name}" identifziert.
  • Lesson Learned: Muss jeder machen nach einem Mainboard-Tausch; kann nicht vorbereiten werden.

2. Unwirksame Grub-Parameter für Intel-Iommu
  • Ursache: Faulheit
  • Lösung: Einstellung in /etc/defaults/grub entfernen, und dann mittels update-grub übernehmen.
  • Lesson Learned: Hätte man vorbereiten können.

PCI(e)-Passthrough

3. Direkt nach dem Boot wirf PVE Buffer I/O Error und re-mounted das Root-Filesystem Read-Only
  • Ursache: Das PCI(e)-Passthrough der NAS-VM hat das Problem verursacht, sobald die VM gestartet wurde, da die Device-ID jetzt nicht mehr richtig ist.
  • Lösung: Auf einem der anderen Nodes in /etc/pve/nodes/${nodename}/qemu-server/${vmid}.conf Onboot deaktivieren, danach erst den entsprechenden Node booten. Die Einstellungen werden aus dem verteilten Config Folder übernommen. Nach dem Start des Nodes kann man über die UI an der ausgeschalteten VM die Device-ID konfigurieren.
  • Lesson Learned: In Vorbereitung hätte vor dem Umbau des Mainboards "onboot" für die VM ausgeschaltet werden müssen!

4. NAS VM mit PCIe-Passthrough führt zu merkwürdigen Verhalten: Eine der Netzwerkkarten ist plötzlich inaktiv und alle Geräte die an der Bridge hingen nicht mehr erreichbar, sodass der PVE Node plötzlich nicht mehr Teil des Clusters war
  • Ursache: die Iommu Group der Netzwerkkarte und des SATA-Controllers waren identisch. Interessanterweise war Iommu im Bios des Ryzen Boards scheinbar nicht aktiviert?
  • Lösung:: Iommu und alles wovon die Aktivierung abhängt aktivieren
  • Lesson learned: Ich hätte im Bios des Ryzen Boards vorab genauer danach schauen müssen.

Gerade die Probleme mit PCI(e)-Passthough haben mich etliche Stunden gekostet und wären mit Vorbereitung vermeidbar gewesen.
 
Zuletzt bearbeitet:
Heute hatte ich nach einem Firmware Update vom Board (bei dem alles auf Werkseinstellung gesetzt wurde) das Problem, dass netzwerkseitig nichts mehr ging.

Ich hatte schon im Verdacht, dass sich, warum auch immer, die Interfacenamen für die Netzwerkkarten geändert haben. Da muss im Bios wohl vorher eine Einstellung aktiv gewesen sein, die dafür gesorgt hatte, das es vorher enp2s0 und enp6s0 waren, denn jetzt sind daraus enp112s0 und enp107s0 geworden.

Mit dmesg | grep enp konnte ich mir die neuen Interfacenamen heraussuchen und dann in /etc/network/interfaces eintragen und mit ifreload -a scharfschalten.
 

Letzte Anleitungen

Statistik des Forums

Themen
5.880
Beiträge
57.443
Mitglieder
5.813
Neuestes Mitglied
Blacksnofru
Zurück
Oben