Merkwürdige Teilabstürze Home Assistant

joerg5324

New member
Hallo Welt,

ich weiß nicht genau ob ich mir das Problem bei einem Update oder durch eine neue Integration eingetreten habe. Der Zustand ist jedenfalls unbefriedigend.

Ich kann in unregelmäßigen Zeitabständen auf die Weboberfläche (mit Port 8123) nicht mehr zugreifen. Der Browser meldet einen Verbindungsfehler. Das passiert momentan so ca. aller 2 Tage.

Manchmal aber nur manchmal, komme ich noch per SSH drauf und kann die Kiste zumindest geordnet neu starten. Manchmal ist das Netzwerk auch komplett tot.

Alle Automationen laufen im Hintergrund weiter, Licht geht an und aus, Heizung, alles prima.

Mein HA läuft in einer VM mit KVM, dafür habe ich so installiert, wie das in https://community.home-assistant.io...s-with-kvm-on-ubuntu-headless-cli-only/254941 beschrieben ist, nur das bei mir auf dem Host Debian arbytet. Das lief auch ungefähr 2 Jahre völlig fehlerfrei, weshalb ich halt vermute: Ein Update, eine neue Integration. Momentan „beseitige“ ich den Absturz, indem ich über den Host, auf dem die VM läuft, an der Shell mit virsh das Ding reboote.

Wie debuggt man sowas? Ich würde ungern jetzt tagelang mal diese, mal jene Integration deaktivieren, zumal ich immer so 3 Tage warten müsste um ein Ergebnis zu erhalten. Ich habe >30 Integrationen, das würde dauern. In einem vollständigen Linux würde ich jetzt nach /var/log/syslog oder den entsprechenden systemd-Zeug gucken, aber nichts davon sehe ich, wenn ich mich via SSH einlogge?

Das Logfile der Weboberfläche ist unauffällig.

Ich habe zur Diagnose die Integration „System Monitor“ installiert. Festplattenplatz und RAM sind ausreichend vorhanden, die CPU idelt so vor sich hin. Auffällig ist, bei jedem Neustart des Systems werden schlagartig 500 MByte Speicher frei. Das erscheint mir für bissel /tmp relativ… viel? Oder sind das normale Größen?

Und ich beobachte "Merkwürdigkeiten" bzgl. der IP-Konfiguration. Über die Web-GUI (Einstellungen, System, Netzwerk behauptet mein System, es benutze für den Bezug einer IP DHCP. Von dort hat es offensichtlich auch den korrekten DNS-Server, den meine Fritzbox bereit stellt, bezogen. Wenn ich aber via SSH in /etc/resolv.conf gucke, steht da Unsinn drin:

nameserver 172.30.32.3

Ähm, what? Kenne ich nicht. Und er ist auch nur von innerhalb HAOS anpingbar, von keinem anderen PC. (Logisch, mein Netz ist 192… und die IP ist aus dem nichtgeroutetem Adressbereich)

Und es wird noch wilder. Ich habe gestern fürs Debugging mc und joe installiert. Die sind heute wieder weg, ich muss sie neu installieren!

Läuft da, obwohl ich ganz ausdrücklich eine VM mit KVM installiert habe, doch wieder irgendwelcher Containerkram innerhalb der VM? Oder hab ich mir… was eingetreten? Schadcode? Ich bin gerade maximal verwirrt. :-/

Wie debugge ich das? Danke fürs Lesen.

VG Jörg
 
Hi,

bin zwar kein HA-User, aber...
Wie debuggt man sowas?
also ich würde erstmal den/die Datenträger des Hypervisors überprüfen. Was dann den HA-Teil angeht, entweder direkt alles aus- und dann schrittweise wieder einschalten, oder einfach nur schrittweise ausschalten.

Hast Du denn den "vollwertigen" SSH-Zugang aktiviert (https://developers.home-assistant.io/docs/operating-system/debugging/)? Und ja, HAOS ist zwar ein VM-Image, darin läuft dann aber wieder Docker, weswegen der "normale" SSH-Zugang auch nur bedingt hilft :)
 
> also ich würde erstmal den/die Datenträger des Hypervisors überprüfen.

Es laufen noch andere VMs auf dem Host, alles Andere sieht unauffällig aus.

Hast Du denn den "vollwertigen" SSH-Zugang aktiviert

Hui. Danke. Das kannte ich noch gar nicht. Es war ja bislang nicht notwendig. Muss ich testen.

Und ja, HAOS ist zwar ein VM-Image, darin läuft dann aber wieder Docker, weswegen der "normale" SSH-Zugang auch nur bedingt hilft :)

Orr nee. Ich hatte gehofft mit der VM diesen Dockerkram umgehen zu können. :-( Wer erfindet denn sowas? Eine VM in einer VM? Da muss ich mich über andere Merkwürdigkeiten im System (z.-B. gibt es immer wieder Ärger mit dem Durchreichen eines Bluetooth-Dongles) nicht wundern.

VG und Danke erstmal!
 
Jedes Addon ist ein Docker, der Supervisor, ...
Ich vermute mal, man hat sich was dabei gedacht. Updates, Backups, ...
 
Zuletzt bearbeitet:
Mal ganz doof gefragt. Du hast nicht zufällig einen Telekom Router am Start ?
Der Fehler ähnelt dem, den ich hatte, seit ich diese verfluchte Telekom ***** dran hatte. Ständig war die Verbindung zum Server weg.
Seit ich ne FritzBox dran habe nicht einen Ausfall mehr gehabt.
 
Mal ganz doof gefragt. Du hast nicht zufällig einen Telekom Router am Start ?
Seit ich ne FritzBox dran habe nicht einen Ausfall mehr gehabt.

Nein, ist ne FritzBox :)

Ich hab jetzt weiter nach dem Fehler gesucht. Nachdem ich den Hafer mit dem Docker-ssh erfasst und laut genug geflucht hatte, hab ich jetzt "richtig ssh". Es hilft mir aber nicht weiter. Da es ja so aussieht also würde nur das Netzwerk abstürzen, der Rest aber weiter laufen suche ich dort. Ha Le Lu Jah. Noch umständlicher kann man das ja gar nicht bauen. Meine Güte.

Im "gefakten ssh sehe ich:

Code:
~ netstat -tulpen | grep 8123
tcp        0      0 0.0.0.0:8123            0.0.0.0:*               LISTEN      0          11596

Ok. "Irgendwas" hält den Port offen.

Im "richtigen ssh" steht da:

Code:
# netstat -tulpen | grep 8123
tcp        0      0 0.0.0.0:8123            0.0.0.0:*               LISTEN      3542/python3

Ich mag es noch nicht glauben, aber die haben einen Webserver in Python nachgeschrieben, oder wie?

Code:
# ps axu | grep 3542
root        3542  2.6 14.1 852432 556120 ?       Ssl  10:57   0:40 python3 -m homeassistant --config /config

Doch, sie haben. :-(

Und eigentlich hängt auch nicht nur der Webserver. Das Energiedashboard, das ich aus der SAJ-Integration befülle und das deshalb auch IP, braucht, hat für die Zeit des Netzwerkausfalls auch keine Daten erfasst.

Code:
# ip a

Liefert FÜNFZEHN unterschiedliche Netzwerkinterfaces. Eines hat tatsächlich die IP, die das HA haben soll.

Code:
# ls /etc/network/
if-down.d       if-post-down.d  if-pre-up.d     if-up.d

Eine interfaces gibt es auch nicht. Ist es systemd-Kram?

Code:
# systemd-networkd.service
-sh: systemd-networkd.service: not found

Nein.

Code:
# ps axu | grep etwork
root         419  0.1  0.4 322420 18128 ?        Ssl  10:57   0:05 /usr/sbin/NetworkManager --no-daemon

Aha. Es ist Network Manager. Das Ding kenne ich nur, wenn ich Linux mit einer GUI benutze. Na egal. https://wiki.debian.org/NetworkManager sagt, ich solle zum Debugging:

Code:
# journalctl -b

benutzen. Ja, da stehen *jede Menge* Fehler drin. Ich beginne, AddOns zu deaktivieren, die hier auffällig sind. nmcli ist unauffällig. Ich werde warten müssen bis die Kiste wieder abgestürzt ist, vielleicht steht dann etwas brauchbares drin. Ganz allgemein habe ich gerade keine so gute Meinung mehr von HA. Ok, es lief paar Jahre fehlerfrei, aber FÜNFZEHN Netzwerkinterfaces für EINE Funktion, und gefühlt drölftausend Container IN EINER VM, was gleich mal gar keinen Sinn macht, und:

Code:
# mount | wc -l
90

NEUNZIG mounts, obwohl nur eine SSH drin hängt, das ist überflüssige Komplexität für relativ wenig Funktion. KISS-Prinzip und so. Und es macht die Fehlersuche sinnlos aufwendig. (Ich bin jetzt für ca. 2 Wochen nicht am Gerät und kann hier weder lesen noch schreiben, nur wenn man sich wundert warum ich nicht zeitnah antworte.)

VG Jörg
 

Letzte Anleitungen

Statistik des Forums

Themen
7.230
Beiträge
70.345
Mitglieder
7.666
Neuestes Mitglied
Artax
Zurück
Oben