Hallo Welt,
ich weiß nicht genau ob ich mir das Problem bei einem Update oder durch eine neue Integration eingetreten habe. Der Zustand ist jedenfalls unbefriedigend.
Ich kann in unregelmäßigen Zeitabständen auf die Weboberfläche (mit Port 8123) nicht mehr zugreifen. Der Browser meldet einen Verbindungsfehler. Das passiert momentan so ca. aller 2 Tage.
Manchmal aber nur manchmal, komme ich noch per SSH drauf und kann die Kiste zumindest geordnet neu starten. Manchmal ist das Netzwerk auch komplett tot.
Alle Automationen laufen im Hintergrund weiter, Licht geht an und aus, Heizung, alles prima.
Mein HA läuft in einer VM mit KVM, dafür habe ich so installiert, wie das in https://community.home-assistant.io...s-with-kvm-on-ubuntu-headless-cli-only/254941 beschrieben ist, nur das bei mir auf dem Host Debian arbytet. Das lief auch ungefähr 2 Jahre völlig fehlerfrei, weshalb ich halt vermute: Ein Update, eine neue Integration. Momentan „beseitige“ ich den Absturz, indem ich über den Host, auf dem die VM läuft, an der Shell mit virsh das Ding reboote.
Wie debuggt man sowas? Ich würde ungern jetzt tagelang mal diese, mal jene Integration deaktivieren, zumal ich immer so 3 Tage warten müsste um ein Ergebnis zu erhalten. Ich habe >30 Integrationen, das würde dauern. In einem vollständigen Linux würde ich jetzt nach /var/log/syslog oder den entsprechenden systemd-Zeug gucken, aber nichts davon sehe ich, wenn ich mich via SSH einlogge?
Das Logfile der Weboberfläche ist unauffällig.
Ich habe zur Diagnose die Integration „System Monitor“ installiert. Festplattenplatz und RAM sind ausreichend vorhanden, die CPU idelt so vor sich hin. Auffällig ist, bei jedem Neustart des Systems werden schlagartig 500 MByte Speicher frei. Das erscheint mir für bissel /tmp relativ… viel? Oder sind das normale Größen?
Und ich beobachte "Merkwürdigkeiten" bzgl. der IP-Konfiguration. Über die Web-GUI (Einstellungen, System, Netzwerk behauptet mein System, es benutze für den Bezug einer IP DHCP. Von dort hat es offensichtlich auch den korrekten DNS-Server, den meine Fritzbox bereit stellt, bezogen. Wenn ich aber via SSH in /etc/resolv.conf gucke, steht da Unsinn drin:
nameserver 172.30.32.3
Ähm, what? Kenne ich nicht. Und er ist auch nur von innerhalb HAOS anpingbar, von keinem anderen PC. (Logisch, mein Netz ist 192… und die IP ist aus dem nichtgeroutetem Adressbereich)
Und es wird noch wilder. Ich habe gestern fürs Debugging mc und joe installiert. Die sind heute wieder weg, ich muss sie neu installieren!
Läuft da, obwohl ich ganz ausdrücklich eine VM mit KVM installiert habe, doch wieder irgendwelcher Containerkram innerhalb der VM? Oder hab ich mir… was eingetreten? Schadcode? Ich bin gerade maximal verwirrt. :-/
Wie debugge ich das? Danke fürs Lesen.
VG Jörg
ich weiß nicht genau ob ich mir das Problem bei einem Update oder durch eine neue Integration eingetreten habe. Der Zustand ist jedenfalls unbefriedigend.
Ich kann in unregelmäßigen Zeitabständen auf die Weboberfläche (mit Port 8123) nicht mehr zugreifen. Der Browser meldet einen Verbindungsfehler. Das passiert momentan so ca. aller 2 Tage.
Manchmal aber nur manchmal, komme ich noch per SSH drauf und kann die Kiste zumindest geordnet neu starten. Manchmal ist das Netzwerk auch komplett tot.
Alle Automationen laufen im Hintergrund weiter, Licht geht an und aus, Heizung, alles prima.
Mein HA läuft in einer VM mit KVM, dafür habe ich so installiert, wie das in https://community.home-assistant.io...s-with-kvm-on-ubuntu-headless-cli-only/254941 beschrieben ist, nur das bei mir auf dem Host Debian arbytet. Das lief auch ungefähr 2 Jahre völlig fehlerfrei, weshalb ich halt vermute: Ein Update, eine neue Integration. Momentan „beseitige“ ich den Absturz, indem ich über den Host, auf dem die VM läuft, an der Shell mit virsh das Ding reboote.
Wie debuggt man sowas? Ich würde ungern jetzt tagelang mal diese, mal jene Integration deaktivieren, zumal ich immer so 3 Tage warten müsste um ein Ergebnis zu erhalten. Ich habe >30 Integrationen, das würde dauern. In einem vollständigen Linux würde ich jetzt nach /var/log/syslog oder den entsprechenden systemd-Zeug gucken, aber nichts davon sehe ich, wenn ich mich via SSH einlogge?
Das Logfile der Weboberfläche ist unauffällig.
Ich habe zur Diagnose die Integration „System Monitor“ installiert. Festplattenplatz und RAM sind ausreichend vorhanden, die CPU idelt so vor sich hin. Auffällig ist, bei jedem Neustart des Systems werden schlagartig 500 MByte Speicher frei. Das erscheint mir für bissel /tmp relativ… viel? Oder sind das normale Größen?
Und ich beobachte "Merkwürdigkeiten" bzgl. der IP-Konfiguration. Über die Web-GUI (Einstellungen, System, Netzwerk behauptet mein System, es benutze für den Bezug einer IP DHCP. Von dort hat es offensichtlich auch den korrekten DNS-Server, den meine Fritzbox bereit stellt, bezogen. Wenn ich aber via SSH in /etc/resolv.conf gucke, steht da Unsinn drin:
nameserver 172.30.32.3
Ähm, what? Kenne ich nicht. Und er ist auch nur von innerhalb HAOS anpingbar, von keinem anderen PC. (Logisch, mein Netz ist 192… und die IP ist aus dem nichtgeroutetem Adressbereich)
Und es wird noch wilder. Ich habe gestern fürs Debugging mc und joe installiert. Die sind heute wieder weg, ich muss sie neu installieren!
Läuft da, obwohl ich ganz ausdrücklich eine VM mit KVM installiert habe, doch wieder irgendwelcher Containerkram innerhalb der VM? Oder hab ich mir… was eingetreten? Schadcode? Ich bin gerade maximal verwirrt. :-/
Wie debugge ich das? Danke fürs Lesen.
VG Jörg