Logbuch für die IT im Heimnetz

tiermutter · 30 Jan. 2023

Moin zusammen,

so wie es aussieht wird es ja nicht weniger mit der heimischen IT und Fehler werden mit wachsender Technik natürlich immer mehr. Dabei sind oftmals auch zurückliegende Änderungen schuld, an die man sich zunächst eventuell gar nicht erinnern kann. Ich weiß gar nicht, wie oft ich schon seitenweise Logs irgendwelcher Systeme durchwühlt habe, um Unstimmigkeiten zu finden, die auf ein aktuell bekanntgewordenes Problem schließen lassen.
Daher habe ich mir nun vor ein paar Monaten überlegt, dass ich ein IT Log führen sollte, in dem ich alle Vorfälle und Vorgänge aufzeichne. Dies reicht von der Einrichtung oder Änderung einzelner Funktionen über Firmwareupdates bis hin zu Systemausfällen oder sonstigen Abweichungen vom Regelbetrieb. Bei Bedarf schreibe ich auch Maßnahmen bzw. resultierende ToDos dazu.
Mein letzter Eintrag ist von heute und lautet

30.01.2023
Firewall Cron für ZFS Scrub und Trim erstellt, 1. bzw. 2. Tag im Monat um 0300

Dabei habe ich mir die Frage gestellt, ob das andere auch so machen... also... wie sieht das bei euch aus? Macht ihr sowas auch oder haltet ihr das für überflüssig?

the other · 30 Jan. 2023

Moinsen,
ein Logbuch im eigentlichen Sinn führe ich zwar nicht, allerdings sind die diversen Geräte bzw ihre Konfig dokumentiert. Dazu dann der Aufbau des Netzwerkes, der Firmwarestatus, die IPs und MACs, usw.

blurrrr · 30 Jan. 2023

Die Frage hätte einen stärkeren Bezug auf das Heimnetzwerk haben sollen, so weiss ich ja garnicht, was ich antworten soll... Diverse Standorte mit unterschiedlichen Voraussetzungen... Monitoring läuft sowieso, das wären "theoretisch" erstmal nur die Vorfälle, allerdings kann man auch alles mögliche mit ins Monitoring aufnehmen (eben auch die Überwachung von z.B. Cronjobs). Will man sowas aber "gezielt" gesondert aufgelistet haben, geht das doch eher in die Richtung einer regulären IT-Dokumentation (wobei da dann auf der anderen Seite natürlich wieder wesentlich mehr dazu gehört).

Ich für mich privat halte es für relativ egal, wann hier welche Cronjobs laufen, privat würde es sowieso nur ... *denk denk denk* ... "2" Geräte betreffen (1x NAS + 1x Raspi) - also doch eher zu vernachlässigen...

Grundsätzlich "kann" sowas schon sinnvoll sein, wenn man einen grösseren Fuhrpark hat und ggf. dann doch irgendwo Leistungseinbußen feststellbar sind, man sie aber ggf. nicht direkt zuordnen kann. Frage ist aber auch immer: Was macht man dann? Vermutlich würde man sich auf das betroffene Gerät schalten und schauen was dort los ist. Ob das jetzt schneller/langsamer wäre als in einer Tabelle nachzuschauen.... man weiss es nicht. In der Tabeller sind auch nur die "theoretischen" Dinge festgehalten (quasi als SOLL-Zustand). Auf dem Gerät selbst wird man aber den IST-Zustand feststellen, das funktioniert via Tabelle mit theoretischen Angaben eben nicht. Als Beispiel sei doch hier einfach mal ein Amok laufender Dienst genannt und bleiben wir einfach mal bei Scrub/Trim... Soll morgens um 03:00 Uhr starten und sollte ungefähr "wann" fertig sein? So... jetzt rennt das Ding aber den ganzen Tag so rund wie ein Sack Schrauben (der Job sollte ja vermutlich schon längst durch sein)... hilft da jetzt die Tabelle? Vermutlich eher nicht, man "muss" schon auf das Gerät schauen.

Das ist dann ein Punkt, wo ich doch eher beim Monitoring bin, wo man ggf. auch einfach definiert, dass der Job innerhalb von Zeitspanne XY abgeschlossen sein sollte und falls nicht, dass dann eine entsprechende Warnung ausgegeben wird. Somit hat sich dann auch jegliches "irgendwo nachgucken" auch direkt erledigt. Allerdings ist ein vernünftiges (und angepasstes) Monitoring auch eine sehr zeitintensive Geschichte

Wirklich "sinnvoll" würde ich so eine Tabelle z.B. dann halten, wenn es darum geht, div. Jobs zeitlich zu timen, einfach nur, damit man eine entsprechende Übersicht hat. Als Beispiel seien hier mal Backups genannt... ist sicherlich weniger zielführend, wenn alle Kisten gleichzeitig ihre Backups auf einen Storage drücken wollen, da wäre so eine zeitliche Übersicht der Jobs schon nicht verkehrt

Also kurzum... sinnvoll, nicht sinnvoll... ich sag einfach mal: Kommt immer darauf an!

Was hingegen Ausfälle angeht... (da schreit es schon wieder nach dem Notfallplan aus der IT-Doku

), "kann man machen". Zumindestens wenn man sehr vergesslich ist, oder sehr viel zu managen hat. Denke aber, dass es durchaus auffällig wäre (egal wie vergesslich man ist), wenn einem z.B. jedes Jahr auf's neue ein Netzteil eines bestimmten Herstellers um die Ohren fliegt, oder einfach nur ständig bestimmte Platten aussteigen... Wenn man viel Zeugs hat, ist da eine Doku sicherlich auch hilfreich, aber bei "viel Zeugs" hat man ggf. sowieso schon eine Doku am Start (mit oder ohne entsprechender Software dahinter und da red ich jetzt nicht von Word oder Excel).

Schlussendlich muss man das halt immer für sich selbst entscheiden und privat ist mir das herzlichst egal - hier steht eh kaum was (s.o.)... Gleiches gilt eigentlich sogar beim Büro (ist eh nur Bastelstube für div. Projekte) und beim anderen Standort... naja, da "muss" halt "alles" sitzen, da ist es dann aber auch definitiv kein Privatvergnügen mehr, sondern ein ganz anderes Niveau.

Also werde ich das hier einfach mal aus "privater" Sicht beantworten: "Nein."

tiermutter · 30 Jan. 2023

Das soll auch keine Doku sein, die Zeiten bei dem Cron sind nur informativ dabei. Die wesentliche Aussage des Punktes für michh ist, dass ichh weiß, wann ich diese Aufgaben angelegt habe und seit wann ich trimme. Letztens (damit hat es angefangen) habe ich gesucht seit wann wie Übertragung von Snapshots meines NAS so lange dauert und was an Quelle und Ziel gewesen sein könnte. Dabei habe ich nach langem Suchen in den Logs beider Geräte festgestellt, dass eins davon einen Absturz erlitt. kurz bevor es langsamer wurde. Hätte ich so ein Log gehabt, dann hätte ich gezielt zum Zeitpunkt des Absturzes schauen können und hätte festgestellt, dass es kurz darauf langsamer geworden ist.
Eine Doku des Heimnetz bzw der Systeme soll dadurch natürlich nicht ersetzt werden...

the other · 30 Jan. 2023

Moinsen,

blurrrr schrieb:
Wirklich "sinnvoll" würde ich so eine Tabelle z.B. dann halten, wenn es darum geht, div. Jobs zeitlich zu timen, einfach nur, damit man eine entsprechende Übersicht hat. Als Beispiel seien hier mal Backups genannt...

sehe ich ebenso: kleine Tabelle mit
Quell-Gerät (wer), Ordner (was), Ziel-Gerät (wohin), Zeitpunkt (wann), Programm / Backupmethode (wie)
Da hier nicht alles vollautomatisch läuft, habe ich hinter den manuellen Jobs noch ne (hier monatliche backups ala manuell angestoßenes) Monatsspalte, in der ich abhake, wenn es erfolgreich gelaufen ist.

Also eine Mischung aus
- Dokuheft mit den Angaben zu Netzwerkaufbau, IPs und MACs, Konfigurationen zu DNS, DHCP, Firewall, VPN, FreeRADIUS, switch, usw.
- Dokuheft NAS Konfiguration
- Tabelle mit Zuweisung Gerät - Firmware Version und Datum der letzten Änderung
- Tabelle mit diversen Backup- und Synchronisationsjobs
- Tabelle über die externen hdds und USB Sticks mit Angabe zu verschlüsselt/nicht verschlüsselt, Kapazität, Kurzname (der dann auf dem jeweiligen Medium klebt zur Wiedererkennung) und wofür gedacht
Und ein zwei drei andere Dinge...

blurrrr · 30 Jan. 2023

tiermutter schrieb:
Dabei habe ich nach langem Suchen in den Logs beider Geräte festgestellt, dass eins davon einen Absturz erlitt. kurz bevor es langsamer wurde.

Naja... da hätte ein Monitoring auch schon durchaus hilfreich sein können (SO klein war Dein Fuhrpark ja auch nicht grade, wenn ich mich richtig erinnere

).

tiermutter schrieb:
Hätte ich so ein Log gehabt, dann hätte ich gezielt zum Zeitpunkt des Absturzes schauen können und hätte festgestellt, dass es kurz darauf langsamer geworden ist.

Hast Du nicht eh noch LibreNMS laufen? Da hätte man ggf. anhand von Graphen mitunter etwas ausmachen können (ZFS), hab das aber nicht im Einsatz, also keine Ahnung was so geliefert wird... Könnte man aber auch via SNMP-Extend noch um eigenen Kram erweitern.

Alternativ halt Mailversand, sobald der Job durch ist... Da Du die Mails dann auch immer "sichtest", würde da sicherlich auch auffallen, dass die "Habe fertig!"-Mail auf einmal nicht mehr morgens um 5 Uhr kommt, sondern ggf. erst um 11 Uhr. Gleiches gilt eigentlich auch für Backups (sofern man vorher nicht großartig etwas geändert hat). Das sind dann so Dinge, wo ich dann immer etwas nervös werde

tiermutter · 30 Jan. 2023

blurrrr schrieb:
Alternativ halt Mailversand,

Dann hätte ich täglich etwa 12 Mails mit Erfolgsmeldungen für Backups... Ne danke

blurrrr · 30 Jan. 2023

Da möchte ich doch noch kurz auf einen Umstand hinweisen... Ich frage einfach mal ganz einfach: Was fällt eher auf?

Backup läuft nicht: Mail
Backup läuft: keine Mail
System tot: keine Mail

vs.

Backup läuft nicht: Mail
Backup läuft: Mail
System tot: keine Mail

Also ich kriege "immer" Mails von Backups, ausser bei Systemausfällen (dann halt Mails über Ausfälle vom Monitoring). Schon allein, um dort auch die Zeiten (da sind wir wieder...) entsprechend im Blick zu haben. Wenn man mal ehrlich ist.... 12 Mails (die man ohne besonderes Vorkommnisse nichtmals genauer anschauen muss) mit Timestamps, das zu "überfliegen" dauert vielleicht 3 Sekunden, zusätzlich der "Lerneffekt", wann wie wo welche Backups ca. normalerweise fertig sein sollten, so dass auch jegliche etwas grössere Abweichung davon sofort auffällt und mitunter auch direkt einem anderen Vorgang zuzuordnen ist (z.B. neue Ladung Urlaubsbilder/-videos auf dem NAS = nächste Backup dauert direkt mal 30 Minuten länger). Fehlt dann mal eine Mail, fällt das auch recht flott auf, also von daher bezuge ich es dann doch lieber ein paar Mails mehr zu bekommen, als "gar keine" (je nach Fehlerfall kann ggf. auch gar keine Mailbenachrichtung mehr zugestellt werden).

Backup läuft: keine Mail

Es könnte natürlich aber auch etwas anderes als ein kompletter Systemausfall sein, z.B. Mailserver-seitig, oder Mails gehen aus einem anderen bestimmten Grund nicht raus. Eventuell funktioniert auch einfach nur der Mailversand vom z.B. NAS aus nicht mehr ordnungsgemäß, oder oder oder... man weiss es nicht... kriegst keine Mails, Lampen am NAS blinken noch, wird schon in Ordnung sein... einfach mal blind darauf vertrauen... Ist jetzt eher nicht so mein Ding, aber deswegen ja... ganz persönliche Geschichte (egal ob Doku/Monitoring/etc.), ich weiss nur, dass ich kein Bock darauf hätte, wenn ich keine Mails bekommt würde, da ich ansonsten keine Ruhe finden würde

So, jetzt aber mal wieder flott back2topic!

EDIT: Bevor das falsch rüber kommt, das ist nicht als Kritik gemeint, sondern soll lediglich zum überdenken anregen

tiermutter · 30 Jan. 2023

Die Vor- und Nachteile der Varianten kenne ich durchaus, daher hab ich ja mehrere Backups, damit eins auch mal ausfallen kann oder zwei

So viele Mails würden mich einfach nur nerven und irgendwann keine Beachtung mehr finden.

Aber Backup ist ja nicht das einzige Thema, das mit dem Log abgefangen wird. Da kommt ja Vieles zusammen, was man sich ohne Weiteres gar nicht ausdenken kann. Da ist so ein Überblick finde ich dann doch recht hilfreich, darf natürlich nicht zugemüllt sein.

Aber mal sehen, vielleicht ist es ja sogar so unwichtig, dass ich in ein paar Wochen schon nicht mehr daran denke oder es irgendwann aufgebe, weil ich es gar nicht brauche

Barungar · 30 Jan. 2023

Um Überblick über Fehlermeldungen usw. zu halten, nutze ich SYSLOG... somit können alle relevanten Systeme (über Netzwerk) in ein gemeinsames Log schreiben.

tiermutter · 30 Jan. 2023

Mit Syslog habe ich irgendwann mal auch erste Gehversuche unternommen, komme damit aber nicht wirklich zurecht.
Was wäre denn ein anständiger Reader für die Logs? Wenn ich mir zB das Log meines OMV anschaue, dann sehe ich nur, dass ich mir das sparen kann

Error Logs zeigen dann aber auch nicht zwingend alles... bei dem o.g. Fall zB gab es keine Fehlermeldung, dass das NAS abgeschmiert ist. Das habe ich nur anhand eines Einschaltzeitpunkts gesehen, dem kein Shutdown vorausging (es gab auch anschließend keine Meldung bzgl Filesystemcheck wie bei QNAP oft üblich). Ich hab nur gesehen, dass da irgendwas vorgefallen ist, wusste aber natürlich nicht mehr, was genau passierte, war ja schon viele Monate her...

blurrrr · 30 Jan. 2023

Naja, Syslog ist eine Sache, Auswertung nochmal eine andere, dafür gibt es aber auch fertige Lösungen... einer der "dickeren" Lösungen wäre z.B. Graylog, da ist es aber auch nicht "mal eben" gemacht... etwas altbackener kommt Loganalyzer von Adiscon daher (tut aber wie es soll). Ansonsten gibt es noch etliche andere (z.B. Kiwi - Solarwinds, aber nur kostenlos bis 5 Geräte), usw. da muss man sich einfach mal etwas umschauen. Ansonsten bietet z.B. so eine Syno auch an Syslog-Server zu spielen, die Filtermöglichkeiten sind da allerdings eher begrenzt (zumindestens, als ich das letzte mal vor etlichen Jahren geschaut habe).

Barungar · 30 Jan. 2023

Naja, SYSLOG als Unix Demon schreibt seine Logs in eine Textdatei unter /var/log ...
Du hast dann auf dem SYSLOG-Server, in der Logdatei die Logmeldungen aller Systeme chronologisch.
Nehmen wir als z.B. das Kabel zwischen Switch A - Port 1 und Switch B - Port 2 wird gezogen.
Zwischendurch rebooten wir noch Router C...

Dann stünde im SYSLOG sowas:

2023-01-30 19:04:25 SWITCH A Port 1 changed state to down
2023-01-30 19:04:25 SWITCH B Port 2 changed state to down
... viele andere Meldungen ...
2023-01-30 19:05:34 ROUTER C Rebooting....
... viele andere Meldungen ...
2023-01-30 19:05:35 SWITCH A Port 5 changed state to down
2023-01-30 19:05:36 SWITCH B Port 2 changed state to up
2023-01-30 19:05:37 SWITCH A Port 1 changed state to up
... viele andere Meldungen ...
2023-01-30 19:07:21 ROUTER C System started after reboot

tiermutter · 30 Jan. 2023

Ja sowas kann ich auch lesen... bei mienem OMV sieht das so aus:

Code:

<77>1 2023-01-28T03:56:38+01:00 openmediavault anacron 923 - - anacron[923]: Job `cron.daily' started
<77>1 2023-01-28T03:56:38+01:00 openmediavault anacron 3323 - - anacron[3323]: Updated timestamp for job `cron.daily' to 2023-01-28
<20>1 2023-01-28T04:17:01+01:00 openmediavault postfix 4438 - - postfix/postdrop[4438]: warning: unable to look up public/pickup: No such file or directory
<77>1 2023-01-28T04:19:28+01:00 openmediavault anacron 923 - - anacron[923]: Received SIGUSR1
<11>1 2023-01-28T04:19:28+01:00 openmediavault blkmapd 333 - - blkmapd[333]: exit on signal(15)
<11>1 2023-01-29T03:51:38+01:00 openmediavault blkmapd 333 - - blkmapd[333]: open pipe file /run/rpc_pipefs/nfs/blocklayout failed: No such file or directory
<29>1 2023-01-29T03:51:38+01:00 openmediavault wpa_supplicant 890 - - wpa_supplicant[890]: Successfully initialized wpa_supplicant
<77>1 2023-01-29T03:51:38+01:00 openmediavault anacron 924 - - anacron[924]: Anacron 2.3 started on 2023-01-29
<77>1 2023-01-29T03:51:38+01:00 openmediavault anacron 924 - - anacron[924]: Will run job `cron.daily' in 5 min.
<77>1 2023-01-29T03:51:38+01:00 openmediavault anacron 924 - - anacron[924]: Jobs will be executed sequentially
<28>1 2023-01-29T03:51:38+01:00 openmediavault systemd 1 - - systemd[1]: openmediavault-engined.service: Supervising process 942 which is not our child. We'll most likely not notice when it exits.
<28>1 2023-01-29T03:51:40+01:00 openmediavault systemd 1 - - systemd[1]: nut-monitor.service: Supervising process 1080 which is not our child. We'll most likely not notice when it exits.
<29>1 2023-01-29T03:51:40+01:00 openmediavault upsmon 1080 - - upsmon[1080]: Init SSL without certificate database
<27>1 2023-01-29T03:52:09+01:00 openmediavault monit 1020 - - monit[1020]: 'rrdcached' process is not running
<27>1 2023-01-29T03:52:39+01:00 openmediavault monit 1020 - - monit[1020]: 'rrdcached' failed to start (exit status -1) -- Program '/bin/systemctl start rrdcached' timed out after 30 s
<27>1 2023-01-29T03:52:39+01:00 openmediavault monit 1020 - - monit[1020]: 'collectd' process is not running
<27>1 2023-01-29T03:53:06+01:00 openmediavault systemd-networkd-wait-online - - - systemd-networkd-wait-online[369 Event loop failed: Connection timed out
<29>1 2023-01-29T03:53:06+01:00 openmediavault systemd 1 - - systemd[1]: systemd-networkd-wait-online.service: Main process exited, code=exited, status=1/FAILURE
<28>1 2023-01-29T03:53:06+01:00 openmediavault systemd 1 - - systemd[1]: systemd-networkd-wait-online.service: Failed with result 'exit-code'.
<27>1 2023-01-29T03:53:06+01:00 openmediavault systemd 1 - - systemd[1]: Failed to start Wait for Network to be Configured.
<29>1 2023-01-29T03:53:07+01:00 openmediavault collectd 1137 - - collectd[1137]: Systemd detected, trying to signal readiness.
<28>1 2023-01-29T03:53:07+01:00 openmediavault collectd 1137 - - collectd[1137]: nut plugin: Connection is unsecured (no SSL).
<28>1 2023-01-29T03:53:07+01:00 openmediavault systemd 1 - - systemd[1]: cgroup compatibility translation between legacy and unified hierarchy settings activated. See cgroup-compat debug messages for details.

Da sind sicherlich ein paar notices dabei die ich noch filtern könnte, aber wenn ich hier ein Problem bzgl der Backups suchen soll ........... Da steht mir zu viel Mist drin...

blurrrr · 30 Jan. 2023

Kannst doch z.B. nach "error" oder "fail" filtern bzw. halt schauen, wie es aussieht, wenn ein Backup-Job fehlschlägt und gezielt danach filtern

EDIT: Sorry, ganz vergessen...

cat syslog | grep -i -E "error|fail"

... so kannst Du dann z.B. direkt nach "error" oder "fail" filtern (-i ignoriert dabei die Groß- und Kleinschreibung)

tiermutter · 30 Jan. 2023

Dann muss ich mal einen fehlschlagen lassen... OMV ist irgendwie set and forget... wahrscheinlich brauche ich die Logs niemals

Logbuch für die IT im Heimnetz

Führt ihr ein IT-Log?

Ja

Nein

Noch nicht, aber ich denke darüber nach

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Letzte Anleitungen

Statistik des Forums

Teilen