tiermutter
Well-known member
Moin zusammen,
kurz zum Hintergrund:
Ich verwende bei mir diverse Filterlisten zum blockieren von Werbung, Tracking, Malware, ... Zum einen IP Listen (nur Malware) und zum anderen DNS-Listen.
Solche Liste sind unter Umständen natürlich recht groß und erfordern entsprechende Ressourcen, weshalb ich die Listen gerne so reduzieren möchte, dass ich bei 800k Einträgen nicht 400k Einträge doppelt habe.
Bei den IP Listen ist das kein Problem, da bei firehol.org sauber aufgeführt ist, welche Liste zu welchem Anteil in einer andere Liste vorhanden ist; hier am Beispiel der Liste "spamhaus_drop":
"spamhaus_drop" ist also zu 100% in der Liste "firehol_l1" enthalten und "firehol_l1" enthält 2,95% identische Einträge zu "spamhaus_drop".
=> da ich "firehol_l1" anwende, brauche ich ich "spamhaus_drop" nicht anwenden und kann mir die Last sparen; "firehol_l1" bietet außerdem weitaus mehr Einträge.
Für DNS Blocklisten gibt es sowas aber ich nicht und nun wollte ich ganz gerne zwei oder mehrere Listen miteinander vergleichen und einfach nur zählen, wie viele Einträge in Liste 1 identisch zur Liste 2 sind.
Mein erster Gedanke ging an Excel, hier scheitere ich allerdings daran, dass das Zählen identischer Werte scheinbar nur für Zahlenwerte, aber nicht für Textwerte möglich ist. Zudem ist Excel (bzw. mein Rechner) mit der Anzahl von (in der "schlimmsten" Kombo) 836k Einträgen/ Zeilen dezent überfordert.
Mein weiterer Gedanke ging an diverse Texteditor, die eine Vergleichsfunktion haben. Leider werden Unterschiede nur optisch angezeigt und nicht gezählt, was mir keinen Nutzen bringt.
Mein letzter Gedanke, den ich als Mausschubser aber noch nicht ausprobiert habe (und weil ich auch nicht verstanden habe, ob das Ergebnis überhaupt das ist, was ich haben will) waren diverse Tools auf dem Linux-CLI.
Hat hier jemand eine Idee, wie das zu bewerkstelligen ist?
kurz zum Hintergrund:
Ich verwende bei mir diverse Filterlisten zum blockieren von Werbung, Tracking, Malware, ... Zum einen IP Listen (nur Malware) und zum anderen DNS-Listen.
Solche Liste sind unter Umständen natürlich recht groß und erfordern entsprechende Ressourcen, weshalb ich die Listen gerne so reduzieren möchte, dass ich bei 800k Einträgen nicht 400k Einträge doppelt habe.
Bei den IP Listen ist das kein Problem, da bei firehol.org sauber aufgeführt ist, welche Liste zu welchem Anteil in einer andere Liste vorhanden ist; hier am Beispiel der Liste "spamhaus_drop":
"spamhaus_drop" ist also zu 100% in der Liste "firehol_l1" enthalten und "firehol_l1" enthält 2,95% identische Einträge zu "spamhaus_drop".
=> da ich "firehol_l1" anwende, brauche ich ich "spamhaus_drop" nicht anwenden und kann mir die Last sparen; "firehol_l1" bietet außerdem weitaus mehr Einträge.
Für DNS Blocklisten gibt es sowas aber ich nicht und nun wollte ich ganz gerne zwei oder mehrere Listen miteinander vergleichen und einfach nur zählen, wie viele Einträge in Liste 1 identisch zur Liste 2 sind.
Mein erster Gedanke ging an Excel, hier scheitere ich allerdings daran, dass das Zählen identischer Werte scheinbar nur für Zahlenwerte, aber nicht für Textwerte möglich ist. Zudem ist Excel (bzw. mein Rechner) mit der Anzahl von (in der "schlimmsten" Kombo) 836k Einträgen/ Zeilen dezent überfordert.
Mein weiterer Gedanke ging an diverse Texteditor, die eine Vergleichsfunktion haben. Leider werden Unterschiede nur optisch angezeigt und nicht gezählt, was mir keinen Nutzen bringt.
Mein letzter Gedanke, den ich als Mausschubser aber noch nicht ausprobiert habe (und weil ich auch nicht verstanden habe, ob das Ergebnis überhaupt das ist, was ich haben will) waren diverse Tools auf dem Linux-CLI.
Hat hier jemand eine Idee, wie das zu bewerkstelligen ist?