Cloud, cloud, hurra!!!

Barungar · 14 Apr. 2022

Nachdem es vor einiger Zeit OVH hart getroffen hat, reiht sich nun mit Hetzner der nächste Cloud-Anbieter in die Reihe der Datenverlustigen ein.

https://www.golem.de/news/trotz-red...-snapshots-von-hetzner-cloud-2204-164628.html
P.S.: Ebenfalls interessant Atalassian... kein reiner Cloud-Anbieter, aber ein Software-Anbieter, der seine Software mittlerweile auch seit langem als SaaS per Cloud anbietet. Blöd nur, wenn mehr unzählige Instanzen des Kunden permanent löscht und wochenlang für den Restore braucht.
https://www.golem.de/news/atlassian...-jira-und-confluence-bekannt-2204-164632.html

blurrrr · 14 Apr. 2022

Naja, Atlassian hat es aber aufgrund der eigenen Unfähigkeit ziemlich verhauen

Demnach "kam es zu dem äußerst seltenen Fall, dass nach dem nahezu gleichzeitigen Defekt zweier HDDs während des Rebuilds eine dritte Festplatte ausgefallen ist".

Ähm... das "liest" sich jetzt so, als hätte man einfach "nur" ein Raid6 gehabt, aber:

"Snapshots dienen i.d.R. als Datensicherung", sagte der Sprecher. Diese "werden bei uns redundant auf HDDs mittels Erasure Coding gespeichert". Als Speicherlösung werde Ceph eingesetzt. Durch Redundanz soll zwar gewährleistet werden, "dass die gespeicherten Snapshots trotz Ausfall zweier Festplatten noch intakt und verfügbar sind". Doch kam es in diesem Fall zu dem besagten nahezu gleichzeitigen Ausfall zweier HDDs.

Und ich war immer der Meinung, dass man - statt einzelnen Platten - ganze Verbünde (Raid) skaliert (z.B. so wie man es bei GlusterFS auch machen kann) + ggf. Offsite-Replication. Dann wäre es auch fast egal gewesen, was da wie wo ausfällt, aber... ja, kostet halt wieder... Kosten die der Kunde (natürlich nur bis zum Tage des Ausfalls/Verlustes) nicht tragen möchte, aber müsste.... Ein Teufelskreis...

Naja, altes Spielchen, besser man kümmert sich doch noch selbst um das ein oder andere, blindes Vertrauen in irgendwelche Hersteller war irgendwie noch nie so der Renner...

FSC830 · 14 Apr. 2022

Genau deshalb habe ich meine Daten NICHT in der Cloud. Dann so bin ICH selbst verantwortlich, kann mich selber anbrüllen und in den A....wertesten treten.
Und im Gegensatz zur Cloud auch noch ganz umsonst!

Und das ein Hosting Unternehmen Redundanz damit anführt, den Ausfall zweier Platten zu überleben (also Raid6), ist zumindest diskussionsfähig.
Hängt m.E. auch davon ab, wer macht denn die Snapshots, der Kunde oder der Hoster als "Backup"?

Auch die andere Firma, scriptgesteuertes Löschen von Instanzen im Echtdatenbestand. Da sträuben sich einem die Nackenhaare.
Offenbar war eine Testumgebung und Qualitätssicherung wieder zu teuer!

Gruss

Confluencer · 14 Apr. 2022

Aus meiner Erinnerung war OVH schlimmer, da dort eines von deren Datacentern abgebrannt war - bei denen hat man es nicht so mit Availability Zones wie man es bspw. von AWS gewohnt ist.

Den Vorfall bei Atlassian finde ich ziemlich übel - gerade wenn die Sachen tagelang nicht verfügbar sind oder unvollständig bis gar nicht wiederhergestellt werden können. Damit kann man ein Softwarentwicklungsprojekt im einfachsten Fall blind für Fortschritt machen, das Controlling unmöglich machen oder wenn ich an Bitbucket und Bamboo denke die tägliche Arbeit verhindern. Allerdings würde ich hier auch erwarten, dass alles HA ausgelegt ist und zumindest über zwei oder drei Availability Zones verteilt ist,

Bei Hetzner waren ja "nur" Snapshots betroffen. - bitter genug, wenn man die gezogen hat bevor man einen an die Wand gefahren Change durchgeführt hat und nun das System aus dem Snapshot wiederbeleben müsste...

Für mich sind auch Hetztner und OVH keine reinen Cloud-Anbieter. Ich bezweifle das deren OpenStack-Angebote ihr Kerngeschäft darstellen.

Mavalok2 · 25 Apr. 2022

FSC830 schrieb:
Genau deshalb habe ich meine Daten NICHT in der Cloud.

Wie, wo, was denn jetzt? Cloud ist doch nur noch geil. Alles ist viel besser mit Cloud. Alles was geht in die Cloud schieben und glücklich sein. Und alles was nicht in die Cloud geht bekommt zumindest irgendwelche Cloud-Zusatz-BlingBling-Features. Oder etwa nicht? So wird es doch verkauft. Und gerade Geschäftsleitungen die von Technik keine Ahnung habe fahren voll darauf ab, denn auf ihrem privaten Handy funktioniert das ja supi. Abgesehen davon kann von überall auf alles jeder zugreifen, auch die Hacker. Ist das nicht obersupi?

So, genug gelästert.

Cloud gut und recht, aber bitte an den richtigen Stellen. Nicht alles was Cloud ist ist gut, und nicht alles was Cloud ist ist schlecht. Wie immer kommt es auf den richtigen Einsatz an. Und blindes Vertrauen in die Cloud kann nur jemand haben der keine Ahnung hat.
Da bekommt man dann immer mal zu hören, dass Admins die gegen die komplette Cloudisierung sind das Geschäft schädigen würden oder einfach Angst um ihren Job hätten. Da könnte man dann von der anderen Seite argumentieren, dass Admins, die so etwas blind umsetzen nur die Verantwortung auf den Cloudanbieter abschieben wollen oder im eigenen Bereich einfach zu wenig Erfahrung und Kompetenz haben.

Ich sehe den Erfolg in der Koexistenz von On Premises und Cloud. Aber das kann ja jeder so halten wie er will, inklusive gelegentlichen Nasenstüber.

Confluencer · 25 Apr. 2022

Mavalok2 schrieb:
Wie, wo, was denn jetzt? Cloud ist doch nur noch geil. Alles ist viel besser mit Cloud. Alles was geht in die Cloud schieben und glücklich sein. Und alles was nicht in die Cloud geht bekommt zumindest irgendwelche Cloud-Zusatz-BlingBling-Features. Oder etwa nicht? So wird es doch verkauft.

Was ist den schon Cloud... vieles was als Cloud bezeichnet wird hat mit Cloud überhaupt nichts zu tun.
NextCloud = Cloud? Eher nicht. Ein einzelner "Cloud Server" mit fester Ressourcenzordnung = Cloud? Eher nicht... Ich würde selbst die meisten SaaS-Angebote nicht als Cloud bezeichnen.

Mavalok2 schrieb:
Abgesehen davon kann von überall auf alles jeder zugreifen, auch die Hacker. Ist das nicht obersupi?

Ist das so? Ich hatte viele Projekt, wo wenn überhaupt einzelne Dienste wie Loadbalancer oder API-Gateways von außen erreichbar waren. Da werden dann aber auch WAFs in die Kommunationsverbindung eingeschliffen und in der Regel die Security Groups (aka Portfilter) so getrimmt, dass eben nicht aus der ganzen Welt darauf zugegriffen werden kann. Alles andere ist sonst über Site-to-Site vpn, eine Standleitung oder nach VPN-Einwahl zu erreichen.

Ich muss sagen, ich arbeite seit Jahren mit AWS und hin und wieder mit OVH's OpenStack Plattform und finde schon das es für Projekte eine sinnvolle Ergänzung oder gar Betriebsplattform darstellen kann - allerdings haben meine Projekte verpflichtend DesasterRecovery-Pläne und werden mitunter in mehreren Regionen und dort in mehreren AZ betrieben und Backups/Snapshots. Günstig? Nö! Teuer als selber in mehreren Regionen in mehreren Rechenzentren eigene Blech hinzustellen, zu verwalten und entsprechende Mitarbeiter vor Ort zu haben? Eher nicht.... Ein grundsätzliches Problem mit Cloud ist, dass man die Services intensiv kennen lernen muss und auf die Tauglichkeit mit seinen Use-Cases überprüfen muss(!) - alles andere ist ein Abenteuer ins Unbekannte das gut gehen kann.. oder auch nicht.

Das Shared responsibility Model der Cloud-Anbieter besagt das der Anbieter für den Betrieb der Cloud-Plattform verantwortlich ist, aber der Kunden für den Betrieb seiner Anwendungen. Das einzige das man gewinnt ist Flexibilität und beliebige Verfügarkeit von Infrastruktur, darin sein Zeug sicher zu betreiben bleibt aber noch wie vor bei einem selbst - selbst bei einem fully managed service, bei dem man selbst die Security Policies bestimmt.

Mavalok2 · 25 Apr. 2022

Eben, man muss sich mit dem Thema auseinandersetzen. Aber viele wollen und meinen das „ich muss mich um nichts mehr kümmern“ Paket zu haben. Das kann dann daneben gehen.

blurrrr · 25 Apr. 2022

Mavalok2 schrieb:
Aber viele wollen und meinen das „ich muss mich um nichts mehr kümmern“ Paket zu haben.

Das ist das, was ja alle nicht verstehen: Das nennt sich nicht "Cloud", sondern "Dienstleister". Ist egal, ob private Garage, Parkhaus, oder Parkservice... wenn die Karre lahmt, muss das Ding in die Werkstatt / zu einem KFZ-Mechaniker. Zudem gibt es einen - wie ich finde - ganz gravierenden Nachteil bei der Cloud: Geht etwas nicht, kann man nichts machen. So muss man halt darauf warten, dass der Anbieter das Problem beseitigt. Frage ist halt auch immer, was einen ein Ausfall kostet und ob es nicht billiger ist, ggf. selbst samt Dienstleister zu machen. Zugegebenermaßen macht es die Dinge "einfacher", indem man die Verantwortung einfach abwälzt. Oh, Cloud-Mail geht grade mal wieder nicht? Schade, dann können wir leider grade nicht arbeiten... so ein Mist aber auch.... *Füsse hochleg*

Confluencer · 25 Apr. 2022

@blurrrr ich habe das Gefühl, dass Du Managed Services und SaaS-Lösungen meinst die bei einem externen Dienstleister laufen (und von denen gemanaged werden). Ist da wirklich entscheidend, ob diese bei einem Cloud-Anbieter oder einem anderen Managed Services Anbieter/Dienstleister laufen?

Bei einem der Hyperscaler wie AWS,GCE oder Azure merkt man in der Regel nichts von Ausfällen oder Wartungsfenstern, da deren eigenen Dienste entweder Hoch- oder Höchstverfügbar betrieben werden.. Nehmen wir Office365 als Beispiel: ich habe dort seit gut 8 Jahren einen E-Mail-Account und kann mich nicht daran erinnern, dass da jemals etwas nicht funktioniert hätte. Genauso haben wir alle glaube ich auch nie erlebt das die Google Suche, Amazon, Netflix (hier bin ich mir nicht ganz sicher) oder Ebay nicht funktionieren würden, weil der Cloud-Anbieter irgendwas vermurkst hat... Dazu kommt das diese Dienste so gebaut sind, dass sie Hoch- bzw. Höchstverfügbarkeit in ihrer DNA verankert haben. Ein beliebiges Produkt von der Stange mit Replikas zu betrieben macht es noch lange nicht hochverfügbar und kann sogar ungewünschte Nebeneffekt haben. Software muss so gebaut sein, dass sie mit Ausfall umgehen kann und diesen idealerweise nahtlos vorm Endverbraucher verbirgt.

Für mich fühlt sich Cloud ist eigentlich eher wie eine Luxus Do-it-Yourself Fabrik an, in der alle notwendige Werkzeug, Bauteile, Betriebsstoffe gegen Entgelt gemietet werden können, so dass Du damit zusammenstöpseln kannst was Du brauchst. Einige Bauteile sind bereits fertig und müssen nur noch individualisiert werden, andere Bauteile sind aber nur rudimentär und müssen bearbeitet werden bevor sie Einsatzfähig sind.

Mavalok2 · 25 Apr. 2022

Von Office365 liesst man immer wieder mal was von wegen Ausfällen. Die dauern dann meist zwar nur ein paar Stunden und sind oft nicht flächendeckend, sondern nur in bestimmten Regionen, aber existieren tun sie. Auch von anderen großen Anbietern liesst man immer wieder mal davon. Sie existieren also durchaus, diese Ausfälle. Aber natürlich gibt es dies auch bei eigenen Servern und Diensten. Da muss man den Herrschaften des öfteren mal die Illusionen nehmen, dass es 100%-ige Verfügbarkeit für kleines Geld nicht gibt, egal ob großer Dienstleister / Cloud oder eigenes Zeug. Aber Datenverlust und mehrere Wochen Ausfall klingt für mich jetzt nicht nach einer durchdachten Strategie.

blurrrr · 25 Apr. 2022

Confluencer schrieb:
ich habe das Gefühl, dass Du Managed Services und SaaS-Lösungen meinst die bei einem externen Dienstleister laufen (und von denen gemanaged werden). Ist da wirklich entscheidend, ob diese bei einem Cloud-Anbieter oder einem anderen Managed Services Anbieter/Dienstleister laufen?

Verstehe ich jetzt nicht ganz, aber so oder so spielt es keine Rolle - solange es in den Händen von einer dritten Partei liegt, ist man auf diese auch angewiesen. Man kann lediglich versuchen, die Abhängigkeiten von anderen zu dezimieren. Ist es komplett in den Händen anderer, kann man halt nix machen. Ein kleineres Gegenstück dazu wäre z.B. Colocation (eigenes Gerät bei einem Drittanbieter untergebracht). Somit ist das Gerät unter der eigenen Kontrolle (inkl. Platten, etc.). Da kann man noch selbst Hand anlegen. Hilft natürlich alles nix, wenn es beim Anbieter zu einem Ausfall kommt (Routing, Switching, etc.), so war's gemeint

Der "wesentliche" Punkt dabei ist halt, dass man sich "sofort" ins Auto setzen kann und mit der Fehlerbehebung beginnen kann (sofern z.B. benötigte Ersatzteile vorhanden sind).

Confluencer schrieb:
Nehmen wir Office365 als Beispiel: ich habe dort seit gut 8 Jahren einen E-Mail-Account und kann mich nicht daran erinnern, dass da jemals etwas nicht funktioniert hätte.

Mavalok2 schrieb:
Von Office365 liesst man immer wieder mal was von wegen Ausfällen.

Nur weil es massive Großstörungen gibt, heisst es ja nicht automatisch, dass auch "alle" davon betroffen sind (zum Glück)

Mavalok2 schrieb:
Da muss man den Herrschaften des öfteren mal die Illusionen nehmen, dass es 100%-ige Verfügbarkeit für kleines Geld nicht gibt

Ja wie jetzt? Ist das nicht immer alles für umsonst inklusive?

Ist aber auch alles mitunter ein Grund, warum sich viele auch nur schwerlich (bzw. eher garnicht) von ihrer On-Prem-Lösung trennen können/wollen. Man darf ja auch nicht vergessen, dass sich mitunter auch wieder andere Baustellen auftun. Ist alles nur noch in der "Cloud", ist man - je nach Fall - auch "zwingend" auf redundante Internetverbindungen angewiesen. Ist alles im Haus, spielt es oftmals keine wesentliche Rolle, ob das Internet nun funktioniert, oder nicht, die Leute können weiter mit den Daten arbeiten.

Confluencer · 26 Apr. 2022

@blurrrr wird sind beieinander

Wollte nur darauf Hinaus das die generelle Ursache Managed Services sind.

Ob es überhaupt irgendwelche Lösungen gibt die 100% Verfügbarkeit haben außerhalb von Luftfahrt, AKW-Steuerung und sonstigen hochkritischen Systemen (meine Fantasie hat bei AWK-Steuerung aufgehört)?

Bei der Luftfahrt weiss ich das mehrere Systeme (jeweils mit unterschiedlicher Hardware und Programmiersprachen) parallel Berechnungen durchführen und dann per Mehrheit über die Korrektheit der Ergebnisse abstimmen - damit will man verhindern dass ggf. Bugs in Hardware, Programmiersprache oder der jeweiligen Implementierung die Flieger komische Dinge tun lässt.

99,9% Verfügbarkeit erlauben eine Downtime (Ausfall/Wartung) von 8,76 Stunden im Jahr. Bei 99.999% sind es dann schon nur noch 5,26 Minuten im Jahr. Allerding ist die Komplexität bei 99,999% schon ein Wahnsinn, wenn die Wiederherstellungszeit (RTO) und Wiederherstellungszeitpunkt (RPO) bei Null oder nahezu Null liegen sollen. Mein letztes Projekt hatte 99,999% - und lasst euch sagen, nur weil in Cloud-Infrastruktur betrieben werden sollte, wurde einem nichts geschenkt was die Umsetzungskomplexität reduzieren würde.. Ganz im Gegenteil vermeintliche Vereinfachungen des Cloud-Anbieters (von Haus aus Multi-Regional und Replikationslatenz von <1Sekunden) haben sich dann im Details als doch unzureichend herausgestellt. Man kann Höchstverfügbarkeit nicht durch irgendeinen magischen Mechanismus anflanschen.. es MUSS Teil der Lösungs-DNA sein. Wäre ja blöd, wenn ein System wegen Wartung (neuer Software Stand? Patchmanagent?) die Verfügbarkeit nicht aufrecht erhalten könnte, oder?

FSC830 · 26 Apr. 2022

Warte mal ab, wenn die neue Fahrzeug Generation kommt, egal ob E-Auto oder Wasserstoff oder doch Verbrenner, die Räder müssen auf alle Fälle während der Fahrt gewechselt werden können!
Jedenfalls dann, wenn es nach dem Anspruchsdenken der Nutzer geht.

Gruss

blurrrr · 26 Apr. 2022

@FSC830 Jetzt hast Du dabei aber einen ganz wesentlichen Punkt vergessen: Es darf nichts kosten!

Barungar · 26 Apr. 2022

Confluencer schrieb:
Ob es überhaupt irgendwelche Lösungen gibt die 100% Verfügbarkeit haben außerhalb von Luftfahrt, AKW-Steuerung und sonstigen hochkritischen Systemen (meine Fantasie hat bei AWK-Steuerung aufgehört)?

Also das AKW-Systeme eine 100% Verfügbarkeit hätten, halt ich für ein Gerücht. Wenn alle Systeme so ausgelegt wären, dass sie immer und überall funktionieren, dann hätte es kein Tschernobyl und kein Fukushima gegeben. Die AKW-Systeme werden Hochverfügbar sein, 99,999% gestehe ich denen zu, aber eben nicht 100%. In die 0,001% passen dann die beiden erwähten Vorfälle.

Gleiches gilt auch für Flugzeuge und Flugsicherung... 99,999% maybe... 100% never.

Mavalok2 · 26 Apr. 2022

FSC830 schrieb:
die Räder müssen auf alle Fälle während der Fahrt gewechselt werden können!

Mindestens. Habe irgendwo mal gelesen - schon eine Weile her, dass ein Auto-Hersteller empfohlen haben soll, das ein Firmware-Update nicht während der Fahrt durchgeführt werden soll.

Barungar schrieb:
99,999% maybe... 100% never.

99,999 ist ja schon fast 100. Sind wir generös und runden da mal auf 100% auf.

Aber ja, nix ist fix, außer vielleicht der Tod und die Dummheit der Menschheit, was ja schon Einstein wusste.

«Zwei Dinge sind unendlich, das Universum und die menschliche Dummheit, aber bei dem Universum bin ich mir noch nicht ganz sicher.»

Zitat Einstein

Aber sehen wir mal was die Zukunft bringt. Vielleicht wird kann der Tod ja besiegt werden. Was die Dummheit anbelangt...

Confluencer schrieb:
Ob es überhaupt irgendwelche Lösungen gibt die 100% Verfügbarkeit haben ... (meine Fantasie hat bei AWK-Steuerung aufgehört)?

Du meinst meinen Schreibblock: 0,0% Ausfallzeiten.

Ausfallsicherheit gibt es nur bis zum ersten Ausfall. Dann die Erkenntnis, dass es so etwas wie 100%-ig nicht gibt.

UdoAA · 26 Apr. 2022

Hmm, weiss nicht, wie hoch die Verfügbarkeit unseres Freigabesystems ist (läuft auf einem oder mehreren IBM-Mainframe), aber seitdem ich vor 16 Jahren bei meiner Firma angefangen habe, habe ich es nur 1x für 3 Stunden down gefunden.
Ist aber ein Terminalprogram inkl. DB2 Datenbank, die da drauf läuft.

Confluencer · 26 Apr. 2022

Mavalok2 schrieb:
Ausfallsicherheit gibt es nur bis zum ersten Ausfall. Dann die Erkenntnis, dass es so etwas wie 100%-ig nicht gibt.

Weiss ich doch

Aber zumindest bei diesen beiden Dingen habe ich für mich und andere den starken Wunsch das es 100% sind.
Mir ist schon klar, dass das Risiko nie auf 0% gebracht werden kann..

dolbyman · 27 Apr. 2022

UdoAA schrieb:
Hmm, weiss nicht, wie hoch die Verfügbarkeit unseres Freigabesystems ist (läuft auf einem oder mehreren IBM-Mainframe), aber seitdem ich vor 16 Jahren bei meiner Firma angefangen habe, habe ich es nur 1x für 3 Stunden down gefunden.
Ist aber ein Terminalprogram inkl. DB2 Datenbank, die da drauf läuft.

Sauber...hatte vor 18 Jahren das Glück mal mit nem AS400 DB2 System zu Arbeiten...Terminal nicht schön aber Queries gingen ab wie dem Schmitz die Katze..Wurde dann durch MSSQL ersetzt und oh Wunder garnetmehr so flott (hätte ich gern als Backend behalten)

Barungar · 27 Apr. 2022

Ja, wenn man Datenbankperformance will, dann nimmt man Qualität. Auf Arbeit haben wir die wichtigen, produktiven Datenbanken auf IBM DB/2 auf einem IBM zSeries-Sysplex liegen. Ein Sysplex ist ein Cluster aus mehreren IBM z-Großrechnern.

Cloud, cloud, hurra!!!

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Well-known member

Active member

Well-known member

Member

Well-known member

Letzte Anleitungen

Statistik des Forums

Teilen