Kontrola stavu AWS: Praktický sprievodca, ako zostať na správnej ceste

  • Uprednostnite AWS Health Dashboard podľa regiónu a doplňte ho o status.aws.amazon.com a kontextové zdroje.
  • Prijímajte udalosti stavu pomocou EventBridge a automatizujte odpovede pomocou CloudWatch a automatického škálovania.
  • Sledujte obnovenia v ACM (RenewalStav) a reagujte na postupné upozornenia pred ich vypršaním.
  • Interpretuje kontroly EC2 (systém, inštancia, EBS) a definuje akcie v prípade zlyhaní.

Skontrolujte stav AWS

Pokiaľ ide o kontrolu, či sa AWS darí alebo má problémy, nestačí sa len pozrieť na zelené alebo červené svetlo: Musíte prejsť cez panel zdravia, signály v reálnom čase a konkrétne recenzie vašich zdrojovVďaka tomuto kombinovanému prístupu budete vedieť, či je problém všeobecný, regionálny alebo súvisí s vašou vlastnou infraštruktúrou, a budete môcť konať bez toho, aby ste museli podniknúť nejaké unáhlené kroky.

V tejto príručke vám všetko prehľadne vysvetlím, aby ste si mohli skontrolovať stav AWS: z AWS Health Dashboard a jeho integrácie s EventBridge, ako zobraziť stav obnovenia v ACM, interpretovať kontroly EC2 a reagovať pomocou metrík a alarmov CloudWatch. Dozviete sa tiež, aké kroky podniknúť, ak sa konzola odmietne načítať, ako skontrolovať verejnú stránku so stavom a prečo sú tretie strany, ako napríklad Downdetector, užitočné pre kontext, ale nie pre automatizáciu.

AWS Health Dashboard: Východiskový bod

Panel AWS Health zobrazuje výpadky, aktívne udalosti a plánovanú údržbu, ktoré môžu mať vplyv na vaše služby a zdroje. Je súčasťou vášho účtu, nevyžaduje žiadnu konfiguráciu a poskytuje kontextovú viditeľnosť. o tom, čo sa deje. Ak nie ste prihlásení do konkrétnej inštancie alebo konzoly, toto je prvé miesto, kde by ste sa mali pozrieť.

Detail, na ktorý sa často zabúda: AWS je regionálnaVyberte správny región z voliča panela Zdravie, pretože ak budete hľadať nesprávny región, môžete prehliadnuť incident, ktorý vás postihuje. Táto presnosť zabraňuje nesprávnym diagnózam, keď je problém obmedzený na konkrétnu geografickú oblasť.

Od roku 2023, pri otváraní verejného podujatia na paneli Zdravie, URL adresa prehliadača obsahuje priamy odkaz na udalosťTo vám umožňuje zdieľať presne ten incident, ktorý si práve prezeráte, alebo ho znova otvoriť a vrátiť sa k rovnakému zobrazeniu s načítaným vyskakovacím oknom, čo uľahčuje tímovú prácu počas incidentu.

Ak sa administrátorská konzola neotvorí alebo vráti chyby prehliadača (napr. 404), neponáhľajte sa s ňou. Najprv skontrolujte, či sa v paneli stavu nachádza relevantná aktívna udalosť.a potom aplikujte lokálne opatrenia, ako je vymazanie vyrovnávacej pamäte a súborov cookie, vyskúšanie iného prehliadača a overenie si u IT tímu, či vaša sieť neblokuje domény Amazon (amazon.com a subdomény ako aws.amazon.com).

Spoľahlivé prijímanie udalostí: EventBridge je lepší ako RSS

Existujú RSS kanály so zdravotnými udalosťami, ale ich formát sa môže časom meniť a narušiť vaše integrácieZozbieranie alebo spoliehanie sa na RSS pre kritické kanály je, mierne povedané, riskantné.

Robustná vec je integrácia AWS Health s Amazon EventBridgeTakto prijímate udalosti so stabilnou schémou, v reálnom čase a pripravené na smerovanie do Lambda, frontov, notifikácií alebo interných dashboardov, čím vytvárate okruh incidentov bez krehkých častí.

S EventBridge získate sledovateľnosť a odolnosť: Môžete označovať, obohacovať, korelovať a automatizovať odpovede v závislosti od služby, regiónu alebo vplyvu. A ak sa zajtra zmenia podrobnosti o prezentácii verejného kanála, vaša integrácia zostane nedotknutá.

ACM: Skontrolujte obnovenie certifikátov bez problémov

Pomocou nástroja AWS Certificate Manager môžete overiť, či sa vaše certifikáty správne obnovujú spravovaným spôsobom. Certifikát je oprávnený na automatické obnovenie, ak je priradený k službám AWS (napríklad ELB alebo CloudFront) alebo ak bol exportovaný od jeho vydania alebo posledného obnovenia.Táto oprávnenosť je základným kameňom zabudnutia na manuálne obnovenia.

Keď sa spustí cyklus obnovy, ACM zobrazí v podrobnostiach certifikátu pole so stavom. Z konzoly, API alebo CLI môžete skontrolovať stav obnovenia aby ste vedeli, kde sa nachádzate. Ak sa vyskytnú nejaké problémy, ktoré si vyžadujú vašu pozornosť, uvidíte aj relevantné stavy súvisiace s vaším panelom Zdravie.

Ak uprednostňujete príkazy, rozhranie CLI to uľahčuje: Operácia describe-certificate vráti podrobnosti vrátane stavu obnovenia., Napríklad:

príklad: aws acm describe-certificate --certificate-arn arn:aws:acm:REGION:ACCOUNT:certificate/CERTIFICATE_ID

V odpovedi JSON si pozrite pole RenewalStatus. Ak sa toto pole ešte nezobrazuje, ACM ešte neinicioval spravované obnovenie.Je dobré plánovať dopredu: ACM sa snaží automaticky obnoviť približne 60 dní pred vypršaním platnosti a ak sa niečo pokazí (napríklad overenie domény), Upozornenia v aplikácii Zdravie dostanete s predstihom: 45, 30, 15, 7, 3 a 1 deň.

Keď sa konzola nenabíja: rýchle a účinné kroky

Chyby 404 alebo zlyhania pripojenia pri prístupe ku konzole AWS sú zvyčajne riešiteľné. Začnite kontrolou panela stavu v regióne, kde sa nachádzajú vaše zdroje. zrušiť prebiehajúcu udalosť ovplyvňujúcu danú službu alebo konzolu.

Ak nie sú žiadne otvorené incidenty, uplatnite lokálne opatrenia: vymazať vyrovnávaciu pamäť prehliadača a súbory cookieskúste sa prihlásiť pomocou iného prehliadača a overte si u správcu systému, či firemná sieť neblokuje amazon.com alebo subdomény ako aws.amazon.com.

Problém by sa mohol obmedziť na konkrétny zdroj. Napríklad inštancia EC2 môže prechádzať plánovanou údržbou.a panel Zdravie vám ukáže okno a dopad danej udalosti. Prechod na koreň vám ušetrí čas.

Ak sa zablokovanie týka vášho účtu, vždy je dobré mať po ruke články s nápovedou: Vytvorte a aktivujte nový účet, prihláste sa do konzoly alebo požiadajte o pomoc.Umiestnenie týchto sprievodcov skracuje čakacie doby v stresových situáciách.

EC2 podrobne: kontroly stavu a čo robiť, keď zlyhajú

Amazon EC2 vykonáva automatické kontroly pre každú inštanciu, aby zistil problémy s platformou alebo softvérom ovplyvňujúce vaše aplikácie. Tieto kontroly sa vykonávajú každú minútu a v závislosti od výsledku sa označia ako OK alebo zhoršené.Nedajú sa vypnúť a slúžia ako včasné varovanie.

Každý typ overenia je v CloudWatch podporovaný metrikami. Ak kontrola zlyhá, príslušná metrika stúpne a je čas spustiť alarm.Vďaka tomu môžete automatizovať upozornenia a akcie, aby ste minimalizovali prestoje.

Systémové kontroly (základná platforma)

Tieto kontroly monitorujú infraštruktúru, na ktorej beží vaša inštancia. Keď zlyhajú, zvyčajne ide o problém s platformou, ktorý si vyžaduje zásah AWS alebo opatrenia na presun inštancie na iného hostiteľa..

V prípadoch podporovaných EBS sú účinné opatrenia zastaviť a spustiť inštanciu, aby sa presunula na nového hostiteľaAk vaša inštancia používa úložisko inštancií (Linux), môžete sa rozhodnúť ukončiť a nahradiť s vedomím, že dočasné zväzky sa po vypnutí stratia.

Metrika, ktorá odráža toto zlyhanie, je StavKontrolaZlyhalaSystémJe to perfektné pre alarmy, ktoré spúšťajú runbooky, automatické obnovenie alebo otvorenie prípadu podpory, ak situácia pretrváva.

Bare Metal má jednu zvláštnosť: Reštartovanie operačného systému môže dočasne spôsobiť chybu kontroly systému.Keď bude inštancia opäť funkčná, stav sa bez ďalšieho zásahu vráti na OK.

Kontroly inštancií (pripojenie a softvér)

Tieto kontroly analyzujú stav operačného systému a siete samotnej inštancie. EC2 overuje pripojenie odoslaním ARP požiadaviek do sieťovej karty, aby overil, či odpovedá.Zlyhanie v tomto prípade si zvyčajne vyžaduje úpravy z vašej strany.

Ak kontrola zlyhá, je čas konať: Reštartujte inštanciu, skontrolujte firewall/iptables, skontrolujte systémové protokoly a uistite sa, že sieť reaguje.Ak je príčinou softvér alebo konfigurácia, čakanie nestačí.

Metrika, ktorú treba sledovať, je StatusCheckFailed_InstancePoužite ho na spustenie alarmov, ktoré spúšťajú diagnostické procedúry (zhromažďovanie protokolov, riadené reštarty alebo vrátenie zmien, ak zistíte, že sa systém neobnovuje).

V Bare Metal sa opäť môže pri reštarte z operačného systému zobraziť dočasná chyba. Po dokončení bootovania inštancie je normálne, že kontroly sa vrátia na hodnotu OK., takže nepanikárte.

Pripojené šeky EBS (V/V na zväzkoch)

Tieto kontroly overujú, či sú pripojené zväzky EBS prístupné a či je možné vykonať vstupno-výstupné operácie. Binárna metrika StatusCheckFailed_AttachedEBS indikuje zhoršenie stavu, keď zlyhá jeden alebo viacero zväzkov..

Chyba v tomto smere môže byť spôsobená základnými výpočtovými problémami alebo problémami v EBS. Môžete očakávať zmiernenie od AWS alebo podniknúť krokyVymeňte zväzky, zastavte a spustite inštanciu, aby ste ju presunuli na iného hostiteľa, alebo skontrolujte veľkosť IOPS, ak zistíte úzke miesta.

Ak vaša záťaž nevykonáva vstupno-výstupné operácie, ale dochádza k zhoršeniu výkonu, Cyklus zastavenia a spustenia môže vyriešiť problémy s hostiteľom, ktoré ovplyvňujú dostupnosť zväzku.Doplňte natívne metriky EBS v CloudWatch na detekciu vzorcov nízkeho výkonu.

V skupinách Automatické škálovanie nakonfigurujte politiku na Odstráňte inštancie s pretrvávajúcimi zlyhaniami v pripojenej kontrole EBSUdržíte svoj vozový park v dobrom stave bez manuálneho zásahu a vyhnete sa dlhým prestojom.

Alarmy a automatizácia: CloudWatch + Automatické škálovanie

So všetkými zdravotnými ukazovateľmi sa CloudWatch stáva vaším nervovým systémom. Definujte prahové hodnoty, vytvárajte alarmy a organizujte akcie: oznámenia, Lambda, obnova alebo nahradenie inštancieJe to základ pre automatické a konzistentné reakcie.

Ak potrebujete kontinuitu podnikania, zvážte automatizáciu a nahradenie: Automatické škálovanie môže vyradiť neúspešné inštancie a spustiť nové, zatiaľ čo vaše budíky aktivujú príslušné notifikačné kanály (e-mail, Slack, PagerDuty alebo čokoľvek, čo používate).

Úplný pohľad pochádza z korelujúcich zdrojov: Metriky a protokoly CloudWatch, sledovania a udalosti AWS Health prostredníctvom EventBridgePomocou tejto dlaždice budete môcť rozlíšiť, či je problém s vašou aplikáciou, inštanciou, zväzkom alebo platformou, a budete môcť presne reagovať.

Oficiálne a kontextové zdroje, ktoré zistia, či AWS zlyhá

Keď sa šíria zvesti o páde – ako napríklad Globálny výpadok AWS čo spôsobilo masívne zlyhania – ideálne je uprednostniť oficiálne zdroje. Stav podľa služby a regiónu nájdete na verejnej stránke status.aws.amazon.com.a ak ste prihlásení, použite panel AWS Health Dashboard pre informácie špecifické pre váš účet.

Zdroje tretích strán poskytujú dodatočný sociálny kontext a signály. Downdetector odráža nárasty v hláseniach používateľov a The Stack Status sumarizuje stav viacerých poskytovateľov.Sú užitočné na odhad dosahu, hoci nenahrádzajú oficiálne kanály.

Rozlišuje však medzi viditeľnosťou a automatizáciou. Pre programatické prijímanie udalostí je EventBridge lepší ako RSS kanály alebo scraping., pretože externé formáty sa môžu zmeniť a vy sa tak ocitnete uprostred incidentu.

Ako sa prejavujú veľké kvapky a čo môžete očakávať

Veľké incidenty sa zvyčajne sústreďujú v silne využívaných regiónoch (ako napríklad východné pobrežie USA) a Dopad sa prejavuje v reťazcoch: úložisko, výpočtová technika, databázy alebo DNSNie je nezvyčajné vidieť služby ako S3, EC2, RDS, Route 53 alebo Kinesis uvedené medzi tými, ktorých sa dotýkajú prudké nárasty chýb.

V týchto prípadoch môžu streamovacie spoločnosti, nástroje na spoluprácu, elektronický obchod alebo mobilné aplikácie zaznamenať latenciu, chyby pri overovaní a občasné zlyhania. Tento vzorec je nerovnomerný: niektorým používateľom to funguje, iným nie., podľa trás, bodov prítomnosti a aktívnych oblastí.

Oficiálne kanály zvyčajne zverejňujú pravidelné aktualizácie: Predbežná identifikácia príčiny (napr. problémy s prekladom DNS v rozhraní API), nasadenie zmierňujúcich opatrení a odporúčania na opakovanie pokusuS postupujúcou obnovou sa počet chýb znižuje a prevádzka sa vracia do normálu.

V určitých krajinách alebo sektoroch uvidíte titulky o konkrétnych dotknutých službách. Platformy ako Netflix, Disney+, Slack, banky alebo veľmi populárne aplikácie môžu byť ovplyvnené keď región, od ktorého sú závislí, trpí, a otrasy pocítili aj podniky v Latinskej Amerike (ako napríklad iFood, Mercado Livre alebo PicPay v minulých incidentoch).

Ekonomický a reputačný dopad pádu

Okrem technickej stránky má výpadok cloudu aj reálne náklady: Straty za minútu, preťažená podpora, frustrovaní zákazníci a tlak médiíSieťový efekt je zosilnený centralizáciou určitých pilierov internetu.

Organizácie, ktoré prevádzkujú kritické služby, to veľmi dobre vedia: Ak sa zlyhania opakujú, dôvera sa narúša a obnovenie imidžu značky stojí viac ako samotná technická oprava.

Tieto krízy prinášajú zrejmé, ale nepríjemné ponaučenie: Sme veľmi závislí od zdieľanej infraštruktúryNavrhovanie s ohľadom na odolnosť a realistické predpoklady zlyhania už nie je voliteľné.

Stratégie pre väčšiu odolnosť voči ďalšiemu incidentu

Ak vašu firmu nemožno ukončiť, existujú taktiky, ktoré znižujú prevádzkové riziko. Zvážte viacregionálnu architektúru na rozloženie záťaže medzi rôznymi zónami AWS. a vyhnúť sa jedinému bodu geografického zlyhania.

Keď to prípad použitia odôvodňuje, vyhodnoťte multicloud. Distribúcia základných funkcií inému poskytovateľovi (Azure, GCP) vám poskytuje bezpečnostnú sieť., hoci to so sebou nesie väčšiu zložitosť a náklady na koordináciu.

Na doručovacej vrstve pomáha dobre nakonfigurovaná CDN zvládať búrky. Služby ako CloudFront alebo alternatívy ako Cloudflare vám umožňujú poskytovať statický obsah, aj keď váš pôvod nefunguje., čo dáva používateľom a systémom oddych.

Nič z toho nefunguje bez organizácie: Definujte plán reakcie na incidenty s rolami, kanálmi, eskaláciou a externou komunikáciouV horúcich chvíľach jasnosť šetrí drahocenné minúty.

Najlepšie postupy na kontrolu stavu AWS bez stratenia sa

Centralizácia pozorovateľnosti: Pre kontext platformy použite AWS Health Dashboard a pre prevádzkové metriky CloudWatch.Tento dvojitý prístup zabraňuje tomu, aby vás zaskočila ktorákoľvek z týchto vrstiev.

S certifikátmi automatizujte. Monitorujte stav obnovenia v ACM a reagujte na eskalujúce upozornenia z panela Stav aby nedosiahli dátum spotreby nesprávnou nohou.

Nastavte si alarmy pre kľúčové metriky EC2. StatusCheckFailed_System, StatusCheckFailed_Instance a StatusCheckFailed_AttachedEBS sú nevyhnutné, spojené s akciami obnovy, reštartu, záložného prepnutia alebo nahradenia prostredníctvom automatického škálovania, podľa vašej SLA.

A ak konzola odoláva, nezabudnite na kontrolný zoznam: Skontrolujte zdravotné udalosti v správnom regióne, vymažte vyrovnávaciu pamäť a súbory cookie, zmeňte prehliadač a overte si u IT oddelenia, či domény AWS nie sú blokované. Tieto jednoduché kontroly vyriešia viac, než by ste si mysleli.

Súvisiace zdroje a pomoc s účtom

Ak chcete rozšíriť a posilniť svoje operácie, preštudujte si dokumentáciu k príslušným službám. AWS Health a EventBridge pre smerovanie udalostí, ACM pre obnovy a referencia CloudWatch/EC2 pre metriky a akcie., tvoria silnú súpravu.

  • AWS Health DashboardViditeľnosť verejných a pre účet špecifických udalostí bez nutnosti ďalšej konfigurácie.
  • Amazon EventBridgeSpoľahlivý príjem udalostí týkajúcich sa stavu s flexibilnými pravidlami pre smerovanie do viacerých cieľov.
  • Správca certifikátov AWS (ACM)Sledovanie stavu obnovenia a postupné upozornenia pred vypršaním platnosti.
  • Amazon EC2 + CloudWatchKontroly za minútu, metriky stavu a alarmy, ktoré spúšťajú automatické reakcie.

Ak máte otázky týkajúce sa prístupu k vášmu účtu alebo jeho správy, prečítajte si najčastejšie články podpory: Ako vytvoriť a aktivovať nový účet, ako sa prihlásiť do konzoly a ako požiadať o pomoc s vaším účtom a zdrojmi.Ich lokalizácia urýchľuje proces, keď niečo nesedí.

Pohľad na jeden panel nikdy neprezradí celý príbeh: Kontrola stavu AWS vyžaduje kombináciu kontextu panela stavu, spoľahlivého prijímania údajov s EventBridge, signálmi ACM a kontrolami EC2.Vďaka premysleným alarmom a jasným postupom sú diagnózy dostupné skôr, reakcie sú presnejšie a prevádzka je oveľa plynulejšia, a to aj pri zvýšenej premávke alebo regionálnych nepokojoch.

Služby Amazon Web Services (AWS) celosvetovo prestali fungovať
Súvisiaci článok:
Globálny výpadok AWS spôsobil masívne výpadky webových stránok, aplikácií a platieb