Driftsforstyrrelser 20.08.2015

Problemer med DNS hos mange av våre kunder på torsdag 20.08.2015. Forklaring av problemet.

 

ProIsp forklarer problemet som oppsto torsdag 20.08.2015.


21.08.15 13:24:33

Enkelte opplever i øyeblikket problemer med DNS oppslag mot våre navneservere. Problemet ligger hos CloudFlare som ikke gjengir korrekte svar fra våre navneservere. Vi jobber med CloudFlare for å løse problemet snarest.

Oppdatering:
Problemet er nå løst!

I starten av 2015 inngikk PRO ISP en avtale med CloudFlare om total beskyttelse av våre navneservere. Dette er et proaktivt tiltak for å minske risiko for nedetid i forbindelse med DDoS angrep, samt sikre at våre kunder får lynraske DNS-oppslag verden over med Anycast. CloudFlare er den største aktøren på markedet for administrert DNS med over en 1/3 av markedet og har en av verden største autorative DNS nettverk med mer enn 43 milliarder DNS forespørsler daglig og over en million nettsteder benytter tjenesten.

Mer informasjon om tjenesten finner man her: https://www.cloudflare.com/virtual-dns

Hva skyldtes problemet?
Ironisk nok er det tiltaket som skal minske risikoen for nedetid som medførte gårsdagens nedetid. CloudFlare har bekreftet at de har gjort 2 feil som medførte gårsdagens nedetid:

  • CloudFlare hadde satt feil IPer på våre interne navneservere som de ruter all DNS trafikk mot.
    Da tjenesten ble satt opp fikk vi beskjed om å oppgi 2 interne ubrukte IPer for å hindre angrep mot tidligere benyttede IPer. Ved en feil satte de opp rutingen til å gå mot tidligere benyttede IPer. Vi hadde ikke satt disse ut av drift enda, men det oppstod et problem med den ene IPen. Vi overvåket ikke denne IPen ettersom den ikke lenger skulle være i bruk og fanget dermed ikke opp at dette skjedde.
     
  • Konfigurasjonen fungerte ikke som den skulle
    Selv om den ene IPen ikke fungerte som den skulle så gjorde den andre IPen det. Hele hensikten med å ha flere enn en navneserver er at de navneserverne som fremdeles kjører som de skal, sørger for at domenene fortsetter å fungere. CloudFlares konfigurasjon medførte at så snart en navneserver sluttet å fungere så stoppet alle å fungere. Noe som altså er helt grunnleggende feil i forhold til hvordan systemet skal fungere.

Hva ble løsningen på problemet?
Problemet ble løst ved at vi fikk rettet opp i problemet med IPen som hadde problemer. Årsaken til at denne IPen ikke fungerte skyldtes en firewall endring på nettverket tilhørende en av våre datasenterleverandører. Vi har fått forsikringer om at noe tilsvarende ikke skal kunne skje igjen fra datasenteret.

CloudFlare vil innen kort tid være ferdige med endring av IPer i konfigurasjonen deres. Arbeidet med feilsøking av konfigurasjonen deres pågår enda. Vi vil følge dette videre til vi får bekreftet at konfigurasjonen fungerer som den skal.

På grunn av denne hendelsen har vi besluttet at en av våre navneservere skal legges utenfor CloudFlares beskyttelse for å forhindre at problemer hos CloudFlare skal påvirke samtlige domener. Denne endringen vil utføres så snart som praktisk mulig.

Vi beklager nok en gang hendelsen og de ubeleiligheter dette har medført for deg som kunde.

Takk til alle som har rapportert om problemet!

 

 

 

Løst:

 

20.08.15 15:30:33