Monitoring and alerting at large scale

Mar 22, 2017 · Sarajevo, Bosnia and Herzegovina

Osnovna namjera svakog softverskog rješenja je da riješi konkretan problem. Većina knjiga iz područja softverskog inžinjeringa, unatoč toj činjenici, razmatra različite faze razvoja softvera, ali vrlo malo govori o životu softvera u produkciji. Softver, kao i živi organizam, ima osnovne vitalne funkcije koje moraju biti nadzirane. Ključan element prilikom nadziranja bilo kakvog sistema je izbor metrika koje su zaista relevantne za dati sistem. Postoji čitava paleta alata koji pomažu prilikom skupljanja, nadziranja i vizualiziranja relevantnih metrika. Neki od takvih alata su Graphite, Prometheus, Nagios itd. Svaki kvar na hardveru, uslovno rečeno, ima posljedice na softver koji se izvršava na njemu. Iz tog razloga nikada nije dovoljno samo nadzirati samo svoj sistem, vaša odgovornost je i okruženje u kojem se vaš softver izvršava.

Ukoliko razvijate sistem koji će se izvršavati duži vremenski period, to praktično znači da morate imati jednu ili više osoba koje će biti dedicirane za praćenje rada vašeg sistema. Prirodna evolucija monitoringa, u tom smislu, je alerting sistem. Alerting praktično znači da sistem konstantno nadziremo i pretpostavljamo da je u ispravnom stanju, ali da ćemo za svaki kvar ili generalnu anomaliju sistema generisati određeni događaj (event). 

Infobip je kompanija koja trenutno broji preko 1000 zaposlenika i[masked] klijenata. Kako je firma rasla od jednog radnika i jednog klijenta do brojke koju imamo trenutno, tako se prirodno dešavala evolucija sistema i organizacije. Evolucija sistema je podrazumijevala da ono što je radilo za 5 klijenata neće raditi za[masked], da ono što je radilo za[masked] poruka dnevno neće raditi za pola milijarde poruka dnevno, koliko šaljemo u ovom momentu. Osnovna ideja ovog predavanja je da vam pretstavimo kako je tekla evolucija monitoringa i alertinga našeg sistema. Kroz sesiju ćemo pomenuti niz industrijskih rješenja koje smo probali (Graphite, Seyren, Kibana, Prometheus, Nagios, PRTG itd) ali i in-house rješenja te podjeliti naša iskustva sa istim. 

Ipak, i pored svih sistema za nadzor, jako je teško znati koji efekat na krajnjeg korisnika ima kvar jednog diska. To pogotovo vrijedi u distribuiranim sistemima, u okruženju od par hiljada servera i servisa, u okruženju u kakvom mi radimo u Infobip-u. U toku ove sesije ćemo prezentirati i rješenje na kojem trenutno radimo, sistem koji nam omogućava da pratimo efekat anomalija našeg sistema na krajnjeg korisnika te da pratimo alerte na temelju predikcije ponašanja sistema.

Event organizers
  • Let's Talk about IT Sarajevo

    We are a group of people interested in sharing and discussing hot topics in a world of IT. Our goal is to expand and support IT community in the region, give back the knowledge acquired through years of experience building scalable solutions, as well as to explore other inputs and ideas.You like technology and exploring exciting new ideas? Don't be shy, join us! :)

    Recent Events
    More

Are you organizing Monitoring and alerting at large scale?

Claim the event and start manage its content.

I am the organizer
Social
Rating

based on 0 reviews