Funziona così:
Il “mittente” effettua un ping ogni tot secondi verso un certo ip. Se non ottiene risposta dopo tot tentativi (fail count) il mittente si riavvia e ricomincia il ping dopo un tot. Questi sono i parametri da specificare (peraltro mi pare chiara la spiegazione).
Avvio CPE - delay - Ping - interval1 - ping - interval2 … etc…
se tutti i ping in numero di fail count falliscono il CPE si riavvia.
Precisazioni:
- non serve che il ping sia verso un altro CPE. Può essere verso un qualsiasi “risponditore”, cioè un device che risponde al ping. Io uso router e AP di rete, tipicamente tutti devono “vedere” il GATEWAY, per cui…
- è importante, in caso di watchdog simmetrico, ad esempio se hai un ponte radio tra due segmenti di rete diversi, usare parametri DIVERSI tra i due watchdog per non avere un effetto di continuo reset (che comunque grazie al delay non dovrebbe avvenire).
tipicamente:
- CPE1: ping verso ip “dietro” CPE2 con intervallo 150s fail count 2 delay 300
- CPE2: ping verso ip “dietro” CPE1 con intervallo 200s fail count 3 delay 200
Importante (secondo me) è il fail count che allunga le attese, ma permette di avere sensibili differenze tra i due CPE negli eventuali riavvii.
Da notare che a conti fatti se cpe1 va giù cpe2 si riavvia dopo 200x3=600s, se va giù cpe2 cpe1 riparte dopo 150x2=300s.
Tenete presente che se CPE1(2) va in blocco CPE(2)1 tenta il reset di SE STESSO e non è detto che l’altro per questo motivo torni a funzionare. Teoricamente però mettendo un failcount di 1 e un basso interval (tipo 10s) il CPE in blocco vede (o meglio dovrebbe vedere) con il SUO watchdog un disservizio nella fase di riavvio dell’altro CPE (quello funzionante) e riavviarsi.
Anche quì è da provare tipo:
- CPE1: ping verso ip “dietro” CPE2 con intervallo 10s fail count 1 delay 300
- CPE2: ping verso ip “dietro” CPE1 con intervallo 15s fail count 1 delay 250
Il problema è che se si perde anche un ping, magari su connessioni ballerine, ci hanno continui rivvii…
Alternativamente il CPE in disservizio “butta giù” il link e quindi non dovrebbe vedere a sua volta l’altro segmento di rete per cui dovrebbe comunque riavviarsi ad un certo punto anche con configurazioni con intervalli e dalay lunghi. Va detto però che un blocco “TOTALE” di un cpe difficilmente è sanabile con il WD e comunque il WD non dovrebbe servire su connessioni stabili. Io per esempio l’ho usato in caso di bande affollate per riavviare i link tra due CPE con l’AP settato su canale “auto”. In pretica se qualcuno occupava il canale che utilizzavo per il link con un segnale troppo forte il link ripartiva dopo un po’ su un altro canale (presumibilmente) libero. All’atto pratico mi risolveva il problema con brevi disservizi.
Ciao