Strano problema memoria

7 risposte [Ultimo contenuto]
Ritratto di Falko
Falko
(Junior)
Offline
Junior
Iscritto: 18/05/2018
Messaggi: 9

Ciao a tutti,
di recente mi sta capitando sulla Stretch m che in un cluster corosync/pacemaker si verifichi un problema piuttosto strano legato alla memoria macchina a cui sto faticando con la diagnostica:

La macchina senza apparente motivo, pian piano (ogni 2/3 minuti) "ruba" una decina di Mb alla ram fino a che, saturati gli 8 Giga di ram a disposizione, sia la macchina che lo stesso servizio di cluster risultano essere talmente congestionati, da obbligare un riavvio forzato della macchina.

Ho provato a dare un'occhiata anche piuttosto approfondita ai processi ma non riesco a trovare riscontro, mentre la cosa ancora più strana, è che anche rilanciando i servizi la saturazione di memoria non cala.

Un grazie a chi potrà aiutarmi.

Ritratto di homeless
homeless
(Guru)
Offline
Guru
Iscritto: 21/10/2011
Messaggi: 1302

Puoi fornire l'output dei seguenti comandi come utente root (dopo aver installato il comando smem) e che prevedono una attesa di circa 10 minuti:

script log.txt
smem -w > log1.txt
smem  >> log1.txt
sleep $((60*10))
smem -w > log2.txt
smem  >> log2.txt
exit

Dal confronto dei due file log1.txt e log2.txt dovresti poter identificare alcuni elementi utili. Se lo desideri, puoi inviare i due file nel forum in allegato ad un successivo messaggio insieme al file log.txt.

Ritratto di Falko
Falko
(Junior)
Offline
Junior
Iscritto: 18/05/2018
Messaggi: 9

Grazie mille per la dritta,
In nottata provo ad usare smem per fare analisi

Ritratto di Falko
Falko
(Junior)
Offline
Junior
Iscritto: 18/05/2018
Messaggi: 9

Grazie all'uso di smem e confrontando i file, son riuscito a risalire al processo problematico che è risultato essere uno dei demoni base del cluster (il problema si propagava su tutti i nodi...);
quindi, aggiornamenti, riavvio di tutti i nodi, riavvio del cluster e problema risolto (peccato per l'uptime).

Un grazie ancora per il consiglio

Ritratto di homeless
homeless
(Guru)
Offline
Guru
Iscritto: 21/10/2011
Messaggi: 1302

Falko ha scritto:

Grazie all'uso di smem e confrontando i file, son riuscito a risalire al processo problematico che è risultato essere uno dei demoni base del cluster (il problema si propagava su tutti i nodi...);[..] Un grazie ancora per il consiglio


Grazie a te per il riscontro. A beneficio di eventuali altri utenti, quale daemon era responsabile del memory leak ?

Ritratto di homeless
homeless
(Guru)
Offline
Guru
Iscritto: 21/10/2011
Messaggi: 1302

Falko ha scritto:

Grazie all'uso di smem e confrontando i file, son riuscito a risalire al processo problematico che è risultato essere uno dei demoni base del cluster (il problema si propagava su tutti i nodi...);[..] Un grazie ancora per il consiglio


Grazie a te per il riscontro. A beneficio di eventuali altri utenti, quale daemon era responsabile del memory leak ?

Ritratto di Falko
Falko
(Junior)
Offline
Junior
Iscritto: 18/05/2018
Messaggi: 9

Certamente!
Nel mio specifico caso il problema pare che risiedesse nel demone corosync.
In pratica di 3 nodi partecipanti sul cluster, pare che uno di questi fosse quello stabile, solo che durante le varie sincronie andava a passare un qualcosa che generava una sorta di leak.
Quindi, partendo dai nodi non attivi, ho effettuato gli aggiornamenti e riavviato.
A questo punto (dato che il cluster rientra dal failover), ho settato unmanaged i demoni dipendenti ed arrestato i processi del cluster.
Altro riavvio nodo per nodi e, a cluster stoppato, riavvio dello stesso sui server, riaggancio dei servizi.

Con questa strategia ho ottenuto un downtime di 0 secondi dei server risolvendo il problema.

Ritratto di Falko
Falko
(Junior)
Offline
Junior
Iscritto: 18/05/2018
Messaggi: 9

Come non detto,
il problema si sta ripresentando,

quello a cui sto badando è che si verifica solo nel 2° nodo del cluster (failover), il quale è impostato come primario per un server tomcat8, su cui a sua volta gira un'app che ha diversi problemi di leak per dei cicli gestiti davvero male (come si sarà capito, ho sospetti su questa cosa).

A questo punto, carico su pastebin i log ottenuti dallo script suggerito e chiedo un aiuto per risolvere questa problematica ---> https://pastebin.com/YaewrRW7

Un grazie per il supporto