La cibernetica e l'informazione
di Mauro Murzi

Prosegue la serie di articoli dedicati alla cibernetica nell'ambito della rubrica sulla storia dell'informatica. Questa volta si parla della teoria dell'informazione, della quale viene anche fornita una semplice trattazione matematica; il prossimo numero completerà questa breve serie di articoli, trattando alcuni aspetti della cibernetica di interesse prevalentemente filosofico. (n.d.r.)

La trasmissione dell'informazione
Sto parlando al telefono con una persona distante qualche centinaio di chilometri: un fatto del tutto usuale. E proprio perché è un evento comune e normale, è interessante domandarsi come la teoria dell'informazione (o teoria della comunicazione) descriva la conversazione telefonica tra me e il mio interlocutore.

Io sto parlando, l'altro ascolta: quindi io sono la sorgente dell'informazione. Ma non è la mia voce che viaggia lungo i cavi del telefono: prima viene trasformata da un apparato chiamato trasmettitore in segnali elettrici. Sono questi impulsi elettrici che vengono inviati attraverso la rete telefonica (il canale di comunicazione) fino all'altro capo della linea. Qui vengono ricevuti dal ricevitore, che si incarica di ripristinare il suono della mia voce, in modo che essa raggiunga il destinatario. C'è infine un altro elemento, un compagno immancabile del telefono: il rumore, talvolta così forte da rendere difficile o impossibile la conversazione.

Nella figura precedente gli apparati con funzioni complementari sono identificati dal medesimo colore. Inoltre il trasmettitore è rappresentato come composto di due elementi: il codificatore di sorgente e il codificatore di canale; di conseguenza il ricevitore è costituito dal decodificatore di canale e dal decodificatore di sorgente. Solo il codificatore/decodificatore di canale è obbligatorio; l'altro elemento può non essere presente (in effetti nel telefono non c'è). Il codificatore di sorgente serve a eliminare le informazioni ridondanti dal messaggio, riducendone quindi la dimensione; il codificatore di canale trasforma il messaggio in segnali compatibili con il canale.

Il ruolo del codificatore di sorgente è quindi quello di comprimere, compattare o zippare (come si dice nel poco elegante gergo informatico) il messaggio. Un esempio semplicissimo di compressione: 156 è una notazione compatta per evitare di scrivere 15x15x15x15x15x15. E' chiaro che il codificatore di sorgente deve agire secondo un algoritmo reversibile, in modo che il decodificatore di sorgente sia in grado di ripristinare velocemente e in maniera affidabile tutte le informazioni eliminate.

In ogni trasmissione vi sono dei disturbi che alterano i segnali: il messaggio ricevuto è diverso da quello trasmesso. Le conseguenze su un messaggio numerico sono deleterie poiché il cambio di una solo cifra altera il significato (pensate al risultato che si ottiene cambiando una cifra a caso del saldo del vostro conto, specie se a cambiare è il segno, da positivo a negativo). Per rimediare agli inevitabili errori il codificatore di canale può aggiungere delle informazioni di controllo ai segnali che trasmette. Il decodificatore utilizza queste cifre per verificare la presenza di errori ed è anche in grado di correggerne alcuni.

I principali problemi tecnici e teorici affrontati dalla teoria dell'informazione sono:

Nel seguito noi ci interesseremo solo alla prima di queste domande: rispondere ad essa è una condizione prioritaria per rispondere alle altre. In un certo senso, la misura dell'informazione è l'aspetto più significativo della teoria che ci apprestiamo a illustrare.

La misura dell'informazione
Come si può misurare la quantità di informazione di una parola o di un simbolo? Non si chiede di determinare il contenuto dell'informazione o di trovare il significato associato ad una parola; si desidera soltanto un modo per quantificare l'informazione. Nell'ormai classico La teoria matematica della comunicazione (1948) Claude E. Shannon ha proposto una definizione della quantità di informazione che costituisce la base della moderna teoria dell'informazione. Prima di illustrare la definizione di Shannon è opportuno spiegare il significato dell'espressione frequenza relativa di una parola in un contesto. Si tratta del numero totale di volte che una data parola compare in quel contesto diviso il numero complessivo delle occorrenze di tutte le parole. Nella frase

"Maggiore è la probabilità minore è l'informazione"

la parola "è" ha un frequenza relativa di 2/8 = 1/4, mentre la frequenza relativa di "maggiore" è 1/8. Spesso la frequenza relativa si misura in percentuale; quindi la frequenza relativa di "è" vale 1/4 = 25%. Come sinonimo di frequenza relativa si utilizza probabilità di occorrenza o anche, se non vi sono motivi di ambiguità, probabilità.

Secondo Shannon la quantità di informazione trasmessa da un simbolo dipende dalla probabilità di occorrenza del simbolo. Maggiore è questa probabilità minore è la quantità di informazione; un simbolo la cui probabilità di occorrenza è del 100% ha una quantità di informazione uguale a zero. Un simbolo con bassa probabilità ha invece una grande quantità di informazione.

Alcuni esempi possono aiutare a capire il perché di questo legame tra probabilità e informazione. Nella lingua italiana vi è concordanza obbligatoria tra il genere del sostantivo e il genere dell'aggettivo e dell'articolo. Perciò in italiano si dice: "un uomo bello" e "una donna bella". Nella lingua inglese questa concordanza non esiste e le frasi equivalenti sono "a beautiful man" e "a beautiful woman". Le frasi inglesi hanno una quantità di informazione non minore delle corrispondenti espressioni italiane. Ne consegue che la concordanza tra il genere del sostantivo, articolo e aggettivo può essere abolita senza perdita di informazione. In italiano la concordanza è obbligatoria e quindi la sua probabilità è pari a uno; tuttavia la sua quantità di informazione è nulla: è questo il caso di un elemento linguistico con probabilità del 100% e con una quantità di informazione pari a zero.

L'esempio che segue illustra come la quantità di informazione aumenta quando la probabilità diminuisce. La lingua eschimese dispone di circa dieci parole per indicare altrettante tonalità del colore bianco; questa maggiore ricchezza, rispetto a lingue come l'italiano, permette di individuare meglio il colore reale di un oggetto che noi italiani designeremmo con l'aggettivo "bianco". In questo specifico contesto la lingua eschimese fornisce maggiori informazioni della lingua italiana; ma è altresì chiaro che ognuno dei dieci termini eschimesi ha una frequenza relativa minore dell'aggettivo italiano "bianco". I termini meno probabili forniscono maggiori informazioni. E' facile comprendere che se due lingue differiscono nel numero di termini utilizzati per designare le diverse regioni dello spettro luminoso, la lingua con il maggiore numero di parole esegue un distinzione più fine e quindi fornisce maggiori informazioni sul reale colore di un oggetto. Inoltre i termini della lingua più ricca hanno una minore frequenza relativa: l'informazione aumenta quando la suddivisione è più fine e la probabilità di ciascun termine è minore.

Un ulteriore esempio. Si supponga di voler determinare la posizione di un oggetto su una superficie piana utilizzando una griglia di riferimento costituita da una rete che forma una serie di quadrati. Si sovrappone la griglia alla superficie; la posizione dell'oggetto è indicata dal quadrato nel quale si trova.

Per ottenere una maggiore precisione si può utilizzare una griglia più fitta, in modo da disporre di un maggiore numero di quadrati più piccoli. Qual è la probabilità che un oggetto sia localizzato in un dato quadrato? Se N è il numero dei quadrati, la probabilità è 1/N. Quindi se il numero dei quadrati aumenta, la probabilità che un quadrato indichi l'oggetto diminuisce e la precisione diventa maggiore. Anche in questo caso l'aumento della quantità di informazione va di pari passo con la diminuzione della probabilità.

Supponiamo che questi esempi siano sufficienti per convincerci che la quantità di informazione di un simbolo aumenta quando la probabilità di quel simbolo diminuisce. Come possiamo esprimere ciò in termini matematici? Si potrebbe ipotizzare che la quantità di informazione sia inversamente proporzionale alla probabilità. Introduciamo un po' di simbolismo matematico. Chiamiamo I(a) la quantità di informazione associata al simbolo a e indichiamo con p la probabilità di occorrenza di a. Una possibile definizione di I(a) è la seguente:

(Formula 1)         I(a) = 1/p

Questa definizione molto semplice e intuitiva ha uno svantaggio: la quantità di informazione così definita non è additiva. Il sistema più semplice per ovviare a questo difetto consiste nel rendere la quantità di informazione proporzionale al logaritmo di 1/p. E' questa la definizione proposta da Shannon.

La definizione di Shannon
Si consideri un insieme A finito di simboli a1,...,aN. Sia pi la probabilità di occorrenza di ai. La quantità di informazione I(ai) è proporzionale al logaritmo del reciproco di pi; in simboli:

(Formula 2)         I(ai) = k · ln(1/pi) = - k · ln(pi)

(l'ultima uguaglianza deriva dalla proprietà generale dei logaritmi: ln 1/x = - ln x).

La probabilità pi è compresa tra zero e uno, e la somma delle probabilità pi è uno. La figura seguente riporta il grafico della funzione I(ai).

La formula 2 ha le caratteristiche che ci aspettiamo da una buona definizione della quantità di informazione. La quantità di informazione di un simbolo si annulla quando la probabilità del simbolo diventa del 100%, mentre la quantità di informazione aumenta al tendere a zero della probabilità. Aumentando il numero dei simboli si ottiene una diminuzione della probabilità di ciascun simbolo e un conseguente incremento della quantità di informazione. Ciò è coerente con i precedenti esempi.

Fino adesso abbiamo considerato la quantità di informazione di un simbolo scelto tra un insieme di simboli. Cosa si può dire sulla quantità di informazione dell'intero insieme? Una proposta ovvia è quella di sommare le quantità di informazione. In questo caso un elemento con una bassa probabilità contribuirebbe grandemente alla quantità di informazione dell'insieme A. Ora è vero che un tale simbolo ha molta informazione, ma è anche vero che questo simbolo compare poche volte a causa della sua bassa probabilità e dunque dovrebbe avere scarsa influenza nella quantità di informazione globale dell'insieme A.

Il problema si può formulare in questi termini. Un simbolo che si presenta poche volte trasmette una grande quantità di informazione (la quantità di informazione tende a diventare infinita quando la probabilità tende a zero) ma ciò accade poche volte e dunque l'effetto di quel simbolo sulla quantità di informazione di A deve tendere a zero. Abbiamo dunque bisogno di una funzione che si avvicini al valore zero sia quando la probabilità tende a uno che quando la probabilità tende a zero. Una possibile soluzione consiste nel pesare la quantità di informazione di un simbolo con la propria probabilità. Indicando con H(A) la quantità di informazione dell'insieme A, si ottiene la formula

H(A) viene chiamata entropia dell'insieme A. Per esemplificare la forma della funzione H(A) ne possiamo studiare l'andamento nel caso in cui l'insieme A è composto da due soli simboli x e y. Risulta p(y) = 1 - p(x) e quindi H(A) è una funzione della sola variabile p(x) (vedi la figura).

L'informazione H(A) è massima quando p(x) = p(y) = 1/2. E' questa una caratteristica generale della funzione H(A): essa assume il valore massimo quando tutti i simboli ai sono equiprobabili. Se N è il numero dei simboli dell'insieme A allora il valore massimo della funzione H(A) è proporzionale al logaritmo di N:

(Formula 4)        max H(A) = k · ln N

La formula 4 è analoga alla formula che esprime l'entropia S di un sistema fisico costituito da N microstati equiprobabili; in questo caso

(Formula 5)        S = k · ln N

dove k è la costante di Boltzmann. Questa somiglianza matematica tra le formule 4 e 5 giustifica il nome di entropia dato alla funzione H(A) e suggerisce suggestive analogie.

Ma ecco un nuovo problema. Come misurare la quantità di informazione di un messaggio M? Se disponessimo di una misura della quantità media di informazione trasmessa da un simbolo potremmo semplicemente moltiplicare tale valore per il numero dei simboli complessivamente presenti nel messaggio. Se riflettiamo sul significato della funzione H(A) e sulla formula 3 che definisce H(A) ci possiamo convincere che H(A) rappresenta proprio la quantità media di informazione. Si tratta di una media pesata, nella quale non si esegue la pura e semplice media aritmetica dei vari termini, ma si tiene conto della frequenza di ciascuno di essi. Quindi si può proporre la seguente formula:

(Formula 6)         I(M) = L · H(A)

dove L è la lunghezza, ovvero il numero dei simboli, del messaggio. Quando il messaggio contiene solo i simboli equiprobabili 0 e 1 risulta

(Formula 7)         I(M) = L · k · ln 2

La costante k è per il momento indeterminata ed in effetti siamo liberi di scegliere un valore qualsiasi; ponendo k = (ln 2)-1 si ottiene k · ln 2 = 1 e quindi

            (Formula 8)         I(M) = L

La formula 8 si può interpretare in questa maniera: la quantità di informazione di un messaggio in codifica binaria è uguale al numero di cifre binarie che compongono il messaggio stesso, cioè è uguale al numero dei bit del messaggio. Ciò suggerisce di utilizzare il bit come unità di misura dell'informazione. Per misurare la quantità di informazione di un messaggio si può quindi trasformare il messaggio in una successione di cifre binarie e contare la sua lunghezza. Va precisato che ciò presuppone che le cifre 0 e 1 che compongono il messaggio siano equiprobabili ed in particolare indipendenti l'una dall'altra: il messaggio non deve quindi contenere alcun elemento ridondante.

Nota bibliografica
Testi consultati per la preparazione dell'articolo.

Sulla teoria dell'informazione.

Sulla filosofia del linguaggio.

L'esempio relativo alla localizzazione di un punto su una superficie piana per mezzo di una griglia di riferimento è una variante di due esempi analoghi, ma svolti a fini diversi, presentati in :