Poco Rigorose, ma Divertenti, Statistiche Librarie: una classifica a 10 posti sul lessico di vari autori

Dal momento che nella mia ultima opera (quella su Gatto e Volpe) ho puntato molto su uno stile “ricco”, con un lessico che fosse il più vario possibile, non sapendo dire se avessi raggiunto lo scopo, ho cercato un sistema oggettivo per farmi un’idea. Ed ho pensato di ricorrere alla statistica, paragonandomi ad altri.

Cerca cerca ho infine trovato il modo (invero assai approssimativo, o grossolano, se non addirittura brutale) per fare un po’ di conti che in teoria dovrebbero aiutare ad indicare l’estensione del vocabolario (lessico) usato dagli autori nelle loro opere, o piuttosto (almeno così come ho usato certi strumenti fino ad ora) quanto sia vario lo stile di ciascun autore in una determinata opera.

Su quanto qui di seguito, andrebbero formulate serie infinite di precisazioni e i dati da me raccolti, e scapigliatamente utilizzati, andrebbero affinati e specie affidati a persone preparate; io ho fatto un lavoro molto dozzinale, tagliando alla bene e meglio opere di diversa estensione e tema ed esse non possono essere comparate degnamente.

Si capisce che più lunga è l’opera più essa tende ad essere ripetitiva, per esempio e che i saggi sono di solito meno ricchi di vocabolario della narrativa, mentre la poesia è più curata, ma tecnicamente più difficile, etc.

Veniamo al punto! Ci sono dei programmi i quali, una volta caricato un file di testo, ne ordinano le singole parole in modo da fornire il loro numero complessivo, quante di esse sono state usate, quante sono differenti, e quante volte ciascuna esse sono state ripetute (es: Parole Totali 45.343, Parole Uniche 3.434, “e” usato 560 volte, “la” 431, “il” 232, “stocastico” 1, etc.)

Ovviamente a tali fini, e per segnalare solo uno degli aspetti imprecisi del conteggio, il programma informatico non è in grado di differenziare le parole identiche, ma di significato del tutto diverso (es.: “cassa” terza persona indicativa del verbo “cassare”, o oggetto analogo a una “scatola”). Dante, per esempio, usava come ricorso stilistico trovate del genere (c.d. rime equivoche).

E va pure detto che il programma considera ogni parola, anche le dialettali, le inventate, quelle straniere, come singole.

Tali regole però valgono per tutti e forse nei grandi numeri la loro incidenza si ridimensiona (a meno che uno magari non comprenda un’opera in grammelot).

È chiaro anche che, prendendo una sola opera, non si può affatto dire quanto esteso sia il vocabolario dell’autore, posto che per avere un valore assoluto ed esatto di questo aspetto, tecnico o di erudizione, andrebbe considerato tutto quello che egli ha scritto e a prescindere dall’estensione.

Col conteggio che ho fatto si può però avere un’idea indicativa sul valore specifico della varietà di lessico di un suo scritto determinato e quindi forse anche indicazioni del suo stile.

Sia chiaro, si tratta di una statistica (e anche mal fatta, approssimativa) e come tale essa lascia il tempo che trova e, specialmente, assolutamente nulla dice rispetto alla qualità dell’opera (e su questo nulla direbbe neanche se fosse ben realizzata).

Rimane comunque il fatto che, dividendo il numero di parole totali di uno scritto, per il numero di parole uniche (tutte quelle diverse) di esso, si ottiene un numero che indica, in un certo senso: “ogni quante parole l’autore ha usato una parola diversa”.

Supponiamo che l’opera consti di 1000 parole, e che ne se ne siano usate 100 diverse, ciò vorrà dire che l’autore avrà usato una parola diversa ogni 10 (in media). Qualora egli avesse usato 200 parole diverse in un’opera della stessa estensione, ciò comporterebbe che egli ha usato una parola diversa ogni 5, quindi un linguaggio più vario. E via dicendo.

Nell’esempio i due estremi sarebbero i valori 1 (nemmeno una ripetizione nelle mille parole, tutte diverse) e 1000 (uno scritto tipo “il mattino ha l’oro in bocca”).

Una divisione realizzata tra somma totale delle parole di un testo e numero di parole uniche dello stesso, equivarrebbe, un po’, al rapporto “peso-potenza” che si usa nello sport, o magari ricorderebbe pure molto da lontano le “categorie di peso” della boxe, se si raggruppano vari scritti a seconda di un’estensione determinata.

Indicherebbe quanto è vario il linguaggio di uno scritto. Sicuramente l’Enciclopedia Treccani assomma in tutti i suoi volumi una quantità sconfinata e inarrivabile di parole diverse, ma appunto, in un’estensione pure immane.

Si suole dire che la non ripetizione di lemmi, quindi la ricchezza di vocabolario, o come dir si voglia, sia una virtù nello scrivere.

Non so se sia del tutto vero, di certo c’è che le parole, come molti strumenti, vanno giudicate per l’uso che se ne fa, e impiegarne tante o poche, di per sé nulla dice non solo sulla qualità di un’opera, ma nemmeno sulla “cultura” o maestria dell’autore (che ben può essere un cane che nulla di buono produce, ma infila solo parole diverse a caso, magari pure sgrammaticate, o errate; il software che ne sa?)

Quanto allo stile, poi, non è affatto garantito che uno molto vario e persino arzigogolato debba essere preferibile ad uno più composto, o anche massiccio, fino a  “petroso” o granitico, come così non è in nessuna arte (es. musica, dove una sola nota azzeccata può essere molto più apprezzabile di un intero virtuosismo fine a se stesso, scultura o architettura, si pensi al Barocco, etc.)

Detto ciò, però, va ricordato anche che il lessico e la sua varietà sono pure indicatori di un certo rilievo; Wikipedia segnala che (voce: “Lessico”) parlando una lingua: “in generale basta un lessico ristretto dalle 400 alle 800 parole per far fronte alle esigenze comunicative, per comprendere messaggi più complessi (articoli di riviste, giornali o letture di classici) sono necessarie dalle 4.000 alle 5.000 parole, mentre in casi eccezionali, come in Dante Alighieri o in James Joyce, è richiesto un bagaglio lessicale di 80.000-100.000 parole.”

Tutto ciò premesso, ho fatto un tentativo: ho preso delle opere (quasi a caso, quelle di cui avevo disponibilità in file non protetti e utilizzabili con il software suddetto, la fonte è spesso il sito web Liber Liber) tagliandole in una estensione ragionevolmente analoga e ho stilato una breve classifica (purtroppo, col copia incolla, sono derivati valori non del tutto precisi per ragioni tecniche noiose, quindi essi vanno presi come del tutto indicativi).

Ecco ordinati per estensione i volumi utilizzati:

Calvino (primi VII Capitoli di) “Se una Notte d’Inverno un Viaggiatore” usa 48.459 parole complessive e 9.098 parole uniche.

“Canne al Vento” di Grazia Deledda (primi XIII Capitoli): 48.364 parole per 7.299 parole uniche.

Una traduzione di “Povera Gente” di Dostoevskij numera 47.067 lemmi e 7.352 parole uniche.

Manzoni nei soli primi VIII capitoli de “I Promessi Sposi”, usa 46.572 parole di cui 8.026 parole uniche.

“Le Operette Morali” di Leopardi I Parte (fino a Filippo Ottonieri): estensione 45.143 parole con 7.251 parole uniche.

“Un Posto al Mondo” di Fabio Volo (primi XVIII Capitoli), 44.997 parole con 6.039 termini unici.

Voltaire “Candido” (traduzione in italiano) estensione 42.733 per 7611 parole uniche.

“Pinocchio” di Collodi ha un’estensione di 41.411 totali e conta 6.059 parole uniche.

Coelho, “L’Alchimista” (traduzione italiana) conta 38.338 parole per 5.089 parole uniche.

Dante nel solo “Inferno” (ed è poesia) usa circa 35.564 lemmi con 6.631 parole uniche.

Per ultimo devo menzionare mio ultimo libro (Le Mirabolanti Avventure del Gatto e la Volpe) , esso consta di 47.869 parole totali, per 10.293 parole uniche.

Ciò significa che quanto alle opere prese in considerazione ciascuno ha ottenuto un valore specifico (ricordiamo: parole totali, fratto parole uniche), dal meno vario al più vario gli autori (e relativi volumi presi a campione) sono:

10° Coelho 7,5 (“The Alchemist” -versione inglese- conta 39.678 parole per 3272 parole uniche con un rapporto anche peggiore: 12.1)

9° Volo (ed è narrativa) 7,4

8° Collodi 6,8 (per bambini)

7° Deledda 6,6

6° Dostoevskij 6,4

5° Leopardi 6,2

4° Manzoni ha un 5,8

3° Voltaire 5,6

2° Calvino 5,3 (lo scoiattolo della penna, d’altra parte)

1° Dante 5,3 (è poesia ed è il più corto in estensione)

Tutto sommato una certa simmetria e valore sono rispettati dalla classifica dell’esperimento, mi sarei molto sorpreso se Dante fosse risultato ultimo.

Mentre, e devo dire che il mio tentativo pare riuscito quanto a questo limitato aspetto, mi attesto addirittura sul 4,6 ma va ribadito che era un po’ il taglio che avevo deciso di dare allo scritto.

(Visited 95 times, 1 visits today)