INTRODUCTION A L’INDO-EUROPEEN
Il a déjà été de nombreuses fois question d’étymologie et de comparaisons entre différentes langues sur ce blog, notamment l’étymologie latine d’un grand nombre de mots français, et le vocabulaire apparenté en espagnol ou en italien. Nous avons également tracé l’évolution du français depuis ses origines, et ce n’est donc pas un mystère ou une information nouvelle : les langues évoluent et changent au fil du temps ; tout comme les espèces biologiques, elles apparaissent, se développent, et finissent par mourir, en laissant potentiellement derrière elles une ou plusieurs descendances.
On peut alors regrouper le français, l’occitan, l’espagnol, le catalan, le portugais, l’italien et le roumain dans la famille des langues romanes, descendantes du latin ; ou bien l’anglais, l’allemand, le néerlandais, le danois, le norvégien, le suédois, l’islandais et le féroïen dans la famille des langues germaniques. On peut ainsi s’amuser à faire d’autres regroupements entre différentes langues d’Europe en se basant sur leurs ressemblances et les traces historiques d’une origine commune.
La question de regrouper des langues de par leurs similitudes et leur passé commun attesté ou suggéré ne date pas d’hier ; en effet si Aristote et Socrate ont dès le Ve siècle avant notre ère émis l’hypothèse d’une évolution linguistique avec modification par insertion, suppression, transposition et substitution de mots, sens et morphèmes, et si Giraud de Barri affirme au XIIe siècle que le gallois, le cornique et le breton descendent d’une langue commune, le premier travail de grande ampleur a lieu au XVIe siècle lorsque français Joseph Scaliger compare et remarque beaucoup de similitudes sur le mot Dieu dans différentes langues romanes, germaniques, slaves, ainsi qu’en grec.
Au XVIIe siècle, Marcus van Boxhorn est pourtant le premier à soupçonner une langue d’origine commune (qu’il appelle le scythique) au grec, au latin, au perse, ainsi qu’aux langues germaniques, slaves, celtes et baltes. En 1786, William Jones donne une conférence sur le sanskrit (la langue liturgique de l’Inde) et émet l’hypothèse d’une origine commune aux langues d’Europe et du sous-continent indien, remarquant la proximité du latin, du grec ancien et du sanskrit.
« La langue sanskrite, quelle que soit son ancienneté, est d’une structure merveilleuse ; plus parfaite que le grec, plus riche que le latin, et plus exquisément raffinée que ce soit, mais en gardant de chacune d’elles une affinité plus forte, à la fois dans les racines verbales et les formes grammaticales, et qu’un accident aurait créé ; aussi fort en effet, qu’aucun philologue ne pourrait examiner toutes les trois, sans croire qu'elles sont issues à partir d’une source commune, qui, peut-être, n’existe plus. »
William Jones, 1786
L’hypothèse indo-européenne se développe ensuite dans le courant des XIXe et XXe siècles, bien que le nom donné à la langue origine et à la famille de langues concernées varie au fil des siècles. De langues scythiques ou japhétiques (de Japeth, personnage biblique frère de Sem et Cham, et fils de Noé ; pour les personnes défendant à l’époque le terme japhétique, la descendance de Sem serait à l’origine des langues sémitiques), le XIXe siècle va voir émerger les termes « langues indo-germaniques », dû aux premières langues étudiées et considérées dans l’hypothèse ainsi qu’à un fort nationalisme naissant en Europe, et « langues aryennes ». Ce terme servira sur la deuxième moitié du XIXe et sur la première moitié du XXe siècle à l’idéologie nationaliste allemande puis nazie sur la race aryenne.
Le terme aryen dérive du sanskrit आर्य arya « noble » et est utilisé dans certains textes sanskrits par les auteurs pour parler d’eux-mêmes et de leur peuple. Le terme de « langues aryennes » a donc été dans un premier temps utilisé de par l’hypothèse selon laquelle les ancêtres communs des indo-européens se nommaient également ainsi. Pourtant, il semble être plus une évolution spécifique à la branche dont vient le sanskrit, et à cause de sa connotation raciste aujourd’hui, il n’est plus utilisé en linguistique que pour désigner un groupe spécifique de langues indo-iraniennes, localisées dans le nord de l’Inde : les langues indo-aryennes. D’ailleurs, l’expression antique avestique (langue liturgique de la religion zoroastrienne) Aryānam xshathra « royaume des Nobles », a dérivé en Ērān shahr, puis Iran.
Aujourd’hui donc le terme « indo-européen » a remplacé ses prédécesseurs et est plus que largement accepté et utilisé dans la communauté scientifique. Il désigne à la fois la langue d’origine commune (l’indo-européen commun, ou également dans la littérature anglaise le proto-indo-européen ou PIE) et le ou les peuples qui ont parlé des langues indo-européennes au cours de l’histoire (les Indo-Européens, avec majuscules).
Les langues indo-européennes sont regroupées en dix familles :
les langues albanaises, dont le seul représentant actuel est l’albanais avec 5,4 millions de locuteurs ;
les langues anatoliennes, originaires de l’actuelle Turquie au IIe millénaire avant notre ère et éteintes au cours du Ier millénaire avant notre ère, desquelles faisait partie le hittite ;
les langues arméniennes, dont le seul représentant actuel est l’arménien avec entre 7 et 8 millions de locuteurs ;
les langues balto-slaves, originaires de la vallée de la Volga, bien que certains linguistes séparent encore les langues baltes (le lituanien et le letton) des langues slaves (comme le russe, le polonais ou le serbe) et attribuent les proximités linguistiques des deux groupes plus à des interférences linguistiques dues à une proximité géographique qu’à une origine commune dans la famille indo-européenne ;
les langues celtiques, originaires de la région de Hallstatt au nord des Alpes sur la fin du IIe millénaire avant notre ère et s’étant étendues sur l’Europe continentale et les îles britanniques entre 750 et 250 av. EC, ne sont aujourd’hui plus représentées que par la branche des langues celtiques insulaires avec le gaélique irlandais, le gaélique écossais, le mannois, le gallois, le cornique et le breton, et sont toutes en danger d’extinction ;
les langues germaniques, originaire des rives de la mer Baltique et du nord de l’Allemagne actuelle, et aujourd’hui représentées sur tous les continents, majoritairement par l’anglais ;
les langues helléniques, représentées par le grec moderne et ses 15 à 22 millions de locuteurs, les autres langues de la famille étant aujourd’hui considérées comme éteintes ;
les langues indo-iraniennes, présentes dans l’actuel Turkménistan dès la fin du IIIe millénaire avant notre ère puis s’étendant vers l’Afghanistan et le nord de l’Inde au début du IIe millénaire avant notre ère, et desquelles font partie le sanskrit, l’hindi, l’urdu, le persan et le kurde ;
les langues italiques, originaires du sud des Alpes vers la fin du IIe millénaire avant notre ère, et liées selon certains linguistes aux langues celtiques dans une famille appelée langues italo-celtiques, desquelles le latin deviendra le seul représentant au Ier siècle avant notre ère, supplantant et faisant disparaitre le vénète, le falsique, le picène, l’osque, l’ombrien et le sicule, avant de diverger autour du Ve siècle de notre ère vers les différentes langues romanes que nous connaissons actuellement ;
et les langues tokhariennes, peut-être parlées dès le IIe millénaire avant notre ère mais attestées avec plus de certitude (grâce à des écrits en koutchéen et en agnéen retrouvés) entre 300 et 500 dans le bassin du Tarim en Chine actuelle, avant de disparaître vers l’an 900 lors des invasions Ouïghours.
Évolution du proto-indo-européen vers les différentes familles de langues indo-européennes, d’après « Two-point-equidistant-asia », par Mdf, licence CC-0, et « Kurgan map », par Dbachmann, licence CC-0.
L’hypothèse actuellement la plus acceptée par la communauté scientifique concernant l’origine des Indo-Européens est l’hypothèse kourgane (du russe курган kurgan « tumulus », terme d’origine tatare de même sens), basée sur des preuves linguistiques et archéologiques : le proto-indo-européen aurait été parlé par un peuple originaire des steppes pontiques (au nord de la mer Noire et de la mer d’Azov) entre 5500 et 4000 av. EC, où ils auraient domestiqué le cheval ; ils se seraient ensuite étendus dans toute la région pontique entre 3000 et 2500 av. EC, puis auraient atteint les Balkans et les rives de la mer Caspienne avant 2000 av. EC, l’Asie centrale et le nord de l’Inde entre 2000 et 1500 av. EC, l’Europe centrale et la péninsule italique vers 1000 av. EC, et le nord de l’Europe avant 500 av. EC.
D’autres hypothèses existent, plaçant le point de départ des Indo-Européens et le foyer de locuteurs du PIE en Anatolie entre les VIIe et VIe millénaires avant notre ère (théorie anatolienne de Colin Renfrew, 1987), ou en Inde vers le VIe millénaire avant notre ère (théorie de la Sortie de l’Inde ou de l’Invasion Aryenne) ; certains remontent aussi loin que le Xe millénaire avant notre ère (théorie de la Continuité Paléolithique). Cependant, ces théories sont principalement basées sur des données uniquement archéologiques, sans forcément prendre en compte les langues parlées, et la plupart des linguistes rejettent ces hypothèses. Nous nous concentrerons donc sur l’hypothèse kourgane.
Toujours selon cette hypothèse, entre 3500 et 3000 av. EC a lieu le processus de satemisation et le proto-indo-européen commence à diverger selon deux groupes de dialectes (je tiens à rappeler qu’à l’époque il s’agissait certainement de dialectes, mais aujourd’hui ce sont les ancêtres de plusieurs familles de langues) : ceux dans lesquels la consonne palatale *ḱ (sans doute le son /c/) perd sa palatalisation et devient /k/, et ceux dans lesquels elle dérive vers la fricative /s/. On parle alors de langues centum pour les premières (prononcé /ken.tum/) et de langue satem pour les secondes (prononcé /sa.tɛm/), d’après le mot pour « cent » en PIE : *ḱm̥tóm.
Or, c’est à peu près à l’époque où le proto-indo-européen diverge et disparaît que commence à se développer l’écriture. Cette technologie arrivant à des stades différents de l’évolution des peuples en Europe, certaines langues beaucoup plus récentes n’ont, elles non plus, pas de trace écrite : c’est le cas par exemple du proto-germanique, encore parlé vers l’an 200 mais jamais écrit, alors que le latin par exemple s’écrit dès le VIIe siècle avant notre ère.
Le vocabulaire du PIE ainsi que sa grammaire sont donc reconstruits grâce à un procédé que nous détaillerons la semaine prochaine : la linguistique comparée. Cela étant, retenez que c’est cette ignorance du terme initial exact et sa reconstruction qui amène la notation étoilée des termes indo-européens que nous voyons depuis le premier article. Cette notation n’est d’ailleurs pas spécifique à l’indo-européen commun et s’applique pour toute forme non-attestée et reconstruite d’un mot.
Le proto-indo-européen est une langue complexe et ayant énormément de flexion : on compte 25 consonnes (les nasales *m et *n, les occlusives sourdes *p, *t, *k, *ḱ et *kʷ, les occlusives sonores *b, *d, *g, *ǵ et *gʷ, les occlusives aspirées *bʰ, *dʰ, *gʰ, *ǵʰ et *gʷʰ, la fricative *s, les liquides *r et *l, les semi-voyelles *y et *w, ainsi que trois sons laryngaux notés *h₁, *h₂ et *h₃) et 2 ou 3 voyelles (*e, *o, et selon Manfred Mayrhofer peut-être *a, ainsi que leurs équivalents longs, les diphtongues et les consonnes *h̥₁, *h̥₂, *h̥₃, *m̥, *n̥, *l̥, *r̥, *i, *u à valeur vocalique) ; les noms sont classés selon 3 genres (masculin, féminin et neutre), 3 nombres (singulier, duel et pluriel) et se déclinent selon 8 cas (nominatif, vocatif, accusatif, locatif, génitif, ablatif, datif et instrumental).
« *Hoi(H)nos, *duoh₁, *treies,*kʷetuōr, *penkʷe, *(s)uéks, *séptm, *h₃eḱteh₃, *(h₁)néun, *déḱmt, *duidḱmti, *trih₂dḱomth₂, *kʷeturdḱomth₂, *penkʷedḱomth₂, *ueksdḱomth₂, *septmdḱomth₂, *h₃eḱth₃dḱomth₂, *h₁neundḱomth₂, *ḱm̥tom, *ǵheslo. »
Les nombres de 1 à 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 et 1000 en proto-indo-européen, d’après Sihler et Beekes
En près de 7000 ans, l’indo-européen a évolué pour donner près de 600 langues dont on possède une trace aujourd’hui (soit un peu moins de 10% du nombre total de langues répertoriées), et plus de 56% de la population mondiale parle une langue indo-européenne. Lorsque j’ai découvert ce qu’était le proto-indo-européen, ce qu’il représentait pour l’évolution des langues d’Europe et que je me suis renseignée sur ses origines, je suis tombée en admiration devant tant de complexité et de beauté, et devant le travail des linguistes pour faire revenir des Oubliés de l’Histoire cette langue qui est devenue l’une de mes préférées. Je n’ai pu ici qu’effleurer la surface de ce que représentent l’indo-européen et sa culture, et j’espère pouvoir y revenir dans de futurs articles.