Éléments de lexicologie avec R Une application

Anuncio
Éléments de lexicologie avec R
Une application à un texte ancien en espagnol
Guillaume Desagulier
MoDyCo — Université Paris 8, CNRS, Université Paris Ouest Nanterre La Défense
[email protected]
Anciens textes, nouveaux outils
La philologie à l’ère numérique
17 octobre 2015
Table des matières
1 Introduction
1.1 La linguistique de corpus et la philologie . . . . . . . . . . . . . . . . . . . . . . .
1.2 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
2
2 Le texte
2
3 Les outils
3
4 Microanalyse
4.1 Distribution zipfienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Distribution des personnages . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Dispersion des personnages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
4
4
5
5 Méso-analyse
5.1 Richesse lexicale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Courbes de croissance du vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . .
6
6
7
6 Macroanalyse
10
7 Prolongements
10
8 Mise en garde
10
1
1
Introduction
1.1
La linguistique de corpus et la philologie
A l’instar des biologistes, qui appréhendent la vie de manière indirecte, à travers l’étude de
la structure, la fonction, la croissance, l’évolution, la distribution et la taxonomie des organismes
vivants, les linguistes appréhendent le langage et la langue à travers des manifestations. Certaines
théories cherchent ces traces langagières dans leur intuition. D’autres rejettent le recours à la seule
intuition et se reportent sur des corpus. En linguistique de corpus, un corpus est un échantillon de
productions linguistiques authentiques par des locuteurs natifs. Ces productions sont à présent
le plus souvent numérisées de manière à pouvoir être « lues » par des machines.
En dehors de la linguistique, d’autres disciplines des humanités ont recours à des collections
de textes (histoire, littérature, stylistique, etc.) qu’elles exploitent le plus souvent à l’aide de
techniques de fouille de textes. La linguistique de corpus exploite également ces techniques.
Toutefois, le but de la linguistique diverge de celui des disciplines mentionnées plus haut. En
littérature, on cherche à obtenir une meilleure connaissance d’un auteur, d’un courant ou d’une
époque à partir du texte. En linguistique, la fouille de textes a pour but d’en savoir plus sur les
locuteurs et sur la faculté de langage.
Dans cette présentation, je propose d’appliquer des techniques couramment utilisées en linguistique de corpus à un texte ancien en espagnol. En ma qualité de linguiste spécialiste de
sémantique en anglais, je ne prétends aucunement apporter de connaissances nouvelles sur le
texte. Je ne prétends pas non plus apprendre à des philologues comment travailler. J’entends
juste jeter un pont entre une discipline que je connais (la linguistique de corpus) et une discipline
que je découvre avec humilité (la philologie).
1.2
Objectif
Appliquer 3 niveaux d’analyse à une oeuvre (Jockers 2014)
1. micro
2. méso
3. macro
2
Le texte
El Ingenioso Hidalgo Don Quijote de la Mancha, Miguel de Cervantes Saavedra
2 parties (1605, 1615)
Version texte brut créée en décembre 1999 (Figure 1)
Source : The Project Gutenberg
http://www.gutenberg.org/cache/epub/2000/pg2000.txt
Caractéristiques de la version en texte brut :
- pas de numérotation des pages (mais chapitres)
- pas de markup
- pas de tokenisation
- pas de lemmatisation
- pas d’annotation
- graphie modernisée
En somme, tout reste à faire. Mais beaucoup de choses sont possibles, incomparablement plus
qu’avec un manuscrit scanné (Figure 2), certes très beau, mais difficilement exploitable.
2
Figure 2 – Version scannée
Figure 1 – Version texte brut
3
Les outils
- R (R Core Team 2015)
- extensions spécialisées dans
— la linguistique de corpus
— la fouille de textes
— la textométrie
3
4
Microanalyse
4.1
Distribution zipfienne
Zipf (1949)
4
3
2
1
Proportion du texte entier (pourcents)
5
Figure 3 – Un exemple de distribution pseudo-zipfienne
que
y
de
la
a
en
el
no
los
se
con
por
las
lo
le
su
don
del
Vingt mots les plus fréquents
Distribution des personnages
0.4
0.3
0.2
0.1
Proportion du texte entier (pourcents)
0.5
Figure 4 – Distribution des personnages principaux
0.0
4.2
quijote
sancho
dulcinea
rocinante
Personnages
4
rucio
gigantes
me como
Dispersion des personnages
Figure 5 – Dispersion (Don Quijote–Sancho Panza)
don Quijote
Spectre de dispersion de don Quijote dans Don Quijote de Cervantes
0e+00
1e+05
2e+05
3e+05
déroulement linéaire du roman
Spectre de dispersion de Sancho Panza dans Don Quijote de Cervantes
Sancho Panza
0e+00
1e+05
2e+05
3e+05
déroulement linéaire du roman
0.0 0.5 1.0 1.5
Figure 6 – Dispersion par chapitres (Don Quijote–Sancho Panza)
0.5
1.0
1.5
don Quijote
0.0
4.3
Sancho Panza
5
0.0
0.5
1.0
0.0 0.5 1.0 1.5
1.5
Figure 7 – Dispersion par chapitres (six personnages)
Sancho Panza
0.0
0.0
0.2
0.2
0.4
0.4
don Quijote
Rocinante
0.0
0.00
0.10
0.2
0.20
0.4
Dulcinea
el rucio
Richesse lexicale
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Figure 8 – Richesse lexicale (pourcentage d’hapax par chapitre)
0.00
5.1
Méso-analyse
pourcentage d'hapax legomena dans le chapitre
5
los gigantes
1
5
9 13
18
23
28
33
38
43
48
53
58
63
68
chapitres
6
73
78
83
88
93
98
104 110 116 122
5.2
Courbes de croissance du vocabulaire
Élaboration : Baayen (2001). Exemples d’utilisation critique : Desagulier (2015) et Zeldes
(2012)
Figure 9 – Croissance empirique
V
30000
courbe de croissance empirique
10000
20000
V1
Don Quijote :
env. 381 000 mots
0
fréquences des types (V) et des hapax (V1)
40000
Courbe de croissance du vocabulaire dans Don Quijote
0
50000
100000
150000
200000
250000
taille du texte en mots (tokens)
7
300000
350000
Figure 10 – Croissance empirique + interpolation
V
30000
courbe de croissance interpolée
courbe de croissance empirique
20000
V1
10000
fréquences des types (V) et des hapax (V1)
40000
Courbes de croissance du vocabulaire dans Don Quijote
(empirique + interpolation)
0
Don Quijote :
env. 381 000 mots
0
50000
100000
150000
200000
250000
300000
350000
taille du texte en mots (tokens)
Figure 11 – Croissance empirique + interpolation + extrapolation
V
30000
40000
50000
courbe de croissance interpolée
courbe de croissance extrapolée
courbe de croissance empirique
10000
20000
V1
Don Quijote :
env. 381 000 mots
0
fréquences des types (V) et des hapax (V1)
60000
Courbes de croissance du vocabulaire dans Don Quijote
(empirique + interpolation + extrapolation)
0e+00
1e+05
2e+05
3e+05
4e+05
5e+05
taille du texte en mots (tokens)
8
6e+05
7e+05
Figure 12 – Croissance empirique + interpolation + extrapolation (Viaje del Parnaso)
50000
40000
30000
20000
10000
0
fréquences des types (V) et des hapax (V1)
60000
Courbe de croissance du vocabulaire (Viaje del Parnaso)
0e+00
1e+05
2e+05
3e+05
4e+05
5e+05
6e+05
7e+05
taille du texte en mots (tokens)
Figure 13 – Comparaison Don Quijote–Viaje al Parnaso
50000
V (quijote)
Don Quijote =
env. 381 000 mots
Viaje =
env. 56 000 mots
30000
40000
V (viaje)
quijote (int)
quijote (ext)
quijote (emp)
viaje (int)
viaje (ext)
viaje (emp)
V1 (quijote)
10000
20000
V1 (viaje)
0
fréquences des types (V) et des hapax (V1)
60000
Courbes de croissance du vocabulaire dans 2 oeuvres de Cervantes
(empirique + interpolation + extrapolation)
0e+00
1e+05
2e+05
3e+05
4e+05
5e+05
taille du texte en mots (tokens)
9
6e+05
7e+05
6
Macroanalyse
hambre
Figure 14 – Nuage de mots
fin
libros traía
parecer
aquellos
mismo
duda
señores
andantes ventero
orden autor
caballería
años
quería
suerte
trabajo
pensamientos pedro
venían
parecía llama
éste
barbero
poner
boca
temor
principal
discreto
cuenta
silla
ninguna
poder
sabía
vestido buenos
valeroso
virtud
quisiere
mujer
cuya
figura hoy diese
algún podía hacía
pie corazón
dónde
juicio
grandeza
edad
culpa
llaman
hacer
caso
quiere
hora
puesto
mejor
alguna
comer pueblo
lágrimas podría
famoso
pueda
locura
buenas tomó
lengua reino
sol sabe
cosas diez
vuesa
todas caballo
entró
paz
ciudad agua
pudiera
principio
verdad
menester
dineros
provecho
espaldas
criados
viendo
según
después
quién
valiente
aquel puso
dos
mucha
creer
comenzó leído
dado
amigo
mal
mesma
buscar
paso
alma
días diciendo pies
desta voluntad
entonces ésta
grande
aquello sansón
doncella
llegar hallado
mala loco
mirasazón
preguntó
amor
contento
digo
muchas
vino decía
replicó
camila
cómo
puesmano
mancha
mas haber
manos
capítulo
ninguno
venía
rey
brazos
debajopienso palabra
carta
hidalgo
antonio aposento
amo
vos
luz
tras
parte
sólo
tres
señoranombre
veo solo
ojos
caballero
cura buen
caballeros
creo
parece
veces casi
respondió
fernando
anselmo
rocinante
ahora
leer
sancho
ello
vista
dijo
hijo
modo
don
pareció
cuatro
obra rucio
quisiera lotario
cada
gobernador
renegado
andar
tomar
aventura
cristiano
deseos
junto gobierno tantas
pensamiento
presto
quizá oro pobremuerto
altisidora
doña
obras
mañana mozo entrar
sucesos hicieron
fuere
oyendo pensaba entendimiento caballerías maese
llegaron sola
enemigo labrador
quedaron
querría esperar dolor
enamorado
sobrina
haciendo
haré pudo
encantadores
hizo
así tal
allí
quijote
panza
tiempo
bueno
tan
dél
gran
razón
licencia grandes
jumento
falta
dije
bien
cuerpo
aquellas
pensar
cardenio
par
debe
ser
cielo
ver
allá
pasó
nunca
salió
consejo
7
aquí sino
merced
casa
entender
carrasco seis
señal hermosura
gracias
quedó
compañía viene
haga voces
volver
llamaba conmigo
iba
día dio
oír
toda
señordar
decir
salir
adelante visto
presente
mil
fama
cuales camino
daba
barbaspodrá
ama
vio
libro voz
mayores finalmente
padre
puedo
natural oído punto
unas
primera
fortuna
marido
cierto dueña
dorotea
primero
armas
siempre
ventura
rostro
historia
hecho
hacen
ínsula
llevar
tanta
gente
halló priesa
dieron aventuras
nuevo hombres
gusto llegó
mesmo
ahí
cuyo
dicen
noticia
hazañas palabras
queda
dormir
ánimo
lugar aquella deseo
menos daño saber
puede
dios vida
resolución
cristianos
discurso
peligro
mercedes
adonde
hago
bachiller
espada
mar diablo suelo
amigos
dellos vea
fuerza
suelen
manera
luego mundo
buena dicho cosa aunque cuanto
hablar mayor
valor posible
mandó
madre
muestras
sangre
españa zoraida
consigo
sucedió
querer desgracia
rico
doncellas
hijos batalla
campo
semejantes
misma medio
dejó condición
ocasión intención
apenas
cerca
cuentohonra
demás memoria
cuán
ansí
volvió hermosa
hermano remedio
verde
partes
ningún
suceso luscinda
castillo brazo nadie muerte triste cabocuantos
tales andante quisojamás dejar nuevas
pasar causa
asno silencio
agora
suele razones lanza
mitad
pan
duque escudero quiero della hace delantepueden bosque
venta
azotes
tener
noche hija persona libertad
deste
pecho
puerta
alguno
hombre tierra
duquesa
padres
dando
dice toboso aún venir gana
aun
libre
escuderos tantos
pena
cabeza
vez
espacio
pasado teresa debía
criado dulcinea
Prolongements
- classification
- attribution d’auteur sur la base d’un apprentissage
L’idéal est de disposer de textes électroniques avec marquage XML et annotations. A ma
grande surprise, très peu de textes se conformant à ces exigences sont disponibles.
8
Mise en garde
L’exploitation textométrique de textes électroniques ne se passe pas :
- d’une connaissance approfondie des oeuvres,
- d’une question de recherche solide,
- d’une annotation manuelle ciblée (ex. personnages, lieux, dates, etc.).
De plus, elle ne remplace pas l’intuition du chercheur. Elle ne sert qu’à l’étayer.
10
Références
Baayen, Rolf Harald (2001). Word Frequency Distributions. Dordrecht : Kluwer Academic Publishers.
Desagulier, Guillaume (2015). “A lesson from associative learning : asymmetry and productivity in multiple-slot constructions”. In : Corpus Linguistics and Linguistic Theory.
Jockers, Matthew (2014). Text Analysis with R for Students of Literature. New York : Springer.
R Core Team (2015). R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Vienna, Austria. url : http://www.R-project.org/.
Zeldes, Amir (2012). Productivity in Argument Selection : From Morphology to Syntax. Berlin
& New York : Mouton de Gruyter.
Zipf, George K. (1949). Human Behavior and the Principle of Least Effort. Cambridge : AddisonWesley.
11
Descargar