CORPUS 1

Anuncio
CORPUS
VIRTUALES
ÍNDICE

Introducción

¿Quién utiliza los corpora?

Elaboración de un corpus virtual

Criterios para la elaboración del corpus

¿Cómo elaborar un corpus?
¿QUÉ ES UN CORPUS?

“Gran colección de textos reales que se han compilado en un
formato electrónico acorde un conjunto de criterios
específicos” (Bowker and Pearson, 2002)
CARACTERÍSTICAS
Real → Extraído de la
realidad
Formato electrónico
→ puede ser
procesado por un
ordenador
Grande → un número
significativo de textos.
Criterios específicos
→ colección de textos
con características
comunes
¿PARA QUÉ Y QUIÉN UTILIZA
LOS CORPORA?
Para estudiar el uso de la
lengua en ejemplos reales
Lexicografía → Realizar
diccionarios, identificar
contextos y usos
Sociolingüística →
Diferencias de uso de
lenguas entre clases
sociales, sexos, etc.
Traducción →
Terminología, patrones
fraseológicos, uso de la
lengua
Aprendizaje de lenguas→
Ejemplos de términos en
determinados contextos
y así aprender su
verdadero uso
TIPOS DE CORPORA (CORPAS PASTOR, 2001)
ACCESO

Robustos/reales

Corpus de referencia del español actual (CREA)
http://corpus.rae.es/creanet.html
TIPOS DE
CORPORA
SEGÚN MODO
DE


British National Corpus (BNC)
http://www.natcorp.ox.ac.uk/
Virtuales o ad hoc:

«[…] ad hoc corpora, i.e., corpora compiled “on the
fly” by the translator in order to investigate
aspecific problem enconuntered during a particular
translation» (Aston, 1999).

No se trata de recuperar información para
solventar una determinada problemática […] sino
más bien de reunir toda la documentación posble
disponible sobre un tema en poco tiempo, ya se
trate de documentar un único texto o un bloque
textual (Corpas Pastor, 2001).
ROBUSTO
VIRTUALES
• Más fiables y extensos
• Fáciles de crear y es útil para
una necesidad concreta
• Información lingüística y
contextual
• Ya están alineados
• Disponen de software
• Una rica fuente de información
• Necesitan ser evaluados
cuidadosamente
DE IDIOMAS
SEGÚN NÚMERO

Monolingües

Multilingües

Bilingües


Comparables: Selección de textos en más de una
lengua o variedad lingüística parecidos en cuanto a
sus características y que comparten criterios de
selección.
Paralelo:Texto en una lengua alineado con su
traducción.
Documentación aplicada a la traducción
EJEMPLO DE UN CORPUS BILINGÜE
COMPARABLE
Condiciones
Este acuerdo se ha redactado en inglés de
Estados Unidos. En caso de existir
discrepancias entre el original y una
versión traducida, el original en inglés es
el documento vinculante. La sección 16
contiene modificaciones a las
condiciones generales que atañen a los
usuarios que no se encuentran en
Estados Unidos.
Fecha de la última revisión: 26 de abril de
2011.
Información de la empresa
El sitio web www.facebook.es y los servicios
que incluye son ofrecidos por:
Facebook Ireland Limited
Fuente:
http://www.facebook.com/terms.php?r
ef=pf
Terms
MySpace, Inc. (“MySpace” or “we”) operates
MySpace.com, which is a social
networking platform that allows
Members to create unique personal
profiles online in order to find and
communicate with old and new friends.
The services offered by MySpace include
any MySpace-branded URL (the
"MySpace Website"), MySpace
messaging services (including, without
limitation, instant messaging, private
messaging, and email services), MySpace
music and video services, MySpace
developer services, MySpace mobile
services, and any other features, content,
or applications offered from time to time
by MySpace in connection with
MySpace’s business (collectively, the
"MySpace Services"). The MySpace
Services are hosted in the United States.
Source:
http://www.myspace.com/international
#!/Help/Terms
EJEMPLO DE UN CORPUS BILINGÜE
PARALELO ALINEADO
Condiciones
Terms
Este acuerdo se ha redactado en inglés de Estados
Unidos. En caso de existir discrepancias entre el
original y una versión traducida, el original en inglés
es el documento vinculante. La sección 16 contiene
modificaciones a las condiciones generales que atañen
a los usuarios que no se encuentran en Estados
Unidos.
This agreement was written in English
(US). To the extent any translated version
of this agreement conflicts with the English
version, the English version controls.
Please note that Section 16 contains
certain changes to the general terms for
users outside the United States.
Fecha de la última revisión: 26 de abril de 2011.
Date of Last Revision: April 26, 2011.
Información de la empresa
Company Information
El sitio web www.facebook.es y los servicios que
incluye son ofrecidos por:
The website under www.facebook.com and
the services on these pages are being
offered to you by:
Facebook Ireland Limited
Facebook Ireland Limited
Fuente: http://www.facebook.com/terms.php?ref=pf
Source: http://engb.facebook.com/terms.php?ref=pf
ELABORACIÓN DE UN CORPUS
VIRTUAL

Factores a tener en cuenta:

Tipo de texto: folleto, guía de usuario…

Idioma

Restricciones diatópicas: British/American English, español
peninsular, etc.

Original/traducción

Completo/parcial
Localizar la información y
análisis del TO
Selección de los S.R.I. y
volcado de datos
Análisis de la información
Utilización del software
PASOS A
SEGUIR
LOCALIZAR LA INFORMACIÓN
Y ANÁLISIS
DEL TO (Texto Original)

Descargamos el TO y lo transformamos en texto
plano (formato ASCII → se puede usar bllock de notas).

Lo introducimos en un gestor de corpus: AntConc, WordSmith Tools,
Concordance → disponibles online*
*No se hará uso de estas herramientas en la clase de Documentación
SELECCIÓN DE LOS S.R.I Y
VOLCADO DE DATOS

Establecimiento de los descriptores para interrogar a los
sistemas de recuperación de información (S.R.I.)

Medline, en este caso (mirar diapositiva siguiente)

Selección de términos en LM para la búsqueda:

Episiotomy, dysparheunia, vaginal tear, urinary
incontinence
¿DÓNDE ?
Búscadores generales:
google.com, yahoo.com,
bing.com, etc.
 Metabuscadores: vivisimo.com,
metacrawler.com, ixquick.com,
dogpile.com
(http://www.buscaya.com/met
abuscadores/metab.htm)
 Buscadores especializados
 Directorios (ask.com,
yahoo.com…)
 Listas de distribución:
• rediris.es
 Portales


Buscadores institucionales:


Recursos/Fuentes
normalizadoras:


Organización para la
Estandarización (ISO)
Fuentes legales


Páginas webs: educación
(.edu), organismos
institucionales (.org)
Páginas webs: ministerios, UE,
ONU
Recursos lingüísticos:

Diccionarios, glosarios,
vocabularios, bases de datos,
tesauros, corpus.
Descargar