Dossier de prensa ¿Qué es el Procesamiento del Lenguaje Natural (PLN)?

Anuncio
Dossier de prensa
¿Qué es el Procesamiento del Lenguaje Natural (PLN)?
El Procesamiento del Lenguaje Natural (PLN) es el camino hacia una
comprensión automática cada vez más profunda de la lengua escrita o
hablada por los humanos, mediante tecnología digital.
Los sistemas informáticos procesan fácilmente datos, es decir, información
que tiene una estructura y un significado único y explícito (información
estructurada). Pueden manejar fácilmente tablas con millones de datos
numéricos, por ejemplo. Pero el lenguaje humano (lenguaje natural) es
información no estructurada, que se caracteriza por tener más de un
contexto y por contener información no explícita. Por ello es mucho más
difícil de procesar automáticamente. Sin embargo, el volumen de textos y
registros sonoros digitalizados o que se producen directamente en formato
digital es abrumador, y el desarrollo de Internet conlleva un crecimiento
exponencial de la información textual digital. Un ejemplo relevante de ello
es el procesado de información no estructurada que realiza Google.
¿Qué aplicaciones prácticas
Lenguaje Natural (PLN)?
tiene
el
Procesamiento
del
El PLN es una tecnología transversal y ya se utiliza cuando se realizan
acciones cotidianas, como correctores ortográficos y gramaticales,
predictores de texto en aplicaciones móviles, traducción automática y
aprendizaje de idiomas y enseñanza online, consultas en buscadores de
Internet, asistentes online disponibles en las páginas web y asistentes
personales del móvil o el encaminamiento de una llamada a un call center.
Menos conocidas son aplicaciones como el resumen automático de
documentos, análisis de opinión a partir de textos de redes sociales,
búsqueda inteligente de información y minería de datos en informes clínicos
Fecha: 20/10/2015
Página 1 de 10
para descubrir evidencias médicas e interacciones entre medicamentos y
enfermedades, mejora de la calidad y capacidad de la tramitación
administrativa y la accesibilidad de las personas con discapacidad, entre
otras.
¿Qué es el Plan de Impulso de las Tecnologías del Lenguaje?
El Plan de Impulso de las Tecnologías del Lenguaje es una acción del
Gobierno incluida en la Agenda Digital para España, coordinada por la
SETSI y elaborada con la participación de los Ministerios de Presidencia,
Industria, Energía y Turismo; Economía y Competitividad; Hacienda y
Administraciones Públicas; Cultura, Educación y Deporte; Asuntos
Exteriores y Cooperación, y Sanidad, Servicios Sociales e Igualdad.
Es un plan a 5 años dotado con un presupuesto de 90 millones de euros, de
los cuáles 14 millones están previstos para 2016 en los Presupuestos
Generales del Estado. Para su elaboración se encargó un informe a un
Comité de Expertos del que formaban parte representantes de los sectores
investigador, industrial, institucional y de las AA.PP.
Se vertebra en torno a cuatro ejes, en los que se contemplan 29 medidas:

Eje I: Apoyo al desarrollo de infraestructuras lingüísticas

Eje II: Impulso de la Industria del Lenguaje

Eje III: La Administración como impulsor de la Industria del Lenguaje

Eje IV: Proyectos faro
¿Con qué objetivo se pone en marcha el Plan de Impulso de
las Tecnologías del Lenguaje?
El Plan de Impulso de las Tecnologías del Lenguaje se pone en marcha
con el objetivo general de impulsar la industria del procesamiento del
lenguaje natural y la traducción automática en lengua española y lenguas
cooficiales.
Fecha: 20/10/2015
Página 2 de 10
Este planteamiento general puede descomponerse en los siguientes
objetivos específicos:
1.
Aumentar el número, calidad y disponibilidad de las
infraestructuras lingüísticas en español y lenguas cooficiales:
asegurando la accesibilidad a todos los recursos y procesadores que
se incluyen en el Plan, apoyando su creación y fortaleciendo a las
instituciones y grupos que investigan en esta área.
2.
Impulsar
la
Industria
del
lenguaje:
fomentando
la
transferencia de conocimiento entre el sector investigador y la
industria: ayudando a la internacionalización de las empresas e
instituciones del sector y mejorando la difusión de los proyectos
actuales y los beneficios de las tecnologías del lenguaje.
3.
Incorporar a la Administración como impulsor del sector de
procesamiento de lenguaje natural y la traducción automática:
mejorando la calidad y capacidad del servicio público con la
incorporación de las tecnologías de procesamiento de lenguaje
natural y de la traducción automática, actuando, además como
tractor
de
la
demanda
y
apoyando
la
generación,
estandarización y difusión de recursos lingüísticos creados en el
contexto de la actividad de gestión pública propia de la
Administración.
El Plan pretende que el impulso a las tecnologías del lenguaje se realice de
forma coordinada, buscando sinergias y evitando duplicidad de
esfuerzos, conforme a las recomendaciones de la Comisión para la
Reforma de las Administraciones Públicas (CORA).
¿Por qué se pone en marcha el Plan de Impulso de las
Tecnologías del Lenguaje?
En cuanto a los motivos por los que se pone en marcha el Plan, en el
sector hay un alto potencial de internacionalización del español y de
Fecha: 20/10/2015
Página 3 de 10
cooperación con Iberoamérica, se trata de un mercado en fuerte
crecimiento asociado a la innovación y el desarrollo, y la AGE está poniendo
en marcha nuevos servicios públicos para ciudadanos y empresas en
sectores estratégicos como la Sanidad, el Turismo y la Educación.
Además, hay un excelente nivel investigador en PLN, con una adecuada
coordinación y una buena gobernanza del idioma español gracias al papel
desempeñado por la RAE y la Asociación de Academias de la Lengua
Española en Iberoamérica. Sin olvidar, la gran cantidad de recursos
lingüísticos que ya están disponibles en la AGE, como fuente principal de
datos abiertos de interés lingüístico para la industria y la investigación.
Como conclusión, hay que decir entonces, que se dispone de los medios y
es necesario impulsar y coordinar las actuaciones desde la AGE para
aprovechar esta oportunidad y evitar la pérdida de competitividad
económica e industrial de España e Iberoamérica, el subdesarrollo digital
del Español, la extinción digital de las lenguas cooficiales y la fuga de
investigadores y profesionales con el consiguiente deterioro del sector
investigador español.
El Plan también se pone en marcha para ayudar a las PYMES a alcanzar la
capacidad industrial suficiente para competir en el mercado internacional y
completar la cadena de valor en España, y para facilitar la transferencia de
conocimiento del sector investigador al industrial debido al carácter
transversal y multidisciplinar del PLN.
¿Cómo se articula el Plan de Impulso de las Tecnologías del
Lenguaje?
El Plan de Impulso de las Tecnologías del Lenguaje se articula en cuatro
ejes que contemplan 29 medidas.

Eje I: Apoyo al desarrollo de infraestructuras lingüísticas. El
objetivo de este eje es el desarrollo de procesadores
(reconocedores de entidades, desambiguadores, calculadores de
Fecha: 20/10/2015
Página 4 de 10
proximidad semántica, etc.) y recursos lingüísticos (corpus
paralelos, diccionarios, taxonomías, etc.) que sirvan de combustible
para el desarrollo de la industria española de procesamiento de
lenguaje natural y de traducción automática.
El Eje I, consta de una única línea de actuación, Desarrollo de
infraestructuras lingüísticas, que contempla cuatro medidas
dirigidas a seleccionar políticas de licencias y mecanismos de
protección de datos personales adecuados, adquirir o desarrollar
herramientas comunes y facilitar el acceso público a las
infraestructuras lingüísticas existentes.

Eje II: Impulso de la Industria de las Tecnologías del
Lenguaje. Se pretende apoyar la transferencia de conocimiento
entre el sector investigador y la industria, así como la
internacionalización de las empresas e instituciones que
componen el sector.
Este Eje consta de dos líneas de actuación que contemplan catorce
medidas. La primera de las líneas, Mejora de la visibilidad y de la
transferencia del sector, incluye entre sus actuaciones la
elaboración de un plan y la planificación y coordinación de acciones
encaminadas para mejorar la visibilidad.
La línea 2, Apoyo a la internacionalización y comercialización
del sector, incluye entre sus medidas la elaboración de un plan de
internacionalización, la cooperación con Iberoamérica, la integración
del procesamiento del lenguaje natural y traducción automática
dentro de los ámbitos que se financian en la Acción Estratégica de
Economía y Sociedad Digital de la Agenda Digital para España, incluir
el sector del PLN en uno de los prioritarios en Invest in Spain para
ampliar la inversión extranjera en España y estudiar la posibilidad de
ayudas a incubadoras o aceleradoras, o de plantear proyectos de
hermanamiento entre empresas pequeñas y empresas grandes.

Eje III: La Administración Pública como impulsor de la
Industria del Lenguaje. Se propone la creación de sendas
Fecha: 20/10/2015
Página 5 de 10
plataformas comunes de procesamiento del lenguaje y de traducción
automática para las Administraciones Públicas. Además, la política de
reutilización de la información del sector público (RISP) representa un
cauce para el desarrollo de estos recursos lingüísticos.
El Eje III consta de dos líneas de actuación, que contemplan diez
medidas. La línea 1, Plataformas de procesamiento de lenguaje
natural y traducción automática en las Administraciones
Públicas, contempla entre sus medidas la elaboración de un plan de
desarrollo de dichas plataformas y la creación de una plataforma
común para las AA.PP.
La segunda de las líneas, Recursos lingüísticos de las
administraciones públicas y política de reutilización de la información
del sector público, incluye medidas como la identificación y
catalogación de los corpus de información del sector público
susceptibles de convertirse en recursos lingüísticos, la elaboración de
un plan de generación de recursos lingüísticos a partir de la
información del sector público y la habilitación de las herramientas
comunes necesarias para generar y explotar estos recursos
lingüísticos.

Eje IV: Proyectos faro de tecnologías de procesamiento de
lenguaje natural. Los proyectos faro son proyectos de aplicación de
las tecnologías del lenguaje natural, emprendidos por las
Administraciones Públicas en sectores estratégicos (Sanidad,
Turismo y Educación) que pretenden servir de demostración de sus
capacidades y beneficios, generar industria y crear recursos
reutilizables en otros proyectos. También servirán de aprendizaje
para futuros desarrollos.
Complementan las demás medidas del Plan para el Impulso de la
Industria del Lenguaje Natural, que son de naturaleza horizontal,
transversal, con actuaciones en sectores concretos que abarquen
toda su cadena de valor y den lugar a productos y servicios
acabados.
Fecha: 20/10/2015
Página 6 de 10
Este Eje, consta de una única línea de actuación, Proyectos faro de
tecnologías de procesamiento del lenguaje natural de las
administraciones públicas, que contempla como medida la realización
de un conjunto limitado de proyectos de aplicación de las tecnologías
del lenguaje natural en servicios públicos estratégicos de gran
impacto social.
En concreto, los proyectos faro son los siguientes:
Sanidad:
o
Asistencia primaria multilenguaje para españoles desplazados y
extranjeros en España.
o
Explotación de historiales clínicos y prospectos farmacológicos
para ayuda a la decisión médica.
Turismo:
o
Inteligencia turística para AAPP: Minería de opinión en redes
sociales sobre establecimientos, servicios y destinos turísticos.
Descubrimiento de rutas turísticas.
o
Traducción automática de guías turísticas, portales web y
comercio electrónico.
Educación:
o
Enseñanza online: Simplificación de textos para enseñanza
especial y la formación a lo largo de la vida. Asistencia al
profesorado y análisis de opinión.
o
Asistencia para la creación de cursos online (MooC). Traducción
automática a lenguas cooficiales y variantes iberoamericanas
del español.
¿Cuál es la situación actual del sector?

Hay un gran momentum en Europa para el PLN y la Traducción
Automática (TA).. Con las últimas incorporaciones de nuevos
países, Europa tiene un gran interés por superar las barreras que
supone el multilingüismo y necesita infraestructuras comunes que
minimicen los costes del multilingüismo, tal como se refleja en la
Fecha: 20/10/2015
Página 7 de 10
Estrategia 2020 de la UE con la creación de un Mercado Único Digital.
España debe tener voz propia en PLN y TA, ya que su experiencia en
la gestión de sus 4 lenguas co-oficiales le ha supuesto un bagaje
único en el continente y reconocido por el resto de los países de la
UE.

Actualmente hay una primacía del inglés en la industria mundial de
PLN y TA. Sólo la mitad de las aplicaciones disponibles en inglés lo
están también para el español y menos aún para las lenguas
cooficiales. Hay que aumentar la cantidad, calidad, variedad y
disponibilidad de los recursos y herramientas para el español, sus
variantes americanas, y las lenguas co-oficiales en España.

Hay un gran desconocimiento de las potencialidades de las
tecnologías de PLN y TA, la especificidad de estas técnicas, la
complejidad en los perfiles que precisan y los recursos a modo de
infraestructuras necesarios, dificultan su expansión y desarrollo en su
uso. Es necesario visibilizar su potencial con acciones de difusión y
formación para los profesionales, con proyectos demostradores que
aumenten la demanda del mercado nacional e internacional y con la
contratación y compra pública de esta tecnología, que es el gran eje
vertebrador para impulsar la industria del PLN en nuestro país.

El mercado de estas tecnologías está creciendo rápidamente a nivel
mundial y se espera que alcance los 65.000 M€ en 2020, según el
Informe publicado por LT-Innovate. El español es la segunda lengua
más hablada del mundo, después del inglés, y la tercera en número
de hablantes (500 millones). Actualmente hay 52 millones de
hablantes en EE.UU. Se prevé que en 2030 sea la segunda lengua de
intercambio económico en el mundo. Esta expansión supone una
oportunidad de negocio para que las empresas españolas sean
líderes del mercado, por eso es preciso consolidar la oferta de
productos de calidad y mejorar su comercialización para liderar el
mercado internacional.
Teniendo en cuenta que el uso del mismo idioma aumenta por tres la
cuota de exportaciones de España y que nueve de cada diez
hablantes se encuentran fuera de nuestras fronteras, hay que apostar
por la internacionalización de los productos para español ya
Fecha: 20/10/2015
Página 8 de 10
disponibles. Para conseguirlo es preciso fomentar los convenios
bilaterales con las administraciones latinoamericanas y aprovechar el
trabajo realizado por instituciones como la RAE y el IEC para regular y
estandarizar el español, con una dimensión panhispánica y que
forman parte de redes con Iberoamérica y EEUU.

Es preciso crear conciencia sectorial y fomentar la colaboración
entre todos los agentes implicados: Administración, industria y
grupos de investigación. Es necesario crear una organización
empresarial nacional que represente los intereses de la industria de
PLN y TA. España cuenta con 30 grupos de investigación y 160
investigadores en PLN y TA pero no hay plataformas para la
transferencia de conocimiento.
En este sentido, el Plan contempla la creación de un foro multilateral
que reunirá a los agentes del sector (empresas, universidad, AA.PP.,
instituciones que trabajan en la regularización y estandarización del
español, etc.).
Fomentando la colaboración entre empresas y grupos de
investigación, se facilita la reutilización de datos y herramientas, y se
reducen las inversiones que realiza el sector privado, permitiendo
incrementar su efectividad en otros ámbitos como la innovación o la
promoción comercial.
 El PLN es un tecnología clave para el análisis de big data no
estructurado y habrá una explosión de productos innovadores por
parte de las start-ups y spin-offs que ya surgen en Europa y
Norteamérica.
Para estar al mismo nivel que otros países, es preciso fomentar el
nacimiento de spin-off en el seno de la universidad española,
apostando por la I+D+i y montando laboratorios virtuales que
reúnan la infraestructura lingüística y tecnológica, la capacidad de
computación de altas prestaciones y la formación necesarias para
empresas del sector PLN y TA, TIC y futuras start-ups.
Fecha: 20/10/2015
Página 9 de 10
En este sentido, está previsto, en el Plan, que la plataforma PLN de la
Administración se pueda abrir para su uso por el sector investigador y
PYME.
Con ello, se aprovecha la experiencia que tienen los investigadores
españoles en transferencia del conocimiento y en el establecimiento
de modelos de colaboración, debido a su participación en proyectos,
asociaciones y grupos de estandarización europeos e internacionales.
Fecha: 20/10/2015
Página 10 de 10
Descargar