lunedì 10 dicembre 2007

Lingüística computacional


El uso de las computadoras ha hecho posible la aparición de nuevas herramientas para el estudio de las lenguas, Un
corpus lingüístico es un conjunto, normalmente muy amplio, de ejemplos reales de uso de una lengua. Se trata de grandes volúmenes de textos, de numerosas fuentes, generalmente millones de palabras, clasificadas por fecha y por autor, en los que se puede hacer búsquedas en forma fácil y rápida, algo que hubiera sido impensable antes del surgimiento de la informática.
Este campo del conocimiento, llamado Lingüística computacional, nació en 1967 en la universidad estadounidense de Brown, en la ciudad de Providence, Rhode Island, con los trabajos de Henry Kucera y Nelson Francis, quienes compilaron el llamado corpus de Brown, el primero de la historia.
La Real Academia Española ofrece en su sitio web dos corpus diferenciados: El CREA (Corpus de Referencia del Español Actual) y el Corde (Corpus Diacrónico del Español). El CREA incluye textos de los últimos veinticinco años y el Corde, desde los inicios del español hasta el comienzo del CREA.
Otros corpus del español se han construido fuera de España. Entre ellos, cabe destacar uno de los más vastos y el que mejor parece adecuarse a las necesidades de quienes trabajan con la historia del idioma por las posibilidades que ofrece: el Corpus del Español de la Universidad de Brigham Young, creado en 2002 por el lingüista e investigador Mark Davies. El corpus, que está disponible en www.corpusdelespanol.org, contiene cien millones de palabras, entre los siglos XIII y XX.
Mark Davies lanzó a comienzos de diciembre una segunda versión de su corpus a la que se incorporan nuevos recursos.

(de www.elcastellano.org)

Nessun commento:

Posta un commento