Navegación

COES. Información General y Distribución

Santiago Rodríguez y Jesús Carretero
Noviembre 2010

Contenido

1. ¿Qué es COES y para qué sirve?

Este conjunto de ficheros compone un diccionario de español con unos 53.000 términos. El número de términos está en constante incremento, aunque no se puede disponer de nuevas versiones hasta que no se comprueba su correcto funcionamiento. Momento en que se hacen públicas.
La distribución actual de COES incluye un corrector ortográfico.
Estas herramientas se usan en conjunto con la versión internacional del ispell 3.1.13 o posterior o con aspell.
Las versiones de COES que se han puesto a disposición pública son las siguientes:

Versión	Fecha
V 1.1	Diciembre 1994
V 1.2	Enero 1995
V 1.3	Febrero 1995
V 1.4	Abril 1995
V 1.5	Noviembre 1996
V 1.6	Abril 1999
V 1.7	Junio 2001
V 1.8	Marzo 2005
V 1.9	Noviembre 2005
V 1.10	Mayo 2008
V 1.11	Noviembre 2010
COES PROfesional	Licencia NO GPL

2. ¿Dónde puedo obtener COES?

La última versión de este paquete se puede obtener en http://www.datsi.fi.upm.es/~coes/espa~nol-1.11.tar.gz. Este paquete contiene la lista de palabras y el fichero de afijos.

Si se utiliza aspell, se pueden obtener dos paquetes instalables:

Si utiliza aspell 0.50, puede utilizar http://www.datsi.fi.upm.es/~coes/aspell-es-0.50-2.tar.bz2. Este paquete está basado en la distribución 1.7 de COES y su distribución original se encuentra en http://aspell.sourceforge.net.
Si utiliza aspell 0.60.6 o posterior, puede utilizar http://www.datsi.fi.upm.es/~coes/aspell6-1.11-2.tar.bz2. Este paquete está basado en la distribución 1.11 de COES.

3. ¿Qué son Ispell y Aspell y cómo obtenerlos?

Existe un apartado de información general sobre ispell.
Aspell es otro corrector ortográfico y puede obtener más información aquí

4. ¿Cómo instalo COES?

Para ejecutar correctamente este paquete el ispell se debe compilar sin definir la macro NO8BIT en el fichero de configuración local.h.
La distribución se incluye en el fichero espa~nol-X.X.tar.gz (X.X indica el número de versión). Para extraer los ficheros fuente del fichero espa~nol-X.X.tar.gz basta con teclear el comando:

gzip -d < espa~nol-X.X.tar.gz | tar xf -

De este fichero se generan los siguientes:

espa~nol.aff: Fichero de afijos.
espa~nol.words: Contiene una lista de palabras que aparecen en el Diccionario de la Real Academia Española de la Lengua (vigésima primera edición).
espa~nol.nofl: Contiene una lista de palabras que aunque no aparecen en el Diccionario de la Real Academia Española de la Lengua, se utilizan en el castellano normalmente y son "correctas".
espa~nol.comp: Contiene una lista de palabras que aunque no aparecen en el Diccionario de la Real Academia Española de la Lengua, se utilizan en entornos informáticos.
antiguas.words: Contiene una lista de palabras que aunque aparecen en el Diccionario de la Real Academia Española de la Lengua, son acepciones antiguas y que en la actualidad han caído en desuso.
espa~nol.words+: Contiene la lista expandida de palabras correspondiente a los ficheros espa~nol.words y espa~nol.comp.
e~nes: Es un script que remplaza las cadenas 'n y 'N por ~n y ~N en los ficheros espa~nol.aff, espa~nol.words y espa~nol.words+. Si utiliza la segunda manera de especificar esta letra tiene que ejecutar el script e~nes. Éste se ha desarrollado con la versión de sed de GNU 2.05. Si desea ejecutar este script asegúrese que tiene instalada dicha versión y teclee:

make e~ne
Makefile: Es un fichero Makefile que permite generar el fichero (espa~nol.hash) a partir del fichero de afijos y de la lista de palabras sin expandir (espa~nol.words).

5. ¿Cómo genero los diccionarios?

En primer lugar debe decidir como representa las eñes. Hay dos formas posibles: ~n y ~N o 'n y 'N. Si utiliza la segunda manera de especificar esta letra tiene que ejecutar el script e~nes. Éste se ha desarrollado con la versión de sed de GNU 2.05. Si desea ejecutar este script asegúrese que tiene instalada dicha versión y teclee:

make e~ne

Para generar el diccionario de español (fichero espa~nol.hash) teclee:

make

Esta forma de generar el fichero hash (espa~nol.hash) necesita del orden de 50 Mb de memoria (paginación) y del orden de 100 Mb de espacio en disco para almacenamiento de ficheros temporales. Asegúrese de que tiene suficiente espacio para almacenar ficheros temporales (normalmente en /usr/tmp). Si no es así, se debe establecer la variable de entorno TMPDIR a un directorio que esté ubicado en una partición que tenga disponible 100Mb.
Si se desea generar el fichero espa~nol.hash a partir de la lista expandida de palabras se debe invocar el comando:

make build

Esta operación necesita muchos menos recursos.

El tamaño del diccionario (espa~nol.hash) es de aproximadamente 4 Mbytes. Si se genera un diccionario de un tamaño mucho mayor es debido al comando sort que se ha utilizado (este problema se ha detectado en Solaris 2.7). En este caso se recomienda la instalación del paquete textutils de GNU y asegúrese que se utiliza el comando sort de este paquete.

6. ¿Instalación del Diccionario?

Para instalar el diccionario entre como administrador de sistema y teclee:

make install

7. ¿Qué juegos de caracteres incluye COES?

Se soportan seis tipos diferentes de formatos:
Formato por defecto: Las letras acentuadas se codifican como '<letra>:

Codificación	Letra
'a	á
'e	é
'i	í
'o	ó
'u	ú
'n	ñ
"u	ü
'A	Á
'E	É
'I	Í
'O	Ó
'U	Ú
'N	Ñ
"U	Ü

Formato TeX: Las letras acentuadas se codifican de la siguiente forma:

Codificación	Letra
`\`' a	á
`\`' e	é
`\`' {`\`i}	í
`\`' o	ó
`\`' u	ú
`\`' n	ñ
`\`" u	ü
`\`' A	Á
`\`' E	É
`\`' {`\`I}	Í
`\`' O	Ó
`\`' U	Ú
`\`' N	Ñ
`\`" U	Ü

Formato plainTeX: Las letras acentuadas se codifican de la siguiente forma:

Codificación	Letra
`\`' {a}	á
`\`' {e}	é
`\`' {`\`i}	í
`\`' {o}	ó
`\`' {u}	ú
`\`' {n}	ñ
`\`" {u}	ü
`\`' {A}	Á
`\`' {E}	É
`\`' {`\`I}	Í
`\`' {O}	Ó
`\`' {U}	Ú
`\`' {N}	Ñ
`\`" {U}	Ü

Formato html: Las letras acentuadas se codifican de la siguiente forma:

Codificación	Letra
á	á
é	é
í	í
ó	ó
ú	ú
Á	Á
É	É
Í	Í
Ó	Ó
Ú	Ú
ñ	ñ
Ñ	Ñ
ü	ü
Ü	Ü

Formato latin1: Las letras acentuadas se codifican utilizando el código iso_8859_1.
Formato msdos: Las letras acentuadas se codifican utilizando el código ASCII MS-DOS extendido.
Para ejecutar el ispell con un determinado formato:

ispell -T <formato> -d espa~nol <fichero>

8. ¿Existe un diccionario para MSDOS?

El fichero hash para el diccionario de español está generado para sistemas MSDOS en:
http://www.datsi.fi.upm.es/~coes/espa~nol.zip

9. ¿Dónde Envío los informes de error?

Téngase en cuenta que tanto el fichero de afijos como la lista de palabras no están completos. Seguimos trabajando en ello. Si se encuentran palabras que no aparecen en el diccionario o aparecen y no son correctas, por favor, mande un mensaje a la dirección de correo
espanol-bugs@datsi.fi.upm.es.
Es especialmente interesante que nos manden las palabras que no aparecen en el diccionario y sí deben estar recogidas. Esto se puede hacer fácilmente mandando el fichero .ispell_espa~nol, que está almacenado en la raíz de la cuenta de cada usuario, a la dirección arriba especificada.

10. ¿Quién ha desarrollado COES?

La herramienta se desarrolló originalmente en la Universidad Politécnica de Madrid. Posteriormente el Prof. Jesús Carretero se trasladó a la Universidad Carlos III de Madrid y desde allí sigue colaborando en el proyecto. A continuación se muestran los datos actuales de contcto de los autores.

Santiago Rodríguez
Departamento de Arquitectura
y Tecnología de Sistemas Informáticos (DATSI)
Facultad de Informática.
Universidad Politécnica de Madrid
Campus de Montegancedo s/n.
28660 Boadilla del Monte, Madrid, España.
Email: srodri@fi.upm.es

Jesús Carretero
Universidad Carlos III de Madrid
Despacho 2.2.A.25
Edificio Sabatini
Campus de Leganés
Avda de la Universidad, 30
28911, Leganés, Madrid, España
Email: jesus.carretero@uc3m.es

11. Derechos de Autor

Copyright (c) 1994 1995 1996 1999 2001 2005 2008 2010 Santiago Rodríguez y Jesús Carretero

Este paquete se distribuye con dos tipos de licencia:

GNU. Se distribuye bajo las condiciones especificadas en la Licencia Publica de GNU tal y como se publica por FSF. Este paquete se distribuye sin ninguna garantía de funcionamiento y se puede redistribuir y/o modificar según la citada licencia.

PRO. Para aquellas aplicaciones en las que no es aposible la aplicacion de la licencia anterior, por favor contacte con los autores.

Visitas desde Junio de 1997: Contador

Actualizado el 22 de Noviembre de 2010 por Santiago Rodríguez y Jesús Carretero
Página realizada por Miguel Carretero