|
COES. Información General y Distribución
Santiago Rodríguez y Jesús Carretero
Noviembre 2010
Este conjunto de ficheros compone un diccionario de español con unos
53.000 términos. El número de términos está en constante incremento,
aunque no se puede disponer de nuevas versiones hasta que no se
comprueba su correcto funcionamiento. Momento en que se hacen públicas.
La distribución actual de COES incluye un corrector ortográfico.
Estas herramientas se usan en conjunto
con la versión internacional del ispell 3.1.13 o posterior o con aspell.
Las versiones de COES que se han puesto a disposición pública son las
siguientes:
La última versión de este paquete se puede obtener en
http://www.datsi.fi.upm.es/~coes/espa~nol-1.11.tar.gz.
Este paquete contiene la lista de palabras y el fichero de afijos.
Si se
utiliza aspell, se pueden obtener dos paquetes
instalables:
Existe un apartado de información general sobre ispell.
Aspell es otro corrector ortográfico y puede obtener más información aquí
Para ejecutar correctamente este paquete el ispell se debe compilar sin
definir la macro NO8BIT en el fichero de configuración local.h.
La distribución se incluye en el fichero espa~nol-X.X.tar.gz
(X.X indica el número de versión). Para
extraer los ficheros fuente del fichero espa~nol-X.X.tar.gz basta
con teclear el comando:
gzip -d < espa~nol-X.X.tar.gz | tar xf -
De este fichero se generan los siguientes:
espa~nol.aff : Fichero de afijos.
espa~nol.words : Contiene una lista de palabras que aparecen en
el Diccionario de la Real Academia Española de la Lengua (vigésima
primera edición).
espa~nol.nofl : Contiene una lista de palabras que aunque no
aparecen en el Diccionario de la Real Academia Española de la Lengua, se
utilizan en el castellano normalmente y son "correctas".
espa~nol.comp : Contiene una lista de palabras que aunque no
aparecen en el Diccionario de la Real Academia Española de la Lengua, se
utilizan en entornos informáticos.
antiguas.words : Contiene una lista de palabras que aunque aparecen
en el Diccionario de la Real Academia Española de la Lengua, son
acepciones antiguas y que en la actualidad han caído en desuso.
espa~nol.words+ : Contiene la lista expandida de palabras
correspondiente a los ficheros espa~nol.words y
espa~nol.comp .
e~nes : Es un script que remplaza las cadenas 'n y 'N por
~n y ~N en los ficheros espa~nol.aff , espa~nol.words y
espa~nol.words+ .
Si utiliza la segunda manera de especificar esta letra tiene que
ejecutar el script e~nes . Éste se ha desarrollado con la versión de
sed de GNU 2.05. Si desea ejecutar este script asegúrese que tiene
instalada dicha versión y teclee:
make e~ne
Makefile : Es un fichero Makefile que permite generar el
fichero (espa~nol.hash ) a partir del fichero de afijos y de la lista de
palabras sin expandir (espa~nol.words ).
En primer lugar debe decidir como representa las eñes. Hay
dos formas posibles: ~n y ~N o 'n y 'N .
Si utiliza la segunda manera de especificar esta letra tiene
que ejecutar el script e~nes . Éste se ha desarrollado con la
versión de sed de GNU 2.05. Si desea ejecutar este script asegúrese que
tiene instalada dicha versión y teclee:
make e~ne
Para generar el diccionario de español (fichero
espa~nol.hash ) teclee:
make
Esta forma de generar el fichero
hash (espa~nol.hash ) necesita del orden de 50 Mb de memoria
(paginación) y del orden de 100 Mb de espacio en disco para
almacenamiento de ficheros temporales. Asegúrese de que tiene
suficiente espacio para almacenar ficheros temporales (normalmente en
/usr/tmp).
Si no es así, se debe establecer la variable de entorno
TMPDIR a un directorio que esté ubicado en una partición que tenga
disponible 100Mb.
Si se desea generar el fichero espa~nol.hash a partir de la lista
expandida de palabras se debe invocar el comando:
make build
Esta operación necesita muchos menos recursos.
El tamaño del diccionario (espa~nol.hash ) es de aproximadamente
4 Mbytes. Si se
genera un diccionario de un tamaño mucho mayor es debido al comando sort
que se ha utilizado (este problema se ha detectado en Solaris 2.7).
En este caso se recomienda la instalación del paquete
textutils de GNU y asegúrese que se utiliza el comando sort de este paquete.
Para instalar el diccionario entre como administrador de sistema y
teclee:
make install
Se soportan seis tipos diferentes de formatos:
Formato por defecto: Las letras acentuadas se codifican como
'<letra> :
Codificación |
Letra |
'a |
á |
'e |
é |
'i |
í |
'o |
ó |
'u |
ú |
'n |
ñ |
"u |
ü |
'A |
Á |
'E |
É |
'I |
Í |
'O |
Ó |
'U |
Ú |
'N |
Ñ |
"U |
Ü |
Formato TeX: Las letras acentuadas se codifican de la siguiente
forma:
Codificación |
Letra |
\ ' a |
á |
\ ' e |
é |
\ ' {\ i} |
í |
\ ' o |
ó |
\ ' u |
ú |
\ ' n |
ñ |
\ " u |
ü |
\ ' A |
Á |
\ ' E |
É |
\ ' {\ I} |
Í |
\ ' O |
Ó |
\ ' U |
Ú |
\ ' N |
Ñ |
\ " U |
Ü |
Formato plainTeX: Las letras acentuadas se codifican de la siguiente
forma:
Codificación |
Letra |
\ ' {a} |
á |
\ ' {e} |
é |
\ ' {\ i} |
í |
\ ' {o} |
ó |
\ ' {u} |
ú |
\ ' {n} |
ñ |
\ " {u} |
ü |
\ ' {A} |
Á |
\ ' {E} |
É |
\ ' {\ I} |
Í |
\ ' {O} |
Ó |
\ ' {U} |
Ú |
\ ' {N} |
Ñ |
\ " {U} |
Ü |
Formato html: Las letras acentuadas se codifican de la siguiente
forma:
Codificación |
Letra |
á |
á |
é |
é |
í |
í |
ó |
ó |
ú |
ú |
Á |
Á |
É |
É |
Í |
Í |
Ó |
Ó |
Ú |
Ú |
ñ |
ñ |
Ñ |
Ñ |
ü |
ü |
Ü |
Ü |
Formato latin1: Las letras acentuadas se codifican utilizando
el código iso_8859_1.
Formato msdos: Las letras acentuadas se codifican utilizando
el código ASCII MS-DOS extendido.
Para ejecutar el ispell con un determinado formato:
ispell -T <formato> -d espa~nol <fichero>
El fichero hash para el diccionario de español está
generado para sistemas MSDOS en:
http://www.datsi.fi.upm.es/~coes/espa~nol.zip
Téngase en cuenta que tanto el fichero de afijos como la lista
de palabras no están completos. Seguimos trabajando en ello. Si se
encuentran palabras que no aparecen en el diccionario o aparecen y no
son correctas, por favor, mande un mensaje a la dirección de correo
espanol-bugs@datsi.fi.upm.es.
Es especialmente interesante que nos manden las palabras que no
aparecen en el diccionario y sí deben estar recogidas.
Esto se puede hacer fácilmente mandando el fichero .ispell_espa~nol ,
que está almacenado en la raíz de la cuenta de cada usuario, a la
dirección arriba especificada.
La herramienta se desarrolló originalmente en la Universidad Politécnica
de Madrid. Posteriormente el Prof. Jesús Carretero se trasladó a la
Universidad Carlos III de Madrid y desde allí sigue colaborando en el
proyecto. A continuación se muestran los datos actuales de contcto de los
autores.
Santiago Rodríguez
Departamento de Arquitectura
y Tecnología de Sistemas Informáticos (DATSI)
Facultad de Informática.
Universidad Politécnica de Madrid
Campus de Montegancedo s/n.
28660 Boadilla del Monte, Madrid, España.
Email: srodri@fi.upm.es
|
Jesús Carretero
Universidad Carlos III de Madrid
Despacho 2.2.A.25
Edificio Sabatini
Campus de Leganés
Avda de la Universidad, 30
28911, Leganés, Madrid, España
Email: jesus.carretero@uc3m.es
|
Copyright (c) 1994 1995 1996 1999 2001 2005 2008 2010 Santiago Rodríguez y Jesús Carretero
Este paquete se distribuye con dos tipos de licencia:
GNU. Se distribuye bajo las condiciones especificadas en la
Licencia Publica de GNU tal y como se publica por FSF. Este paquete se
distribuye sin ninguna garantía de funcionamiento y se puede redistribuir
y/o modificar según la citada licencia.
PRO. Para aquellas aplicaciones en las que no es aposible la
aplicacion de la licencia anterior, por favor contacte con los autores.
|