Tabla de contenidos
El Multilenguaje (M17N) o Soporte del Lenguaje Propio para el software de aplicaciones se realiza en dos pasos.
Internacionalización (I18N): para hacer que el software sea capaz de gestionar múltiples configuraciones dependiendo de la configuración regional.
Localización (L10N): para hacer que el software sea capaz de gestionar la configuración regional.
|
Sugerencia |
|---|---|
|
Hay 17, 18 o 10 letras entre "m" y "n", "i" y "n", o "l" y "n" en multilingüalización, internacionalización y localización que corresponden a M17N, I18N y L10N. Véase Internacionalización y localización para más detalles. |
El programa admite la internacionalización mediante la configuración de la
variable de entorno "$LANG" para admitir la
localización. La compatibilidad con la configuración regional real se basa
en las características proporcionadas por la biblioteca
libc y requiere que se instalen los paquetes
locales o locales-all. El paquete
locales debe inicializarse correctamente.
Si no están instalados los paquetes locales o
locales-all, se pierde el soporte de las características
de localización y el sistema utiliza mensajes en inglés de EE.UU. y maneja
los datos como ASCII. Este
comportamiento es el mismo que "$LANG" es establecido por
"LANG=", "LANG=C", o
"LANG=POSIX".
Los programas modernos como GNOME y KDE son multilingües. Se
internacionalizan haciendo que manejen datos UTF-8 y se localizan proporcionando sus mensajes
traducidos a través de la infraestructura gettext(1).
Los mensajes traducidos pueden darse como paquetes de localización
independientes.
El sistema GUI de escritorio Debian actual normalmente establece la
configuración local en el entorno GUI como
"LANG=xx_YY.UTF-8". Aquí, "xx" es
Códigos de idioma ISO 639 y
"YY" es Códigos de
idioma ISO 3166. Estos valores se establecen mediante el diálogo de
la GUI de configuración del escritorio y cambian el comportamiento del
programa. Ver Sección 1.5.2, “La variable «$LANG»”
La representación más simple de los datos de texto es ASCII que es suficiente para el inglés y usa menos de 127 caracteres (representable con 7 bits).
Incluso texto plano en inglés puede contener caracteres que no perteneces a ASCII, p. ej. las comillas ligeramente inclinadas a izquierda y derecha no están incluidas en ASCII.
“double quoted text” is not "double quoted ASCII" ‘single quoted text’ is not 'single quoted ASCII'
Para admitir más caracteres, se han utilizado muchos conjuntos de caracteres y sistemas de codificación para admitir muchos idiomas (consulte Tabla 11.2, “Relación de valores de codificación y su uso”).
EL conjunto de caracteres Unicode puede representar prácticamente todos los caracteres conocidos por humanos con un rango de punto de código de 21 bits (es decir, 0 a 10FFFF en notación hexadecimal).
El sistema de codificación de texto UTF-8 ajusta los puntos de código Unicode en un flujo de datos sensible de 8 bits, en su mayoría compatible con el sistema de procesamiento de datos ASCII. Esto hace que UTF-8 sea la opción preferida moderna. UTF representa el Formato de Transformación Unicode. Cuando los datos de texto sin formato ASCII se convierten en uno UTF-8, tienen exactamente el mismo contenido y tamaño que el original ASCII. Así que no pierde nada utilizando la configuración regional UTF-8.
En la local UTF-8 con el programa de aplicación
compatible, puede mostrar y editar cualquier dato de texto en un idioma
extranjero siempre que las fuentes y los métodos de entrada requeridos estén
instalados y habilitados. Por ejemplo, en la configuración local
"LANG=fr_FR.UTF-8", gedit(1) (editor
de texto para el escritorio GNOME) puede mostrar y editar datos de texto de
caracteres chinos mientras presenta menús en francés.
|
Sugerencia |
|---|---|
|
Tanto la nueva configuración " |
|
Nota |
|---|---|
|
Algunos programas utilizan más memoria después de configurarlos con l18N. Esto es debido a que se han escrito para utilizar UTF-32(UCS4) internamente para utilizar Unicode con el fin de optimizar la velocidad y utilizan 4 bytes por cada carácter ASCII con independencia de la configuración regional seleccionada. Nuevamente, no se pierde nada por utilizar como configuración regional UTF-8. |
Para que el sistema acceda a un lugar en particular, los datos del lugar deben compilarse desde la base de datos del lugar.
El paquete locales no
viene con datos locales precompilados. Necesitas configurarlo como:
# dpkg-reconfigure locales
Este proceso consta de 2 pasos.
Selecciona todas las configuraciones regionales que desea compilar al formato binario. (Asegúrate de incluir al menos una configuración regional UTF-8)
Establece el valor de la configuración regional predeterminada para todo el
sistema creando "/etc/default/locale" para que lo utilice
PAM (consulta Sección 4.5, “PAM y NSS”).
El valor de la configuración regional predeterminada para todo el sistema
establecido en "/etc/default/locale" se puede anular por
la configuración GUI para aplicaciones GUI.
|
Nota |
|---|---|
|
El sistema de codificación tradicional real puede identificarse mediante
" |
El paquete locales-all viene con datos de configuración
regional precompilados para todos los datos de la configuración regional.
Dado que no crea "/etc/default/locale", es posible que
también necesite instalar el paquete locales.
|
Sugerencia |
|---|---|
|
El paquete |
Para el intercambio de datos entre plataformas (ver Sección 10.1.7, “Dispositivos de almacenamiento extraíbles”), puede necesitar montar un sistema de
archivos con una codificación adecuada. Por ejemplo,
mount(8) para el sistemas
de archivos vfat da por sentado CP437
si se utiliza sin opciones. Necesitará dar al montar una opción explícita
para utilizar UTF-8 o CP932 para los nombres de archivos.
|
Nota |
|---|---|
|
When auto-mounting a hot-pluggable USB flash drive under modern desktop environment such as GNOME, you may provide such mount option by right clicking the icon on the desktop, click "Drive" tab, click to expand "Setting", and entering "utf8" to "Mount options:". The next time this USB flash drive is mounted, mount with UTF-8 is enabled. |
|
Nota |
|---|---|
|
Si esta actualizando su sistema o modificando los discos duros desde un sistema antiguo que no soporta UTF-8, los nombres de los archivos con caracteres que no son ASCII se pueden codificar con la histórica y obsoleta ISO-8859-1 o eucJP. Por favor busque ayuda entre las herramientas de conversión de texto para convertirlas a UTF-8. Ver Sección 11.1, “Herramientas para la conversión de información en formato texto”. |
Samba, por defecto, utiliza Unicode para los
clientes nuevos (Windows NT, 200x, XP) pero utiliza CP850 para los viejos (DOS and Windows 9x/Me). El
valor por defecto de los clientes viejos se puede cambiar modificando la
entrada«dos charset» en el archivo
«/etc/samba/smb.conf», p. ej. a CP932 para el japonés.
Existen traducciones para muchos de los mensajes de texto y documentos que el sistema Debian muestra, como los mensajes de error, salida estándar de los programas, menús y páginas de manual. El conjunto de herramientas GNU gettext(1) se usan como respaldo para la mayoría de las actividades relacionadas con la traducción.
En «Tareas« → «Configuración regional« aptitude(8) tiene
una relación muy completa de paquetes binarios útiles los cuales
proporcionan mensajes según la configuración regional de las aplicaciones y
documentación traducida.
Por ejemplo, puede tener los mensajes según su configuración regional
instalando el paquete
manpages-LANG. Para leer la página
de man en italiano de nombre_del_programadesde
«/usr/share/man/it/», ejecute lo siguiente.
LANG=it_IT.UTF-8 man programname
GNU gettext puede acomodar una lista prioritaria de idiomas en la traducción
con la variable del entorno $LANGUAGE. Por ejemplo:
$ export LANGUAGE="pt:pt_BR:es:it:fr"
Para más información, consulta info gettext y lee la
sección "La variable LANGUAGE".
El orden de los caracteres con sort(1) y
ls(1) se ve afectado por la configuración regional. La
exportación de LANG=es_US.UTF-8 ordena en el diccionario
A->a->B->b... ->Z->z, mientras que
exportar LANG=C.UTF-8 ordena en el orden binario ASCII
A->B->...->Z->a->b....
El formato de fecha de la ls(1) se ve afectado por la
configuración regional (ver Sección 9.3.4, “Personalización de la visualización de la fecha y hora”).
El formato de la fecha de fecha(1) se ve afectado por la
configuración regional. Por ejemplo:
$ unset LC_ALL $ LANG=en_US.UTF-8 date Thu Dec 24 08:30:00 PM JST 2023 $ LANG=en_GB.UTF-8 date Thu 24 Dec 20:30:10 JST 2023 $ LANG=es_ES.UTF-8 date jue 24 dic 2023 20:30:20 JST $ LC_TIME=en_DK.UTF-8 date 2023-12-24T20:30:30 JST
La puntuación numérica es diferente en las diferentes configuraciones
regionales. Por ejemplo, en la configuración regional en Inglés, mil punto
uno se muestra como "1,000.1", mientras que en la
configuración regional en alemán, se muestra como "1.000,
1". Puedes ver la diferencia en los programas de hojas de
cálculo.
Cada detalle de la variable del entorno "$LANG" se puede
anular configurando las variables "$LC_*". Estas
variables del entorno se pueden volver a anular configurando la variable
$LC_ALL". Ver la página man locale(7)
para obtener más detalles. A menos que tengas una razón de peso para crear
configuraciones complejas, mantente alejado de ellas y simplemente usa la
variable "$LANG" para establecer una configuración
regional UTF-8.
The keyboard system can be configured at different layers of the system.
Linux kernel: keyboard(5)
X server: setxkbmap(1),
xkeyboard-config(5), environment variable
XMODIFIERS
GUI desktop environment: Input Method framework: ibus,
fcitx5
Application: environment variables to set its input source:
GTK_IM_MODULE, QT_IM_MODULE,
QT_IM_MODULES, ...
Input method framework (IM) consists of:
Input method engine (IME): Actual input method
Configuration: Handles the configuration for IBus and other services such as IME
Panel: User interface such as language bar and candidate selection table
Multilingual input to the application is processed roughly as:
Keyboard UI panel Configuration Application
| ^ | | ^ ^
v | v v | |
Linux kernel -> Input method engine (IME) -+-> Gtk, Qt -+ |
| ^ | |
| | +-> X, Wayland -+
v |
IME plugin (ibus-mozc, ...)
The Debian system can be configured to work with many international keyboard
arrangements using the keyboard-configuration package.
# dpkg-reconfigure keyboard-configuration
For the Linux console and the X Window system, this updates configuration
parameters in "/etc/default/keyboard". Many non-ASCII
characters including accented characters used by many European languages can
be made available with dead key, AltGr key, and compose
key.
|
Nota |
|---|---|
|
Si ibus está activo, la configuración de su teclado X clásico por
|
Unlike the X Window protocol, the Wayland core protocol doesn't even support
the input of accented characters. Popular Wayland Compositors, such as
Mutter for GNOME or KWin for KDE, implement extension protocols such as the
text-input-unstable-v3 for the text input (see "current Wayland protocols and their
support status").
The text-input-unstable-v3 protocol works well with Input
methods for Wayland (see "Wayland input method project
post-mortem").
Most GUI applications are built with GUI libraries such as GTK or Qt which
support this text-input-unstable-v3.
Popular Input Method Engines (IME), such as IBus
or Fcitx (version 5), can work with
this text-input-unstable-v3.
IMEs support text input for many languages with plugins.
Recent IMEs integrate X Keyboard
Extension (XKB) functionalities such as setxkbmap
previously provided by the X Window to support accented character text input
for European languages for Wayland.
For GNOME, "ibus" is the default IME which is
automatically installed via its package dependency.
Most multilingualized keyboard input features can be configured from "GNOME Settings" or "GNOME Tweaks".
Some multilingualized keyboard input features may need to be configured from
the ibus-setup(1) command.
The emoji keyboard input is available by typing SUPER-. (period) followed by a keyword for each emoji and SPACE-keys.
The list of IBus and its plugin packages are the following.
Tabla 8.1. List of IBus and its plugin packages
| paquete | popularidad | tamaño | soporte de la configuración regional |
|---|---|---|---|
| ibus | V:213, I:253 | 1828 | infraestructura de método de entrada utilizando dbus |
| ibus-mozc | V:2.1, I:3.8 | 978 | Japonés |
| ibus-anthy | V:0.5, I:1.2 | 8958 | Japonés |
| ibus-skk | V:0.04, I:0.15 | 242 | Japonés |
| ibus-kkc | V:0.03, I:0.19 | 211 | Japonés |
| ibus-libpinyin | V:1.2, I:5.1 | 2767 | Chino (para zh_CN) |
| ibus-chewing | V:0.18, I:0.90 | 288 | Chinese (for zh_TW) |
| ibus-libzhuyin | V:0.00, I:0.11 | 41009 | Chinese (for zh_TW) |
| ibus-rime | V:0.27, I:0.49 | 78 | Chinese (for zh_CN/zh_TW) |
| ibus-cangjie | V:0.02, I:0.12 | 235 | Chinese (for zh_HK) |
| ibus-hangul | V:0.3, I:2.0 | 264 | Coreano |
| ibus-libthai | V:0.00, I:0.05 | 84 | Tailandés |
| ibus-table-thai | I:0.05 | 59 | Tailandés |
| ibus-unikey | V:0.20, I:0.42 | 286 | vietnamita |
| keyman | I:0.10 | 507 | Multilingual: Keyman plugin for over 2000 languages |
| ibus-table | V:0.08, I:0.99 | 2271 | table plugin for IBus |
| ibus-m17n | V:0.3, I:2.0 | 373 | Multilenguaje: Indo, Árabe y otros |
The Fcitx (version 5) input method framework is
popular with Chinese users and compatible with "ibus".
The list of "fcitx5" and its plugin packages are the
following.
Tabla 8.2. List of Fcitx5 and its plugin packages
| paquete | popularidad | tamaño | soporte de la configuración regional |
|---|---|---|---|
| fcitx5 | V:7, I:12 | 761 | input method framework compatible with "ibus" |
| fcitx5-mozc | V:1.0, I:1.6 | 1260 | Japonés |
| fcitx5-anthy | V:0.06, I:0.20 | 808 | Japonés |
| fcitx5-skk | V:0.05, I:0.14 | 369 | Japonés |
| fcitx5-kkc | V:0.00, I:0.06 | 416 | Japonés |
| fcitx5-chinese-addons | I:9.0 | 17 | Chinese (metapackage for zh_*) |
| fcitx5-pinyin | V:3.8, I:9.4 | 1044 | Chino (para zh_CN) |
| fcitx5-chewing | V:0.2, I:1.0 | 217 | Chinese (for zh_TW) |
| fcitx5-zhuyin | I:0.06 | 41051 | Chinese (for zh_TW) |
| fcitx5-rime | V:0.44, I:0.84 | 371 | Chinese (for zh_CN/zh_TW) |
| fcitx5-table-cangjie-large | I:0.12 | 1292 | Chinese (for zh_HK) |
| fcitx5-hangul | V:0.09, I:0.23 | 235 | Coreano |
| fcitx5-libthai | I:0.05 | 119 | Tailandés |
| fcitx5-table-thai | I:0.08 | 34 | Tailandés |
| fcitx5-unikey | V:0.08, I:0.20 | 588 | vietnamita |
| fcitx5-m17n | V:0.12, I:0.51 | 259 | Multilenguaje: Indo, Árabe y otros |
| fcitx5-table | V:0.4, I:9.2 | 520 | table plugin for fcitx5 |
| fcitx5-keyman | V:0.03, I:0.04 | 235 | Multilingual: Keyman plugin for over 2000 languages |
Encuentro que es muy útil el método de entrada en japonés iniciado en el
entorno en inglés ("en_US.UTF-8"). Así es como hice esto
con IBus para GNOME en Wayland:
Install the Japanese input tool package ibus-mozc (or
ibus-anthy).
Seleccioné «Configuración« → «Teclado« → «Método de entrada« → pulsé
«+» en «Métodos de entrada« → «Japonés« → "Mozc japonés
(o anthy)" y haga clic en "Agregar" si no se ha activado.
Puede elegir tantas fuentes de entrada como desee.
Volver a entrar con su cuenta de usuario.
Configure la fuente de entrada pulsado el botón derecho en el icono de la barra de herramientas del interfaz gráfico de usuario.
Cambie entre fuentes de entrada con el SUPER-ESPACIO (habitualmente la tecla de Windows).
|
Sugerencia |
|---|---|
|
Si desea tener acceso al entorno de teclado solo alfabético con el teclado
japonés físico en el que shift- |
For Wayland:
The im-config package does nothing and can be removed
safely.
You probably don't need to set environment variables except for the backward compatibility etc.
If you need to set environment variables, create a file such as
~/.config/environment.d/50-input-method.conf to set them.
For X Window:
Install the im-config package.
La entrada del menú del interfaz gráfico de usuario de
im-config(8) es "método de entrada".
Alternativamente, ejecute "im-config" desde el shell del
usuario.
im-config(8) se comporta de forma diferente si la orden
se ejecuta como superusuario o no.
im-config(8) activa el mejor método de entrada en el
sistema por defecto sin la intervención del usuario.
La consola de Linux solo puede mostrar un número limitado de caracteres.
(Necesita un programa de terminal especial como
ifbterm(1) para visualizar lenguajes no europeos en una
consola que no sea X).
El entorno GUI (Capítulo 7, Sistema GUI (interfaz gráfica de usuario)) puede mostrar cualquier carácter en UTF-8 siempre que las fuentes requeridas estén instaladas y habilitadas. (La codificación de los datos de la fuente original se cuida y es transparente para el usuario).
The Debian system can be configured to work with many international console
arrangements using the console-setup package.
# dpkg-reconfigure console-setup
For the Linux console and the X Window system, this updates configuration
parameters in "/etc/default/console-setup". This also
configures the Linux console font. Many non-ASCII characters including
accented characters used by many European languages can be made available
with dead key, AltGr
key, and compose key.
Existen diferentes componentes para configura la consola de caracteres y las
funcionalidades del sistema ncurses(3) system features.
El archivo «/etc/terminfo/*/*»
(terminfo(5))
La variable de entorno «$TERM»
(term(7))
setterm(1), stty(1),
tic(1) y toe(1)
Si la entrada terminfo de xterm no
funciona con una xterm que no es de Debian, cambie el
tipo de terminal cambiando «$TERM» de
«xterm» a una versión con funcionalidades limitadas como
«xterm-r6» al autenticarse en el sistema Debian de forma
remota. Para mayor información ver
«/usr/share/doc/libncurses5/FAQ».
«dumb» es el mínimo común denominador para
«$TERM».
Under the East Asian locale, the box drawing, Greek, and Cyrillic characters may be displayed wider than your desired width to cause the unaligned terminal output (see Unicode Standard Annex #11, 4.2 Ambiguous Characters).
Puede solucionar este problema:
gnome-terminal: Preferencias → Archivos de configuración
→ Nombre de configuración → Compatibilidad → Caracteres
con ancho ambiguo → Estrecho
ncurses: asigne en el entorno export
NCURSES_NO_UTF8_ACS=0.