viernes, 28 de noviembre de 2008
En entradas anteriores de esta serie [inglés], hablamos de los desafíos que conlleva crear un motor de búsqueda a nivel internacional. Nuestro objetivo es hacer que la búsqueda de Google sea relevante para todas las personas, sin importar su idioma o su país. Como mi compañero Amit Singhal dijo [inglés], usamos datos estadísticos como base para hacer cambios algorítmicos generales. Muchos de estos cambios se pueden llevar a cabo en todos los idiomas a los que damos soporte, pero en algunos casos las características específicas de algunos de esos idiomas requieren de ajustes y consideraciones algorítmicas. Y para hacer las cosas aún más interesantes, también se dan casos en los que la misma lengua cambia según el país. Ejemplos claros son "color" en los EE.UU. y "colour" en el Reino Unido, o "carro" en Latino América y "coche" en España.
Soy Daphne Dembo y mi objetivo es mejorar la búsqueda internacional de Google. Es un gran desafío, ya que la búsqueda de Google se utiliza en muchos países con diferentes lenguas, que nuestros ingenieros conocen poco. Inicialmente, las mejoras en búsqueda internacional las realizaban los ingenieros de Calidad de búsqueda, apasionados por sus idiomas y sus países: Lina, de Suecia, mejoró nuestro análisis de palabras compuestas en alemán y sueco; Dimitra, de Grecia, creó el soporte para las marcas diacríticas; Ishai, de Israel, trabajó en correcciones de transliteración del hebreo y el árabe; Trystan, de Australia, creó métodos para identificar resultados de búsqueda locales y clasificarlos junto con resultados extranjeros; Alex, bilingüe en ruso y ucraniano, creó la comprensión morfológica para estas lenguas. Como aumentó la importancia de la búsqueda internacional, tuvimos que pedir ayuda a todas nuestras oficinas. Por último, disponemos de una red internacional de especialistas en búsqueda que nos ayudan a comprender la búsqueda dentro de la combinación única que forman idioma y país.
El primer paso para poder ofrecer búsquedas en un idioma concreto es educar a nuestro modelo de lenguaje con una amplia colección de documentos en ese idioma. Esto asegura que nuestro modelo de idioma sea el más amplio y preciso. Por ejemplo, incorpora los nombres, modismos, usos coloquiales y palabras recién acuñadas pero que se usan con frecuencia y que no se encuentran en los diccionarios tradicionales. Recientemente hemos iniciado la identificación de swahili, y para ello se utilizan páginas como la del Parlamento de Tanzania para enseñar a nuestro sistema los matices del idioma. Tener un modelo de lenguaje ayuda a clasificar los documentos durante el rastreo y la indexación de la web, así como a analizar las consultas de los usuarios. Una vez que se completa esta fase, se pone en marcha la búsqueda en swahili para países como Tanzania y Kenia, permitiendo así búsquedas locales como "bolsa de valores Dar es Salaam" [Soko la HISA Dar es Salaam ], o "cura para la malaria" [TIBA ya malaria]. (Como siempre, utilizamos los corchetes para indicar una consulta de búsqueda. Por ejemplo, para buscar "fútbol" en Hamburgo (Alemania), haz clic en [fußball in hamburg]).
Aprendemos cosas de nuestros usuarios, de manera que cuando la gente empieza a usar nuestro motor de búsqueda, podemos mejorar en ese idioma. Aquí tienes algunos ejemplos:
- Correcciones ortográficas: Hace poco que hemos puesto en marcha las correcciones ortográficas para estonio. Si tu estonio está oxidado y no te acuerdas de cómo se escribe "detector de humo", nosotros podemos sugerirte la corrección ortográfica para [suitsuantur], que lleva a mejorar los resultados de búsqueda.
- Marcas diacríticas: Muchas lenguas tienen signos diacríticos, que alteran la pronunciación. Nuestros algoritmos están construidos para darles soporte, e incluso ayudar a los usuarios que cometan errores, aunque también pueden ignorarlos por completo. Por ejemplo, si vives en Quebec (Canadá) y quieres saber la previsión meteorológica para Quebec, te ofreceremos buenos resultados tanto si escribes con acentos [Météo Quebec] o sin ellos [meteo Quebec]. Los usuarios checos pueden obtener los mismos resultados para una popular serie de dibujos animados para niños tanto si buscan [krtecek] como [krteček]. Sin embargo, a veces las marcas diacríticas cambian el significado de una palabra y entonces deben utilizarse correctamente. Por ejemplo, en tailandés, [ข้าว] es "arroz", con resultados totalmente diferentes para [ข่าว], que son "noticias". O en Eslovaquia, los resultados para "niño" [dieťa] son diferentes a los resultados para "dieta" [diéta].
- Sinónimos: Un caso general de soporte a marcas diacríticas es la manipulación de sinónimos en distintos idiomas. Determinadas búsquedas en Corea pusieron de manifiesto que "Samsung" puede ser un sinónimo de "삼성", de manera que cuando los usuarios buscaban [samsung], encontraban resultados con el nombre de la compañía escrito en coreano.
- Compuestos: Algunos idiomas permiten la composición, es decir, la formación de nuevas palabras a partir de la combinación de dos palabras juntas. Un buen ejemplo puede ser cuando en sueco obtenemos resultados sobre tarjetas de crédito tanto para las consultas [Visakort] como [visa kort].
- Derivados: Google ha desarrollado modelos morfológicos que pueden recibir palabras compuestas como consultas, y ofrecer como resultados páginas que contienen un derivado de éstas, posiblemente como parte de un compuesto diferente. Por ejemplo, cuando buscas coches en Arabia Saudita, puedes buscar [سيارة] o [سيارات], ya que ambas son variantes de la misma raíz y se obtienen resultados comunes para ambas. Un usuario polaco puede buscar "película" [film] y obtener resultados que contienen otras variantes de la raíz, tales como "filmów", "filmu", "filmie", "Filmy". Un usuario de Bielorrusia obtendrá resultados para todas las formas de la palabra "capital", Minsk [Мінск]: "Мінску", "Мінска", "Мінскага".
Además de estos factores semánticos, Google también analiza los documentos y las consultas. Entender los detalles de cómo se usa un idioma dentro de un país es importante. La anotación de acrónimos se realiza de forma diferente en cada idioma: En hebreo se utilizan comillas dobles antes del último carácter (que está a la izquierda), como en "primer ministro" [רה"מ]. En tailandés, se usa un punto al final de la palabra, como en "estación de policía" [สน.]. Mientras que en los EE.UU. se usan puntos después de cada carácter, como sucede con [I.B.M.]. Los usuarios chinos se refieren a las obras de arte con "《", como por ejemplo en [《手机》剧情] y designan fechas con un "日", como por ejemplo [2006年1月13日].
Más allá de los elementos lingüísticos de una lengua, tenemos en cuenta cómo se realizan las consultas hechas por los usuarios. Por ejemplo, algunas lenguas no latinas requieren teclados con teclas alfanuméricas dobles. El usuario puede cambiar los idiomas marcando una combinación de teclas. Si el usuario olvida marcar dicha combinación de teclas, las consultas realizadas no tienen sentido. Te damos un ejemplo de una correcta manipulación de estos errores en árabe: [hgsuv] corregido como [السعر] y [حقثسهيثىفهشم ثممثؤفهخىس] corregido como [presidential elections ]. O en hebreo: [vdrk, kuyu] corregido como [הגרלת לוטו]. O en cirílico: [rehc ljkffhf] corregido como [курс доллара].
Otra forma de evitar las molestias de tener que marcar una combinación de teclas para cambiar el idioma es utilizar la transcripción fonética en caracteres latinos de la consulta. Reproducir la búsqueda correcta en la lengua de destino no es fácil, ya que existen muchas posibilidades distintas. Aquí tienes varios ejemplos de este tipo: En ruso ([biskvitnyi rulet] pasa a ser [бисквитный рулет]). En chino, "películas" ([dianying] pasa a ser [电影]). Y en griego, para "Banco de Attica", [trapeza attikhs] ofrece buenos resultados para "Τράπεζα Αττικής". Los usuarios de 8 idiomas indios (como hindi, gujarati o telugu) pueden escribir el sonido fonético de la consulta y elegir las palabras en hindi:
El lenguaje utilizado también influye en la facilidad para escribir y leer. Puesto que cada palabra en chino requiere de varias combinaciones de teclas en un teclado estándar, nosotros ofrecemos la navegación por categorías para imágenes y las búsquedas relacionadas, para que la gente no necesite escribir tanto. Ahora también hemos lanzado Google Suggest, o finalización de consultas en tiempo real [inglés], en muchos idiomas.
Hasta ahora he descrito cómo mejoramos la calidad de búsqueda en un idioma. No obstante, influye mucho la ubicación del usuario, incluso si se trata sólo de aproximación al país, ya que en muchos casos el contenido local es más relevante que la información mundial. Por ejemplo, la búsqueda de las Páginas Amarillas en Español [Páginas Amarillas] se traducirá en varios documentos de interés global y varios resultados locales para Perú, México y España. De manera parecida, la búsqueda de [Côte d'Or] en Francia devolverá resultados para esa región del país, mientras que las búsquedas en Bélgica devolverán resultados sobre el fabricante de chocolate.
Hay que tener en cuenta que la visualización de información debe ajustarse a los estándares de cada país, por eso mostramos la marca decimal "," para los usuarios croatas que quieren saber cúantos milímetros hay en una pulgada [inč u milimetrima], o para los usuarios italianos interesados en los tipos de cambio de divisas [50 euro in dollari]. Del mismo modo, las temperaturas en Noruega [Været i Oslo] se mostrarán en grados Celsius, mientras que en los EE.UU. se hará en grados Fahrenheit [weather Boston].
Si todo lo demás falla, también proporcionamos traducciones basadas en la tecnología de traducción de Google, que ya se ha comentado en una entrada de este blog [inglés]. Traduciremos tu consulta al inglés, buscaremos documentos en inglés en la web y traduciremos los resultados del inglés al idioma original de consulta. Por ejemplo, los usuarios japoneses interesados en ilustraciones sobre Halloween (Halloween es una fiesta que se originó en Irlanda) pueden buscar [ハロウィン イラスト]. A continuación, puedes solicitar una traducción al japonés de las páginas en inglés (en la parte inferior de la página), que te traerá la traducción de la página, como en la captura de pantalla a continuación. Del mismo modo, los usuarios coreanos pueden buscar lo último de Harry Potter [해리 포터], y los lectores árabes pueden buscar la apertura de la Ópera de Sydney [افتتاح دار الاوبرا في سيدني] (Haz clic en la imagen para ver una versión ampliada).
En total, Google Search se está desarrollando actualmente en más de 100 idiomas, para más de 150 países, con docenas de mejoras puestas en marcha cada mes. Hasta ahora he hablado del funcionamiento básico de la búsqueda internacional, pero esto es tan sólo la superficie de todo el trabajo internacional que llevamos a cabo. Hay muchos otros temas de interés con impacto en los mercados internacionales, como la usabilidad,las páginas de inicio, el diseño de la página de resultados y la conectividad. La comprensión de los factores humanos y culturales es esencial para la creación de un motor de búsqueda relevante para las personas que lo utilizan (Haz clic en la imagen para ver una versión ampliada).