Dec
20
2010

Dos nuevas herramientas de Google para analizar textos



Los laboratorios de Google nunca descansan. Para aprovechar la fabulosa colección de textos escaneados que posee, Google ha puesto a disposición del público dos herramientas de análisis de textos.

Google Books Ngram Viewer

La primera, Google Books Ngram Viewer, realiza conteos de apariciones de secuencias de palabras. Es decir, permite averiguar cuántas veces se repite una determinada palabra o secuencia de palabras entre todos los textos escaneados por Google, a lo largo de un intervalo de años. Y no sólo en inglés: también en español, chino, francés, etc.

Por ejemplo, las palabras “guerra” y “paz” tienen la siguiente distribución a lo largo de la literatura inglesa:

Distribución de guerra y paz

Y esta el la distribución de las palabras “imperio” y “país” en la literatura española:

Distribución de imperio y país

Distribución de imperio y país

Curioso, ¿verdad?

A esta investigación de la evolución histórica en el uso de las palabras se la comienza a conocer como “culturonomía“. El vocablo es de tan reciente acuño que no está todavía registrado en la Wikipedia. Ni tampoco muestra entradas en el propio Ngram Viewer, que sólo contiene información hasta 2009.

Google afirma que continuará incrementando la base de datos según prosigan sus esfuerzos digitalizadores.

La página donde aparecen los resultados también incluye enlaces directos para “twittear” o “buzzear” los gráficos, de forma que los resultados curiosos comiencen a propagarse por las redes sociales. No hay, sin embargo, enlace a Facebook

Google no sólo nos proporciona la herramienta. También pone a disposición del público los conjuntos de palabras para poder realizar los experimentos “en casa”, si se tienen conocimientos informáticos para ello.

Nivel de lectura

La segunda herramienta es, en realidad, una opción avanzada del clásico buscador.

Google ha empleado a profesores para clasificar diferentes textos según su complejidad o nivel, dividiéndolos en tres: básico, intermedio y avanzado. Con dicha clasificación, han construido un modelo estadístico. Además de otras fuentes, Google emplea las palabras de este modelo para compararlas con las palabras en una web dada, y así clasificar la “complejidad” de dicha web.

Opciones avanzadas para selección de nivel de lectura

Opciones avanzadas para selección de nivel de lectura

¿Cuál es la utilidad? Filtrado de resultados, por supuesto. Si estamos buscando un análisis técnico de una materia oscura, posiblemente prefiramos obtener sólo los resultados (webs) con un nivel “avanzado”. Si queremos textos para introducir a nuestros hijos en la lectura, filtraremos únicamente los resultados básicos.

Una curiosidad

Mientras realizaba las pruebas para esta entrada, Google Ngram Viewer ha tenido problemas y mostraba este gráfico en lugar de los resultados:

Whale Fail

Fallo de Google Ngram Viewer (Whale Fail)

Hasta cuando falla, Google guarda algo bajo la manga.


Comparte esta entrada:
  • Facebook
  • Twitter
  • StumbleUpon
  • Digg
  • del.icio.us
  • Meneame
  • Google Buzz
  • Bitacoras.com
  • email

No Comments

RSS feed para comentarios en esta entrada.

Lo sentimos, el formulario de comentarios esta cerrado en este momento.

Tema: TheBuckmaker.com WordPress Webdesign | Imagen de fondo: Brenda Starr bajo licencia Creative Commons