20 Dec 2010

Dos nuevas herramientas de Google para analizar textos

2 Comments Herramientas, Noticias


Los laboratorios de Google nunca descansan. Para aprovechar la fabulosa colección de textos escaneados que posee, Google ha puesto a disposición del público dos herramientas de análisis de textos.

Google Books Ngram Viewer

La primera, Google Books Ngram Viewer, realiza conteos de apariciones de secuencias de palabras. Es decir, permite averiguar cuántas veces se repite una determinada palabra o secuencia de palabras entre todos los textos escaneados por Google, a lo largo de un intervalo de años. Y no sólo en inglés: también en español, chino, francés, etc.

Por ejemplo, las palabras “guerra” y “paz” tienen la siguiente distribución a lo largo de la literatura inglesa:

Distribución de guerra y paz

Y esta el la distribución de las palabras “imperio” y “país” en la literatura española:

Distribución de imperio y país

Distribución de imperio y país

Curioso, ¿verdad?

A esta investigación de la evolución histórica en el uso de las palabras se la comienza a conocer como “culturonomía“. El vocablo es de tan reciente acuño que no está todavía registrado en la Wikipedia. Ni tampoco muestra entradas en el propio Ngram Viewer, que sólo contiene información hasta 2009.

Google afirma que continuará incrementando la base de datos según prosigan sus esfuerzos digitalizadores.

La página donde aparecen los resultados también incluye enlaces directos para “twittear” o “buzzear” los gráficos, de forma que los resultados curiosos comiencen a propagarse por las redes sociales. No hay, sin embargo, enlace a Facebook

Google no sólo nos proporciona la herramienta. También pone a disposición del público los conjuntos de palabras para poder realizar los experimentos “en casa”, si se tienen conocimientos informáticos para ello.

Nivel de lectura

La segunda herramienta es, en realidad, una opción avanzada del clásico buscador.

Google ha empleado a profesores para clasificar diferentes textos según su complejidad o nivel, dividiéndolos en tres: básico, intermedio y avanzado. Con dicha clasificación, han construido un modelo estadístico. Además de otras fuentes, Google emplea las palabras de este modelo para compararlas con las palabras en una web dada, y así clasificar la “complejidad” de dicha web.

Opciones avanzadas para selección de nivel de lectura

Opciones avanzadas para selección de nivel de lectura

¿Cuál es la utilidad? Filtrado de resultados, por supuesto. Si estamos buscando un análisis técnico de una materia oscura, posiblemente prefiramos obtener sólo los resultados (webs) con un nivel “avanzado”. Si queremos textos para introducir a nuestros hijos en la lectura, filtraremos únicamente los resultados básicos.

Una curiosidad

Mientras realizaba las pruebas para esta entrada, Google Ngram Viewer ha tenido problemas y mostraba este gráfico en lugar de los resultados:

Whale Fail

Fallo de Google Ngram Viewer (Whale Fail)

Hasta cuando falla, Google guarda algo bajo la manga.


Comparte esta entrada:
  • Facebook
  • Twitter
  • StumbleUpon
  • Digg
  • del.icio.us
  • Meneame
  • Google Buzz
  • Bitacoras.com
  • email
Tags: , , , , , , , , , , , , , , , ,
written by
The author didn‘t add any Information to his profile yet.
Related Posts

2 Comentarios a “Dos nuevas herramientas de Google para analizar textos”

  1. Reply José Manuel says:

    Es una pasada, ayer vi una comparativa del uso de las palabras telex, fax y email y seguían unas distribuciones muy parecidas en el tiempo. Curiosamente el termino email ya ha alcanzado su tope (quizás twitter, facebook y otros sistemas le estén quitando protagonismo)

  2. Reply admin says:

    El siguiente paso es que permitan la misma búsqueda, pero en los históricos de páginas web. Así se podrá ver qué efectos y repercusiones tiene en internet cualquier evento, cómo evoluciona y se diluye en el tiempo, etc.
    Pero la base de datos es descomunal…

Deja un comentario