Dos nuevas herramientas de Google para analizar textos
Los laboratorios de Google nunca descansan. Para aprovechar la fabulosa colección de textos escaneados que posee, Google ha puesto a disposición del público dos herramientas de análisis de textos.
Google Books Ngram Viewer
La primera, Google Books Ngram Viewer, realiza conteos de apariciones de secuencias de palabras. Es decir, permite averiguar cuántas veces se repite una determinada palabra o secuencia de palabras entre todos los textos escaneados por Google, a lo largo de un intervalo de años. Y no sólo en inglés: también en español, chino, francés, etc.
Por ejemplo, las palabras “guerra” y “paz” tienen la siguiente distribución a lo largo de la literatura inglesa:
Y esta el la distribución de las palabras “imperio” y “país” en la literatura española:
Curioso, ¿verdad?
A esta investigación de la evolución histórica en el uso de las palabras se la comienza a conocer como “culturonomía“. El vocablo es de tan reciente acuño que no está todavía registrado en la Wikipedia. Ni tampoco muestra entradas en el propio Ngram Viewer, que sólo contiene información hasta 2009.
Google afirma que continuará incrementando la base de datos según prosigan sus esfuerzos digitalizadores.
La página donde aparecen los resultados también incluye enlaces directos para “twittear” o “buzzear” los gráficos, de forma que los resultados curiosos comiencen a propagarse por las redes sociales. No hay, sin embargo, enlace a Facebook…
Google no sólo nos proporciona la herramienta. También pone a disposición del público los conjuntos de palabras para poder realizar los experimentos “en casa”, si se tienen conocimientos informáticos para ello.
Nivel de lectura
La segunda herramienta es, en realidad, una opción avanzada del clásico buscador.
Google ha empleado a profesores para clasificar diferentes textos según su complejidad o nivel, dividiéndolos en tres: básico, intermedio y avanzado. Con dicha clasificación, han construido un modelo estadístico. Además de otras fuentes, Google emplea las palabras de este modelo para compararlas con las palabras en una web dada, y así clasificar la “complejidad” de dicha web.
¿Cuál es la utilidad? Filtrado de resultados, por supuesto. Si estamos buscando un análisis técnico de una materia oscura, posiblemente prefiramos obtener sólo los resultados (webs) con un nivel “avanzado”. Si queremos textos para introducir a nuestros hijos en la lectura, filtraremos únicamente los resultados básicos.
Una curiosidad
Mientras realizaba las pruebas para esta entrada, Google Ngram Viewer ha tenido problemas y mostraba este gráfico en lugar de los resultados:
Hasta cuando falla, Google guarda algo bajo la manga.
Entradas relacionadas
No Comments
RSS feed para comentarios en esta entrada.
Lo sentimos, el formulario de comentarios esta cerrado en este momento.