Connaissez-vous la culturomique?

Connaissez-vous la culturomique?

La société Google a entrepris de numériser des millions de livres et de revues. Aujourd’hui plus de 15 millions d’ouvrages ont été scannés sur les 120 millions de livres existants. Ils ont ensuite passé à l’OCR (reconnaissance optique de caractère). Après un filtrage sur 5 millions de livres, Google a pu récupérer l’ensemble de ses écrits et faire des statistiques sur l’usage et la fréquence des mots et des phrases au fil du temps. On peut à partir de cette base tirer des conclusions assez surprenantes sur la culture humaine. C’est ce que les ingénieurs de google appellent la cultoromics.



We introduce culturomics: the application of high-throughput data collection and analysis to the study of human culture.

Google a sorti un outil disponible au public, justement pour que chacun puisse faire des recherches. Cet outil s’appelle ngrams. Outil avec lequel j’ai joué quelques temps pour voir un peu ce que cela  donne.

Exemple: le prétérit du verbe thrive au fil du temps a évolué de throve à thrived.

cliquer sur l'image pour agrandir

Voilà la fréquence des chiffres 1940,1950,1960,1970, où on se doute qu’on a parlé de ces dates à des moments précis de l’histoire. Cela dit pour cette statistique, pas besoin de faire des grandes études pour comprendre.

cliquer pour agrandir

On dit aujourd’hui que la fin du monde approche, mais dans les livres, la fréquence de la phrase « end of the world » diminue. Comme il s’agit d’un pourcentage, ce graphe est faux car,  on écrit aujourd’hui bien plus de livres qu’il y a 100 ans.

End of the world

End of the world

On  peut également faire de la politique et percevoir qu’en français on est plus socialiste que capitaliste en anglais, en revanche on est plutôt capitaliste!

capitalisme et socialisme en anglais des USA

Capitalisme et Socialisme en français

Si on hésite entre deux prénoms on peut faire une comparaison dans le temps entre plusieurs prénoms, exemple Charlotte et Caroline.

Charlotte et Caroline

Analyser les type de média et voir si certains sont en déclin ou non: encore une autre manière d’interpréter les mots.

Télévision, radio, internet, journaux

Les champs de recherche sont immenses et pour illustrer ce que je viens de dire, je vous invite à visionner cette conférence qui a inspiré l’écriture de ce billet





Delicious Bookmarquer sur Delicious

Comments are closed.

Share This

Share This

Share this post with your friends!