Raw Data_proust now !

Posted 01 avr 2010 — by Léo Gourven
Category Uncategorized

Les semaines passées, je me suis cassé la tête pour essayer de trouver un outil qui me permette de passer du texte brut à une sorte de base de données. Je viens enfin de trouver chaussure à mon pied !

Explications : Pour pouvoir faire des statistiques, il faut des variables.  Elles décrivent des caractéristiques : des lieux, des personnages, un numéro de Tome ou tout ce que l’on souhaite. Dans mon cas, je dois déterminer et extraire des caractéristiques intéressantes du texte.

datas

Exemple simplifié sur le cas d’un découpage par phrase

Ce genre de chose, ça s’appelle le traitement automatique des langues (TAL). En gros ça veut dire, que des chercheurs développe des algorithmes pour extraire automatiquement des données d’un corpus. Parfait. Manque de chance, ces gens qui ont oublié d’être cons, ont aussi oublié ce qu’était une interface graphique. Ce qui me compliquait légèrement la tache (faut de la force pour se plonger là dedans). MAIS, j’ai fini par trouver la petit perle.

marcelcon

Pendant ce temps, Marcel joue au con lui.

GATE est un logiciel open source qui regroupe les codes des chercheurs cités plus haut, mais avec une interface graphique (y’a même des screencasts, que demande le peuple). C’est un peu complexe, mais accessible. J’ai donc rentré mon petit texte et exécuté mes traitements. MAIS QUE FUT DONC MA SUPRISE, en découvrant le nombre de données que m’a sorti Gate en permettant de séparer : Les mots, les phrases, les paragraphes, les lieux, les métiers, les personnages, les sommes d’argents et d’autres choses encore.

Je ne pensais pas que l’on pouvait aller aussi loin dans l’analyse et mon projet gagne encore en grandeur (comprenez en travail !). Je vais donc continuer à tripatouiller Gate et essayer d’avoir un beau XML qui décrive des caractéristiques intéressantes à analyser.

Prochaines étapes :

  • Diffuser les XML  !
  • Je rencontre deux amis graphistes pour discuter ergonomie ce week end.
  • Ouvrir un serveur de développement et un Github.
  • Et par là, proposer aux personnes que ça motive de m’aider dans le développement !

Hello Marcel !

Posted 15 mar 2010 — by Léo Gourven
Category Général

Je travaille depuis un petit mois sur un drôle de projet. Je me remettais doucement de la lecture de A La Recherche Du Temps Perdu de Marcel Proust et parallèlement, je travaillais dans le cadre de mes études autour d’un projet lié aux visualisation graphiques. Alors je me suis dit (innocemment)  : Pourquoi le petit Marcel n’aurait pas droit à sa data visualization ?

Et au fur et à mesure je me suis rendu compte que l’œuvre de Proust justifiait tout particulièrement cette approche scientifique barbare :

  • Le roman est immense ! 1,5 millions de mots !
  • C’est un roman fleuve, il va l’enfance à la mort.
  • L’écriture de Marcel Proust est quasi scientifique. Il suit une sorte de recette, on avance par étape.
  • Tout le monde connait Proust ! (Et personne ne l’a lu). Et tout le monde se demande depuis ses 4 ans si ses phrases sont si longues que ce l’on raconte ?
  • Libre de droit et numérisé.

marcelDes statistiques hum hum, intéressant.

J’ai (re)découvert que dans les années 80 (quand je n’étais même pas né quoi), un certain Brunet Étienne avait déjà travailler sur le sujet, mais en se concentrant sur l’aspect statistique (Les occurrences les plus répétés, nombre de mots, de phrases etc). Ce n’est pas énorme (ça l’était pour l’époque), mais c’est déjà extrêmement intéressant.

Dans mon cas,  une des premières chose à faire, c’est transformer l’information en donnée  structurée (J’avais l’habitude de faire le contraire mais bon. ). C’est à dire mettre la Recherche dans une base de données, séparer chaque phrase, l’identifier et – dans un second temps- l’enrichir  (De quelle tome vient elle ? Où se déroule l’action de cette phrase ? Que temps est utilisé ?).

A partir de là je pourrai opérer quelques traitements statistiques, à priori je débuterai par une étude du nombre de mot par phrase. Mais l’intérêt de cet outil prendra tout son sens une fois que l’on pourra superposer le nombre de mots par phrase avec les lieux, les éléments clés de l’action etc (Ce qui permettra de répondre à des questions du type : De quelle manière évolue la longueur des phrases en fonction face à la mort de sa grand mère ?).

Mais pour cela il faut que je trouve un outil d’analyse linguistique qui puisse me séparer mes phrases (Pas si simple qu’il n’y parait). Si quelqu’un maitrisant ce domaine arrive sur ce blog, j’ai besoin d’aide ! Envoyez moi un mail !

En bref, je vous raconterai sur ce blog comment mon projet avance,je causerai technique, je diffuserai mon code, je vous appellerai à l’aide mais je ne vous dirai pas que je suis fatigué !