Since some modifications from Google for the user authentification for accessing the Google History application, the project is no longer working. (I've found a way to update my code, but I've no time for working on it, if you are interested by the project don't hesitate to send to me an email at nicolas.james@gmail.com).
The goal of the Weblorean project is to find a way to retrieve your Google (and only Google for the moment) WEB history.
This application is the first step to build an APML (Attention Profiling Markup Langage) file using the user WEB history.
The project is available on my SVN: http://svn.trevize.net/Weblorean (authentifation required).
An executable jar or a jnlp are also available.
LDA pour le clustering sémantique.
pour la construction de la carte de profil, utilisé dmoz/odp (peut être utiliser un dump de DMoz
http://rdf.dmoz.org/), utiliser Dmoz pour catégoriser les recherches utilisateurs…
pourrait servir pour faire de l'expansion de requête côté client (l'historique ne se trouve pas sur le web, c'est plus rassurant).
Topic-map et TAO ?
Partir de la définition du contexte de Dey, A.K. (carnegie mellon), “toute information qui peut être utilisée pour caractériser la situation d'une entité. Une entité est une personne, un endroit ou un objet considéré(s) comme pertinent(s) lors d'une interaction entre l'utilisateur et les applications elles-mêmes”, sachant que ces informations sont susceptibles de changer dans le temps.
Gestion du contexte: (1) langage de description des éléments du contexte utilisateur, (2) outil de collection de ces données, compréhension, analyse.
Pour chaque clic result dans l'historique: garder l'
URL, retrouver le hostname (le site).