projects:weblorean printable version

Weblorean

:!: Since some modifications from Google for the user authentification for accessing the Google History application, the project is no longer working. (I've found a way to update my code, but I've no time for working on it, if you are interested by the project don't hesitate to send to me an email at nicolas.james@gmail.com).

The goal of the Weblorean project is to find a way to retrieve your Google (and only Google for the moment) WEB history.
This application is the first step to build an APML (Attention Profiling Markup Langage) file using the user WEB history.

The project is available on my SVN: http://svn.trevize.net/Weblorean (authentifation required).
An executable jar or a jnlp are also available.

Notes

  • LDA pour le clustering sémantique.
  • pour la construction de la carte de profil, utilisé dmoz/odp (peut être utiliser un dump de DMoz http://rdf.dmoz.org/), utiliser Dmoz pour catégoriser les recherches utilisateurs…
  • pourrait servir pour faire de l'expansion de requête côté client (l'historique ne se trouve pas sur le web, c'est plus rassurant).
  • Topic-map et TAO ?
  • Partir de la définition du contexte de Dey, A.K. (carnegie mellon), “toute information qui peut être utilisée pour caractériser la situation d'une entité. Une entité est une personne, un endroit ou un objet considéré(s) comme pertinent(s) lors d'une interaction entre l'utilisateur et les applications elles-mêmes”, sachant que ces informations sont susceptibles de changer dans le temps.
    Gestion du contexte: (1) langage de description des éléments du contexte utilisateur, (2) outil de collection de ces données, compréhension, analyse.

Extraction d'information sur les sites et pages visitées

  • Pour chaque recherche google dans l'historique: garder la query.
  • Pour chaque clic result dans l'historique: garder l'URL, retrouver le hostname (le site).
  • Se connecter sur l'URL pour obtenir <title> et <meta name=“keyword”> ??? pas scalable pour l'historique en entier.
    • écrire un critère discriminant les URL intéressantes de celles qui ne le sont pas. Pour celles qui sont intéressantes, se connecter sur l'URL et récupérer <title> et <meta name=“keyword”>.
    • utiliser openCalais pour extraire des termes/concepts pertinents sur la page web.
    • utiliser webarchive pour récupérer la page consultée à la date de la consultation. Une idée pour ce critère pourrait être: faire une liste des URL de page visitées par sites (i.e. par hostname), et voir si on ne peut pas faire quelque chose comme ne télécharger qu'une page, grouper les URL en une seule etc.
    • ne garder que l'URL, et la parser pour obtenir de l'information dessus, en espérant qu'on peut trouver de l'info dans l'URL.
  • utiliser DMOZ pour obtenir de l'information sur le site (le hostname).

Bibliographie

Related projects

 
projects/weblorean.txt · Last modified: 2011/01/26 10:31 by njames

 © Nicolas James 2009-2011

 Valid XHTML 1.0 Transitional Valid CSS! DokuWiki