December 11th, 2009 @ 5:18pm | njames | Categories Java | No Comments »
Depuis quelques jours, je m'intéresse à de la génération automatique d'une hiérarchie de topics en utilisant Flickr. Pourquoi Flickr ? pour ses données textuelles (le tagging social des images par les utilisateurs du website) et ses données images. J'intègre tout cela à mon modèle de donnée pour construire des collections d'image, et j'explore ces collections avec des outils que j'ai développé il y a quelques mois, je voudrais pouvoir explorer facilement le dataset et gérer les documents (retrait d'image ou de tag).
C'est ainsi que comparativement à mes autres expérimentations, le modèle textuel associé à mes images contient:
  1. des documents faiblement taggés (weakly tagged).
  2. des informations textuelles qui ne sont pas forcément en anglais, ni basé sur un alphabet latin.
Jusqu'à présent mes images étaient annotées en anglais et avec l'objectif explicite de construire un jeu de donnée image pour la vision par ordinateur, on peut donc dire que ses images étaient annotées par des iconographes de l'ordinaire en le sens que les annotations sont pertinentes (i.e. fiable, c'est pour cela que je dis iconographe) et portent sur des objets de la vie de tous les jours (d'où iconographe de l'ordinaire).

Le sujet de ce billet est le second point, Java gère très bien l'UTF, mais il est évident que l'index des fonts disponibles pour les UI graphique est délégué à l'installeur de Java sur la machine, car on ne peut pas localiser les fonts de façon standard pour tous les OS pour lesquels Java est disponible.

Screenshot-Java - FlickrMiner-src-net-trevize-IIDFBrowser.java - Eclipse

Sur ma machine, j'installe toujours Java à la main, dans /opt, je trouve cela plus propre, je suis contre ce qui est fait pour java-6-openjdk par exemple (mettre les fichiers de configuration de Java dans /etc... pourquoi vouloir complètement intégrer Java à l'OS, je trouve que c'est particulièrement microsoftien comme façon de faire... ).
Le fichier ~jrehome/lib/fontconfig.properties qui renseigne Java sur les fonts disponibles sur le système n'est donc pas renseigné quand on installe Java à la main: dans le cas d'Ubuntu il suffit de piocher le fichier installé pour java-6-openjdk /etc/java-6-openjdk/fontconfig.properties et le copier dans ~jrehome/lib/fontconfig.properties.
Categories Java

Leave a Reply