L'idée derrière BibInn est de pouvoir faire ce genre de chose:
(ce pourrait être un plugin pour JabRef).
On pourrait utiliser des outils comme pdftotxt pour récupérer les articles sont formes textes, si c'est possible (pour la récupération des articles, utiliser Google Scholar, et chercher un pdf, et aussi Google avec une requête filetype:pdf).
Puis utiliser des algos de recherche sur de séquences directement dans le texte.
De plus, si c'est un pdf je peux utiliser des outils comme pdf2txt, et repérer des structures comme “Reference”, mais les styles ne sont pas tous identiques, cela va m'embêter, par exemple les indices de notation [1] ne sont pas toujours utilisés.
A noter que c'est exactement ce que fait l'ACM (et surement aussi Google Scholar), qui utilise de l'OCR, par exemple on peut voir sur certaines pages d'article ACM:
REFERENCES
Note: OCR errors may be found in this Reference List extracted from the full text article. ACM has opted to expose the complete List rather than only correct and linked references.
utiliser un graphlayout, comme celui généré par processing dans: http://hublog.hubmed.org/archives/001002.html
Il pourrait être intéressant d'utiliser des SOM.