Bonjour,
Voilà, j'ai un problème de conception assez important et je souhaiterais l'avis et les idées d'autres personnes. Je suis en train de travailler sur un projet de GED(Gestion Electronique des Documents). Le projet est le suivant:
- On souhaite rechercher en full-text des mots à la facon de google dans des PDF.
Je sais que lire directement des PDF n'est pas évident. Par conséquent, je sais qu'on peut les extraire en txt. Le problème est que je risque d'avoir de la redondance d'information inutile par le fait d'avoir une fois le pdf et une fois le txt. J'ai aussi imaginer faire de l'indexation full-text dans la base mysql, mais là aussi on a redondance de l'informaiton entre le fichier PDF et le contenu de la base qui contiendra les texte du PDF.
Je suis obligé de conservé les PDF car leur mise en page est relativement importante et doit être conservée.
L'idée serait d'avoir les pdf dans un répertoire et créer une base de données créant une sorte de dictionnaire de référencement/indexation des PDF lié à la position du PDF concerné
Il s'agit aussi d'éviter d'utiliser les métatag PDF trop restrictif et la transformation en fichier TXT. Je sais aussi que google est capable de le faire. Le tout est de savoir comment......(chose que je ne comprend pas)
Je sais que ce projet n'est pas évident mais la moindre piste est intéressante, car il s'agit d'une demande que je trouve sur beaucoup de forum.
J'attend vos idées avec impatience
Merci d'avance
Skmancuso