begin process at 2012 05 31 16:39:34
  Trouver un code source :
 
dans
 
Accueil > Forum > 

PHP

 > 

Divers

 > 

Général

 > 

recheche full-text de PDF


Derniers messages déposésPoser une question dans le forum ou lancer une discussion

recheche full-text de PDF

jeudi 11 janvier 2007 à 12:02:36 | recheche full-text de PDF

skmancuso

Bonjour,

Voilà, j'ai un problème de conception assez important et je souhaiterais l'avis et les idées d'autres personnes. Je suis en train de travailler sur un projet de GED(Gestion Electronique des Documents). Le projet est le suivant:

- On souhaite rechercher en full-text des mots à la facon de google dans des PDF.

Je sais que lire directement des PDF n'est pas évident. Par conséquent, je sais qu'on peut les extraire en txt. Le problème est que je risque d'avoir de la redondance d'information inutile par le fait d'avoir une fois le pdf et une fois le txt. J'ai aussi imaginer faire de l'indexation full-text dans la base mysql, mais là aussi on a redondance de l'informaiton entre le fichier PDF et le contenu de la base qui contiendra les texte du PDF.

Je suis obligé de conservé les PDF car leur mise en page est relativement importante et doit être conservée.

L'idée serait d'avoir les pdf dans un répertoire et créer une base de données créant une sorte de dictionnaire de référencement/indexation des PDF lié à la position du PDF concerné

Il s'agit aussi d'éviter d'utiliser les métatag PDF trop restrictif et la transformation en fichier TXT. Je sais aussi que google est capable de le faire. Le tout est de savoir comment......(chose que je ne comprend pas)

Je sais que ce projet n'est pas évident mais la moindre piste est intéressante, car il s'agit d'une demande que je trouve sur beaucoup de forum.

J'attend vos idées avec impatience
Merci d'avance

Skmancuso
jeudi 11 janvier 2007 à 12:51:33 | Re : recheche full-text de PDF

Springer

bonjour,
d'après mes souvenirs tu peux lire dans un fichier pdf directement à partir du php, va faire un tour sur cette page.
http://www.nexen.net/index.php?option=com_nexen_v2&Itemid=232&&lang=FR&nexen_url_type=intern&nexen_path=docs%2Fphp%2Fannotee%2Fref.pdf.php%3Flien%3Dpdf


cordialement
jeudi 11 janvier 2007 à 14:23:22 | Re : recheche full-text de PDF

skmancuso

Hello,

Merci pour ta réponse,

Il y a quelque  chose que je n'ai pas compris avec pdflib, est-il payant? Sur le site il parle de licences.....

J'utilise pour ma part XPDF qui permet de convertir un pdf en txt en ligne de commande pour le lire car il me semble qu'avec PDI, tu ne peux faire que des ajout ou une extraction mais pas récupérer le texte dans une variable ou du moins je n'ai pas compris comment le faire....(si quelqu'un a une idée?)

Pour l'indexation des mots se trouvant dans le PDF, je n'ai pas encore trouvé de solution si quelqu'un en a une, je suis toutes ouïes.

A bientôt

skmancuso


Cette discussion est classée dans : text, projet, pdf, aussi, full


Répondre à ce message

Sujets en rapport avec ce message

Formulaire + fichier externe [ par koko ] J'ai un petit formulaire avec 2 text (<INPUT TYPE="text") et un button. Quand je clique sur le button, il doit mettre les 2 text dans un fichier exter Passer une ligne dans un fichier text [ par DuncanIdaho ] Salut, j'utilise un fichier text pr stoker des 1fos, ms je voudrais aller a la ligne apres chq ajout, comment faire ?@+ serveur CVS !? [ par ec4 ] c'est ptet pas le bon endroit pour ke les webmaters mentendent mais bon... je leur ecrirai directement si y a pas de reponse...Pour ceux ki savent pas Doc to PDF en PHP ? [ par Joez ] Voila je veux faire un script qui permet de transformer un fichier Word ou excel en PDF avec PHP ?c'est possible ? Si oui comment ? Thx class,PDF,XLS et boucles..... [ par booth ] bonjour!j'ai un méga problème...je dois générer un PDF et une grillle excel toutes deux issues d'un moteur de recherche...pour le moteur de recherche Formulaire dans base de donnée [ par fabiin ] Salut,Alors voilasur mon site, les gens s'y inscrive, et il y a une case ou ils mettent une description longue...(j'accept le html)jusque la, tous va incluce fichier text et lien mailto... [ par connect ] et bien une petite question :j'insert un fichier txt ds tt mes pages..seulement ds ce fichier text, il y a une adresse email : comment afficher cette editeur text pour mail [ par kalib ] bjrje realise une application mailing listPour l'instant je rentre mon message à l'aide d'un ma page d'envoi de mail se trouvant online j'aimerais sa Visual basic pour application Prob Date userform [ par velo ] Lorque l'utilisateur de ma macro saisie une date en TextBox1 (Feuille Userform) 31/12/2002 ces données sont sous forme de texte Comment les converti


Nos sponsors


Sondage...

CalendriCode

Mai 2012
LMMJVSD
 123456
78910111213
14151617181920
21222324252627
28293031   

Consulter la suite du CalendriCode

A découvrir



 
Développement réalisé par Nicolas SOREL (Nix) avec l'aide de : Cyril DURAND et Emmanuel (EBArtSoft), Merci à Vincent pour ses précieux conseils.
CodeS-SourceS.com© Toute reproduction même partielle est interdite sauf accord écrit du Webmaster
CodeS-SourceS.com© est une marque déposée tous droits réservés

Google Coop CodeS-SourceS Google Coop CodeS-SourceS
Temps d'éxécution de la page : 0,343 sec (4)

Nous contacter | Annoncer sur CodeS-SourceS | Mentions légales