Accueil > Forum > > > > Php pdf html et doc
Php pdf html et doc
jeudi 24 janvier 2008 à 15:09:09 |
Php pdf html et doc

florian99
|
Bonjour, voilà mon probleme, je suis en train de realiser une sorte de moteur de recherche interne dans un site internet. Alors aucun souci pour analyser les fichier format texte pour recuperer les mots clé mais alors en se qui concerne les fichier au format doc, pdf et les page web, je suis perdu, j'ai deja chercher sur internet pour essayer de trouver comment faire mais je ne trouve rien, je pense que sa doit etre possible de tout convertir en txt, il n'yaurai alors plus de probleme, mais alor comment???... donc si quelqu'un sait comment faire, sa me serai bien utile, d'vance merci... Florian. PS: j'ai deja trouvé un code pour les format pdf, mais celui là ne marche qu'avec certain pdf (1.3 je croi)
|
|
jeudi 24 janvier 2008 à 18:32:45 |
Re : Php pdf html et doc

yoman64
|
Salut, Pour les pages web html tu devrais n'avoir aucun soucis, le texte est lisibles sans problème, il est rare que les tags de mise en page se place au milieu d'un mot. Donc une recherche de la même façon qu'avec tes fichiers textes ne devrait pas poser de problème. Pour les pdf il y a un module pour php qui peut créer des pdf, je suppose que qu'il y en a surment un pour les lire, sinon il y a un tuto de malik7934 qui explique très bien comment récuperé le texte des documents pdf (1.4 non compressé par contre) : http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspxPour les formats doc encore une fois ce ne sont que des balises de mise en page, mais une recherche directe fonctionnera sans doute difficilement, il doit y avoir une librairie pour les lires mais je ne connait pas. ------------------- Vous cherchez un hebergement Php/MySQL Gratuit et sans publicités ?? Et bien c'est la : www.e3b.org 
|
|
vendredi 25 janvier 2008 à 13:12:56 |
Re : Php pdf html et doc

codefalse
|
Le format docx (format office 2007) n'est tout simplement que du xml zippé. Donc tu peux dézipper le docx et lire son contenu comme un fichier html/xml normal.
Pour l'ancien format (.doc) ca va etre plus galere, je te l'accorde. Les formats odt (open office document) étant en xml, on revient au même système que cité précédement.
|
|
lundi 28 janvier 2008 à 09:45:30 |
Re : Php pdf html et doc

florian99
|
pour le pdf c'est bon sa fonctionne, j'utilise l'appliction pdf2txt qui via une commende dans le dos converti le fichier pdf en txt (sa marche tres bien), je lance donc cette application dans php avec la fonction exec().
je vais essayer de traiter les doc docx et html maintenant, pouriez vous me donner un peu plus d'info sur le traitement des document xml, merci.
|
|
mardi 29 janvier 2008 à 14:39:19 |
Re : Php pdf html et doc

florian99
|
voilà alors j'ai vu que pour les docx, il fallait en faite changer l'extention docx par zip, alors sa marche, sa me donne un fichier zip dans lequel je trouve mon document en format xml, voilà donc c'est pas mal, probleme, comme je veu tout automatiser, il faudrait que le dezzipage se fasse automatiquement. j'ai activé la librerie php_zip et j'ai lancer le code suivant:
$zip = zip_open("test.zip"); if ($zip) { while($zip_entry = zip_read($zip)) { echo "Nom : " . zip_entry_name($zip_entry) . "<br>"; echo "Poids actuel : " . zip_entry_filesize($zip_entry) . "<br>"; echo "Poids compressé: " . zip_entry_compressedsize($zip_entry) . "<br>"; echo "Méthode de compression : " . zip_entry_compressionmethod($zip_entry) . "<br>"; } }
et j'obtien l'erreur suivante:
Warning: zip_read() expects parameter 1 to be resource, string given in C:\Program Files\wamp\www\testzip\ZIP.php on line 4
quelqu'un peut m'aider, merci
|
|
mardi 29 janvier 2008 à 15:05:37 |
Re : Php pdf html et doc
|
mardi 29 janvier 2008 à 15:31:31 |
Re : Php pdf html et doc

florian99
|
j'utilise php5 mais c'est bon, j'ai trouver autre choses, une bibliotheque de fonction php: pclzip sa marche tres bien.
|
|
mardi 29 janvier 2008 à 16:19:30 |
Re : Php pdf html et doc

codefalse
|
php5 possède déjà une extensions zip ZipArchive, regarde du coté de php.net
php.net/ZipArchive
Elle te permettra de tout faire facilement !
|
|
Cette discussion est classée dans : php, format, html, doc, pdf
Répondre à ce message
Sujets en rapport avec ce message
Doc to PDF en PHP ? [ par Joez ]
Voila je veux faire un script qui permet de transformer un fichier Word ou excel en PDF avec PHP ?c'est possible ? Si oui comment ? Thx
passer un talbeau html en pdf avec php [ par kidpigeyre ]
Bonjour,je souhaite passer un tableau html au format pdf avec l'aide des fonctions de php.Comment faire? Quelles fonctions utiliser? Connaissez vous u
PDF et PHP [ par syndrael ]
Bonjour,J'aimerais trouver un moyen pour via une balise générer du PDF à partir d'un fichier HTML. Autrement dit, j'ai un fichier HTML sur mon serveur
PHP Lire un mail au format HTML [ par waterw72 ]
Bonjour,Je souhaite lire un mail en php dont le texte est au format HTML (pas de PLAIN).La lecture du mail se passe très bien mais ... dans le code HT
exporter un tableau php html en format excel. [ par chamane1388 ]
Bonjour. Orientez moi si ce n'est po la ou il faut poster cette question. Je veux exporter un tableau php html en format excel et ce par un bouton ou
moteur de recherche en utilisant zend_search_luncene [ par la100 ]
salut je utilise le zend_search_luncene pour indexer les documents j'ai arriver de le fair avec un fichier fomrat txt et pour le formet pdf d'abord je
variable php dans mail format html [ par tif27940 ]
Bonjour, voila je souhaite dans l'envoie de mon mail pouvoir mettre a l'intérieur des variables en php mais comment faire ? merci a tous de vos futu
Problème PDF - PHP [ par Hellooow ]
Bonjour, Je travaille actuellement sur un programme qui me permet de traduire mes fichiers PDF en texte. Cependant, il se trouve qu'il fonctionne mal
creer le pseudonyme d'un lien html php [ par tclo2 ]
Bonjour, quelqu'un pourrait-il m'aider a creer des pseudonymes des liens: par exemple j'ai un lien http://monsite.fr/?para=1¶2=2¶3=rien¶4=
Empêcher acces .php après avoir fait un RewriteRule [ par xaviernuma ]
Bonjour, Dans le fichier .htaccess de mon site j'ai : [code=autre] RewriteRule ^nos-jeux-favoris.html$ jeux.php?l=fr [L] RewriteRule ^our-favorite-g
Livres en rapport
|
Derniers Blogs
ROSLYN FLUENT APIS: ROSLYNHELPER NUGET PACKAGEROSLYN FLUENT APIS: ROSLYNHELPER NUGET PACKAGE par Matthieu MEZIL
Si vous utilisez Roslyn et que vous vous voulez vous simplifier le code du code rewriter, je vous conseille d'installer mon NuGet package RoslynHelper ....(read more) ...
Cliquez pour lire la suite de l'article par Matthieu MEZIL POUR RAPPEL ! LES SPéCIFICATIONS DES PROTOCOLES OFFICE ET SHAREPOINT SONT DISPONIBLES SUR MSDNPOUR RAPPEL ! LES SPéCIFICATIONS DES PROTOCOLES OFFICE ET SHAREPOINT SONT DISPONIBLES SUR MSDN par neodante
Quelle est le point commun entre : Microsoft il y a 10 ans et Apple aujourd'hui ? Réponse: avoir une politique de protocoles propriétaires et fermés :) Car pour rappel (si si je vous assure c'est important de le rappeler), la majorité des spécifications e...
Cliquez pour lire la suite de l'article par neodante JOYEUX ANNIVERSAIRE NIXJOYEUX ANNIVERSAIRE NIX par ebartsoft
Souhaitons un bon et joyeux anniversaire à notre hôte à tous, Nix.
Je ne le répéterais jamais assez mais sans lui rien ne serait possible. Il défit en permanence les lois de la gravité et comme il le dit si bien, si tu lui fais confiance ça devra...
Cliquez pour lire la suite de l'article par ebartsoft IMAGINE CUP 2012, MAKE A SIGN EN FINALEIMAGINE CUP 2012, MAKE A SIGN EN FINALE par junarnoalg
Voilà qui est fait, la nouvelle est officielle ! L'équipe belge "Make a Sign" va au pays des kangourous défendre son projet dans la catégorie Software Design. http://www.imaginecup.com/CompetitionsContent/Competition/WorldwideFinalists.aspx V...
Cliquez pour lire la suite de l'article par junarnoalg KINECT 1.5 IS OUT !KINECT 1.5 IS OUT ! par Vko
La version 1.5 du Kinect For Microsoft vient tout juste de sortir ! Plein de nouveautés: Tracking de squelette en Near Mode Détection en position assise Détection faciale avec un SDK dédié Documentation et des guideline (enfin) Un out...
Cliquez pour lire la suite de l'article par Vko
Logiciels
sDEVIS-FACTURES vlPRO (8.1.0.3)SDEVIS-FACTURES VLPRO (8.1.0.3)sDEVIS-FACTURES vlPRO a été mis au point pour les particuliers, créateurs, entrepreneurs, artisa... Cliquez pour télécharger sDEVIS-FACTURES vlPRO 974 Application Server (12.2.4.6)974 APPLICATION SERVER (12.2.4.6)Développez de puissantes applications dans un environnement de 'cloud computing', clusterisé, séc... Cliquez pour télécharger 974 Application Server vPicture (1.4.2.1)VPICTURE (1.4.2.1)Avec vPicture, hébergez vos images facilement et rapidement.
vPicture est un utilitaire simple, ... Cliquez pour télécharger vPicture Easy-Planning (2.2.1.6)EASY-PLANNING (2.2.1.6)Easy-Planning permet de créer des plannings sous la représentation de diagrammes et est adapté au... Cliquez pour télécharger Easy-Planning COM-BACKUP (2.0)COM-BACKUP (2.0)
COM-BACKUP est un logiciel de sauvegarde qui permet de planifier les sauvegardes de vos dossiers ...
Cliquez pour télécharger COM-BACKUP
|