begin process at 2012 05 31 05:55:56
  Trouver un code source :
 
dans
 
Accueil > Forum > 

PHP

 > 

Divers

 > 

Aide & documentation

 > 

Php pdf html et doc


Derniers messages déposésPoser une question dans le forum ou lancer une discussion

Php pdf html et doc

jeudi 24 janvier 2008 à 15:09:09 | Php pdf html et doc

florian99

Bonjour,

voilà mon probleme, je suis en train de realiser une sorte de moteur de recherche interne dans un site internet. Alors aucun souci pour analyser les fichier format texte pour recuperer les mots clé mais alors en se qui concerne les fichier au format doc, pdf et les page web, je suis perdu, j'ai deja chercher sur internet pour essayer de trouver comment faire mais je ne trouve rien, je pense que sa doit etre possible de tout convertir en txt, il n'yaurai alors plus de probleme, mais alor comment???...

donc si quelqu'un sait comment faire, sa me serai bien utile, d'vance merci...

                                                                                                            Florian.


PS: j'ai deja trouvé un code pour les format pdf, mais celui là ne marche qu'avec certain pdf (1.3 je croi)
jeudi 24 janvier 2008 à 18:32:45 | Re : Php pdf html et doc

yoman64

Membre Club
Salut,

Pour les pages web html tu devrais n'avoir aucun soucis, le texte est lisibles sans problème, il est rare que les tags de mise en page se place au milieu d'un mot. Donc une recherche de la même façon qu'avec tes fichiers textes ne devrait pas poser de problème.

Pour les pdf il y a un module pour php qui peut créer des pdf, je suppose que qu'il y en a surment un pour les lire, sinon il y a un tuto de malik7934 qui explique très bien comment récuperé le texte des documents pdf (1.4 non compressé par contre) :
http://www.phpcs.com/tutoriaux/EXTRACTION-CONTENU-DOCUMENT-PDF-PDF_799.aspx

Pour les formats doc encore une fois ce ne sont que des balises de mise en page, mais une recherche directe fonctionnera sans doute difficilement, il doit y avoir une librairie pour les lires mais je ne connait pas.


-------------------
Vous cherchez un hebergement Php/MySQL Gratuit et sans publicités ??
Et bien c'est la : www.e3b.org  
vendredi 25 janvier 2008 à 13:12:56 | Re : Php pdf html et doc

codefalse

Administrateur CodeS-SourceS
Le format docx (format office 2007) n'est tout simplement que du xml zippé. Donc tu peux dézipper le docx et lire son contenu comme un fichier html/xml normal.

Pour l'ancien format (.doc) ca va etre plus galere, je te l'accorde.
Les formats odt (open office document) étant en xml, on revient au même système que cité précédement.
lundi 28 janvier 2008 à 09:45:30 | Re : Php pdf html et doc

florian99

pour le pdf c'est bon sa fonctionne, j'utilise l'appliction pdf2txt qui via une commende dans le dos converti le fichier pdf en txt (sa marche tres bien), je lance donc cette application dans php avec la fonction exec().

je vais essayer de traiter les doc docx et html maintenant, pouriez vous me donner un peu plus d'info sur le traitement des document xml, merci.
mardi 29 janvier 2008 à 14:39:19 | Re : Php pdf html et doc

florian99

voilà alors j'ai vu que pour les docx, il fallait en faite changer l'extention docx par zip, alors sa marche, sa me donne un fichier zip dans lequel je trouve mon document en format xml, voilà donc c'est pas mal, probleme, comme je veu tout automatiser, il faudrait que le dezzipage se fasse automatiquement. j'ai activé la librerie php_zip et j'ai lancer le code suivant:

$zip = zip_open("test.zip");
if ($zip)
{
     while($zip_entry = zip_read($zip)) 
    {
          echo "Nom :                    " . zip_entry_name($zip_entry) . "<br>";
          echo "Poids actuel :           " . zip_entry_filesize($zip_entry) . "<br>";
          echo "Poids compressé:         " . zip_entry_compressedsize($zip_entry) . "<br>";
          echo "Méthode de compression : " . zip_entry_compressionmethod($zip_entry) . "<br>";
     }
}

et j'obtien l'erreur suivante:

 Warning: zip_read() expects parameter 1 to be resource, string given in C:\Program Files\wamp\www\testzip\ZIP.php on line 4

quelqu'un peut m'aider, merci

mardi 29 janvier 2008 à 15:05:37 | Re : Php pdf html et doc

codefalse

Administrateur CodeS-SourceS
Tu utilise quelle version de php ?
mardi 29 janvier 2008 à 15:31:31 | Re : Php pdf html et doc

florian99

j'utilise php5 mais c'est bon, j'ai trouver autre choses, une bibliotheque de fonction php:
pclzip
sa marche tres bien.

mardi 29 janvier 2008 à 16:19:30 | Re : Php pdf html et doc

codefalse

Administrateur CodeS-SourceS
php5 possède déjà une extensions zip ZipArchive, regarde du coté de php.net

php.net/ZipArchive

Elle te permettra de tout faire facilement !


Cette discussion est classée dans : php, format, html, doc, pdf


Répondre à ce message

Sujets en rapport avec ce message

Doc to PDF en PHP ? [ par Joez ] Voila je veux faire un script qui permet de transformer un fichier Word ou excel en PDF avec PHP ?c'est possible ? Si oui comment ? Thx passer un talbeau html en pdf avec php [ par kidpigeyre ] Bonjour,je souhaite passer un tableau html au format pdf avec l'aide des fonctions de php.Comment faire? Quelles fonctions utiliser? Connaissez vous u PDF et PHP [ par syndrael ] Bonjour,J'aimerais trouver un moyen pour via une balise générer du PDF à partir d'un fichier HTML. Autrement dit, j'ai un fichier HTML sur mon serveur PHP Lire un mail au format HTML [ par waterw72 ] Bonjour,Je souhaite lire un mail en php dont le texte est au format HTML (pas de PLAIN).La lecture du mail se passe très bien mais ... dans le code HT exporter un tableau php html en format excel. [ par chamane1388 ] Bonjour. Orientez moi si ce n'est po la ou il faut poster cette question. Je veux exporter un tableau php html en format excel et ce par un bouton ou moteur de recherche en utilisant zend_search_luncene [ par la100 ] salut je utilise le zend_search_luncene pour indexer les documents j'ai arriver de le fair avec un fichier fomrat txt et pour le formet pdf d'abord je variable php dans mail format html [ par tif27940 ] Bonjour, voila je souhaite dans l'envoie de mon mail pouvoir mettre a l'intérieur des variables en php mais comment faire ? merci a tous de vos futu Problème PDF - PHP [ par Hellooow ] Bonjour, Je travaille actuellement sur un programme qui me permet de traduire mes fichiers PDF en texte. Cependant, il se trouve qu'il fonctionne mal creer le pseudonyme d'un lien html php [ par tclo2 ] Bonjour, quelqu'un pourrait-il m'aider a creer des pseudonymes des liens: par exemple j'ai un lien http://monsite.fr/?para=1&para2=2&para3=rien&para4= Empêcher acces .php après avoir fait un RewriteRule [ par xaviernuma ] Bonjour, Dans le fichier .htaccess de mon site j'ai : [code=autre] RewriteRule ^nos-jeux-favoris.html$ jeux.php?l=fr [L] RewriteRule ^our-favorite-g


Nos sponsors


Sondage...

Comparez les prix

CalendriCode

Mai 2012
LMMJVSD
 123456
78910111213
14151617181920
21222324252627
28293031   

Consulter la suite du CalendriCode

A découvrir



 
Développement réalisé par Nicolas SOREL (Nix) avec l'aide de : Cyril DURAND et Emmanuel (EBArtSoft), Merci à Vincent pour ses précieux conseils.
CodeS-SourceS.com© Toute reproduction même partielle est interdite sauf accord écrit du Webmaster
CodeS-SourceS.com© est une marque déposée tous droits réservés

Google Coop CodeS-SourceS Google Coop CodeS-SourceS
Temps d'éxécution de la page : 0,296 sec (4)

Nous contacter | Annoncer sur CodeS-SourceS | Mentions légales