Accueil > > > CRAWLER DE SITE EN PHP
CRAWLER DE SITE EN PHP
Information sur la source
Description
!!! Attention nécessite curl !!!! Cette source permet de créer un mini crawler php pour récupérer des pages php qui peuvent nécessité un formulaire d'authentification. Cette classe gère les cookies de session et permet aussi de changer l'identité du navigateur. Il s'agit d'une classe que j'ai adapté d'une classe existante, mais je ne retrouve pas le liens de la version originale. Les sources de la classes se trouvent dans le zip. Petit conseil d'utilisation, pour faciliter la tache de vérification des variables transmises au serveur dans les formulaires, j'utilise l'outil de surveillance réseau de firebug.
Source
- <?php
-
- // Exemple d'utilisation sur le site de phpcs :)
-
- include "classes/crawler.php";
-
- /**
- connexion et authentification
- */
- $myCrawler = new Crawler("phpcs", "true", "http://www.phpcs.com/login.aspx",
- /** formulaire d'authentification **/
- array("_ASYNCPOST" => "true",
- "__EVENTARGUMENT" => "",
- "__EVENTTARGET" => "m\$CPH1\$LoginCS\$btnConnect",
- "__LASTFOCUS" => "",
- "__VIEWSTATE" => "/wEPDwUKLTk2MTMxMDA4Mw9kFgJmD2QWAgICEGRkFggCAw9kFgICAQ8WAh4HVmlzaWJsZWhkAgQPZBYEAgIPEA8WAh8AaGRkZGQCAw8PFgIfAGhkFgICAQ8QZGQWAGQCBQ9kFgJmD2QWCgICDw8WAh4PVmFsaWRhdGlvbkdyb3VwBRRjdGwwMF9DUEgxX0xvZ2luQ1NfdmRkAgMPDxYCHwEFFGN0bDAwX0NQSDFfTG9naW5DU192ZGQCBg8PFgIfAQUUY3RsMDBfQ1BIMV9Mb2dpbkNTX3ZkZAIHDw8WAh8BBRRjdGwwMF9DUEgxX0xvZ2luQ1NfdmRkAgsPZBYCZg9kFgRmDw8WBB8AZx4EVGV4dAU3RXJyZXVyIGxvcnMgZGUgbGEgc2Fpc2llIGRlIHZvdHJlIGxvZ2luIG91IG1vdCBkZSBwYXNzZWRkAgEPDxYCHwEFFGN0bDAwX0NQSDFfTG9naW5DU192ZGQCCQ9kFgICAQ8WAh8AaGQYAQUeX19Db250cm9sc1JlcXVpcmVQb3N0QmFja0tleV9fFgEFG20kQ1BIMSRMb2dpbkNTJGNiUmVtZW1iZXJNZR+7aAhacpuYY8BQX2vS39YeG/8/",
- "l" => "0",
- /** mdp d'authentification **/
- "m\$CPH1\$LoginCS\$tbPassword" => "mot de passe",
- /** user d'authentification **/
- "m\$CPH1\$LoginCS\$tbUserName" => "nom d'utilisateur",
- "m\$SC1" => "m\$CPH1\$LoginCS\$upp|m\$CPH1\$LoginCS\$btnConnect",
- "m\$UCTabsHome1\$DropSearch" => "tout",
- "m\$UCTabsHome1\$txtSearch" => ""
- )
- );
-
- /**
- récupération d'une page get
- */
- $res = $myCrawler->http_fetch_url("http://www.phpcs.com/default.aspx");
-
- //affichage du resultat
- echo $res;
-
-
- /**
- récupération d'une page post
- */
- $res = $myCrawler->http_post_url("http://www.phpcs.com/default.aspx",
- //formulaire post
- array(
- "__VIEWSTATE" => "/wEPDwULLTEzMzU1MjE5NzcPZBYCZg9kFgICAhBkZBYGAgMPZBYCAgEPFgIeB1Zpc2libGVoZAIED2QWBAICDxAPFgIfAGhkZGRkAgMPDxYCHwBoZBYCAgEPEGRkFgBkAgkPZBYCAgEPFgIfAGhkZNiqbZSK+5ynghDGsF2xMCr7KBF2"
- ,"l" => "0"
- ,"m\$UCTabsHome1\$DropSearch" => "tout"
- ,"m\$UCTabsHome1\$GGSearch" => "Rechercher"
- ,"m\$UCTabsHome1\$txtSearch" => "socket"
- )
- );
-
- //affichage du resultat
- echo $res;
-
- ?>
<?php
// Exemple d'utilisation sur le site de phpcs :)
include "classes/crawler.php";
/**
connexion et authentification
*/
$myCrawler = new Crawler("phpcs", "true", "http://www.phpcs.com/login.aspx",
/** formulaire d'authentification **/
array("_ASYNCPOST" => "true",
"__EVENTARGUMENT" => "",
"__EVENTTARGET" => "m\$CPH1\$LoginCS\$btnConnect",
"__LASTFOCUS" => "",
"__VIEWSTATE" => "/wEPDwUKLTk2MTMxMDA4Mw9kFgJmD2QWAgICEGRkFggCAw9kFgICAQ8WAh4HVmlzaWJsZWhkAgQPZBYEAgIPEA8WAh8AaGRkZGQCAw8PFgIfAGhkFgICAQ8QZGQWAGQCBQ9kFgJmD2QWCgICDw8WAh4PVmFsaWRhdGlvbkdyb3VwBRRjdGwwMF9DUEgxX0xvZ2luQ1NfdmRkAgMPDxYCHwEFFGN0bDAwX0NQSDFfTG9naW5DU192ZGQCBg8PFgIfAQUUY3RsMDBfQ1BIMV9Mb2dpbkNTX3ZkZAIHDw8WAh8BBRRjdGwwMF9DUEgxX0xvZ2luQ1NfdmRkAgsPZBYCZg9kFgRmDw8WBB8AZx4EVGV4dAU3RXJyZXVyIGxvcnMgZGUgbGEgc2Fpc2llIGRlIHZvdHJlIGxvZ2luIG91IG1vdCBkZSBwYXNzZWRkAgEPDxYCHwEFFGN0bDAwX0NQSDFfTG9naW5DU192ZGQCCQ9kFgICAQ8WAh8AaGQYAQUeX19Db250cm9sc1JlcXVpcmVQb3N0QmFja0tleV9fFgEFG20kQ1BIMSRMb2dpbkNTJGNiUmVtZW1iZXJNZR+7aAhacpuYY8BQX2vS39YeG/8/",
"l" => "0",
/** mdp d'authentification **/
"m\$CPH1\$LoginCS\$tbPassword" => "mot de passe",
/** user d'authentification **/
"m\$CPH1\$LoginCS\$tbUserName" => "nom d'utilisateur",
"m\$SC1" => "m\$CPH1\$LoginCS\$upp|m\$CPH1\$LoginCS\$btnConnect",
"m\$UCTabsHome1\$DropSearch" => "tout",
"m\$UCTabsHome1\$txtSearch" => ""
)
);
/**
récupération d'une page get
*/
$res = $myCrawler->http_fetch_url("http://www.phpcs.com/default.aspx");
//affichage du resultat
echo $res;
/**
récupération d'une page post
*/
$res = $myCrawler->http_post_url("http://www.phpcs.com/default.aspx",
//formulaire post
array(
"__VIEWSTATE" => "/wEPDwULLTEzMzU1MjE5NzcPZBYCZg9kFgICAhBkZBYGAgMPZBYCAgEPFgIeB1Zpc2libGVoZAIED2QWBAICDxAPFgIfAGhkZGRkAgMPDxYCHwBoZBYCAgEPEGRkFgBkAgkPZBYCAgEPFgIfAGhkZNiqbZSK+5ynghDGsF2xMCr7KBF2"
,"l" => "0"
,"m\$UCTabsHome1\$DropSearch" => "tout"
,"m\$UCTabsHome1\$GGSearch" => "Rechercher"
,"m\$UCTabsHome1\$txtSearch" => "socket"
)
);
//affichage du resultat
echo $res;
?>
Historique
- 26 novembre 2009 13:43:03 :
- Nécessite CURL
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
formulaire mail [ par arnaud ]
quand je recoit un formulaire mail je trouve le fichier postdata.att ... comment fair pour l'avoir sans les 20% et les "+"merciarnaud
php et html [ par Vinz ]
Salut,Voila, j'utilise un formulaire qui me lance un php. Dans ce formulaire j'ai un <input type=file name='monFile'>.Mon probleme c'est que j'a
Formulaire PHP3 + PJ [ par Jiboule ]
Salut à tous ! Quelqu'un peut-il me sauver ? J'ai fait un formulaire en HTML avec une dizaine de champs + la possibilité de joindre un fichier. Je ne
Formulaire PHP3 + PJ [ par Jiboule ]
Salut à tous ! Quelqu'un peut-il me sauver ? J'ai fait un formulaire en HTML avec une dizaine de champs + la possibilité de joindre un fichier. Je ne
code simple pour formulaire [ par bernard ]
bonsoir à tous, je suis débutant de chez débutant et j'ai besoin d'aide.je voudrais réaliser un programme en php.il s'agit d'un formulaire où le visit
Formulaire + fichier externe [ par koko ]
J'ai un petit formulaire avec 2 text (<INPUT TYPE="text") et un button. Quand je clique sur le button, il doit mettre les 2 text dans un fichier ex
Formulaire et SQL [ par Christophe46 ]
Salut,J'espère trouver de l'aide sur ce forum,J'ai fait une base de données MySql, avec une table et des champs comme nom, prenom, telephone, adresse,
Formulaire et SQL [ par Christophe46 ]
Salut,J'espère trouver de l'aide sur ce forum,J'ai fait une base de données MySql, avec une table et des champs comme nom, prenom, telephone, adresse,
Formulaire [ par benett ]
Bonjour à tous,J'ai une petite question :Dans un formulaire, certaine valeurs s'obtiennent par recopie et proviennent d'une autre page,comment peut-on
Formulaire [ par benett ]
Bonjour à tous,J'ai une petite question :Dans un formulaire, certaine valeurs s'obtiennent par recopie et proviennent d'une autre page,comment peut-on
|
Derniers Blogs
IMAGINE CUP 2012, MAKE A SIGN EN FINALEIMAGINE CUP 2012, MAKE A SIGN EN FINALE par junarnoalg
Voilà qui est fait, la nouvelle est officielle ! L'équipe belge "Make a Sign" va au pays des kangourous défendre son projet dans la catégorie Software Design. http://www.imaginecup.com/CompetitionsContent/Competition/WorldwideFinalists.aspx V...
Cliquez pour lire la suite de l'article par junarnoalg KINECT 1.5 IS OUT !KINECT 1.5 IS OUT ! par Vko
La version 1.5 du Kinect For Microsoft vient tout juste de sortir ! Plein de nouveautés: Tracking de squelette en Near Mode Détection en position assise Détection faciale avec un SDK dédié Documentation et des guideline (enfin) Un out...
Cliquez pour lire la suite de l'article par Vko LES ACTUALITéS DE LA SEMAINE SUR C2I.FR (14 MAI - 20 MAI) LES ACTUALITéS DE LA SEMAINE SUR C2I.FR (14 MAI - 20 MAI) par richardc
Mise à jour des Web API du 14 Mai
Réservez dès maintenant votre journée du 20 juin pour le Windows Azure Dev Camp 2012 à Paris
Mise à jour de Team Foundation Service
MechCommander 2 sur Windows 8
Entity Framework 5 Release Candidate e...
Cliquez pour lire la suite de l'article par richardc REACTIVE EXTENSIONS : CONSOMMER DES SERVICES AVEC RX PARTIE 3, LES PIèGES à éVITERREACTIVE EXTENSIONS : CONSOMMER DES SERVICES AVEC RX PARTIE 3, LES PIèGES à éVITER par Groc
Une mauvaise utilisation de rx lors de l'écriture d'une couche d'accès à des services peut conduire à des cas embarassants avec des erreurs mal gérées, des appels qui ne partent lorsqu'ils le devraient, et même des résultats incorrects . le tout nuis...
Cliquez pour lire la suite de l'article par Groc SHAREPOINT BLOG SITE, PROBLèME D'ARCHIVESSHAREPOINT BLOG SITE, PROBLèME D'ARCHIVES par junarnoalg
Dernièrement, nous avons migré le site
myTIC
vers un nouveau serveur SharePoint 2010. Dans les contenus que nous vouloins récupérer, nous avions un certain nombre de blogs.
Nous avons utilisé les commandes Power...
Cliquez pour lire la suite de l'article par junarnoalg
Forum
MYSQL_FETCH_ASSOCMYSQL_FETCH_ASSOC par moumenitaliano
Cliquez pour lire la suite par moumenitaliano
Logiciels
sDEVIS-FACTURES vlPRO (8.1.0.3)SDEVIS-FACTURES VLPRO (8.1.0.3)sDEVIS-FACTURES vlPRO a été mis au point pour les particuliers, créateurs, entrepreneurs, artisa... Cliquez pour télécharger sDEVIS-FACTURES vlPRO 974 Application Server (12.2.4.6)974 APPLICATION SERVER (12.2.4.6)Développez de puissantes applications dans un environnement de 'cloud computing', clusterisé, séc... Cliquez pour télécharger 974 Application Server vPicture (1.4.2.1)VPICTURE (1.4.2.1)Avec vPicture, hébergez vos images facilement et rapidement.
vPicture est un utilitaire simple, ... Cliquez pour télécharger vPicture Easy-Planning (2.2.1.6)EASY-PLANNING (2.2.1.6)Easy-Planning permet de créer des plannings sous la représentation de diagrammes et est adapté au... Cliquez pour télécharger Easy-Planning COM-BACKUP (2.0)COM-BACKUP (2.0)
COM-BACKUP est un logiciel de sauvegarde qui permet de planifier les sauvegardes de vos dossiers ...
Cliquez pour télécharger COM-BACKUP
|