Accueil > > > RÉCUPÉRER DES INFORMATIONS SUR ALLOCINE.FR
RÉCUPÉRER DES INFORMATIONS SUR ALLOCINE.FR
Information sur la source
Description
Ce script va récupérer des informations sur le site Allocine.fr sous forme de tableau. Ex : Array ( [titre_film] => Che - 1ère partie : L'Argentin [realisateur] => Steven Soderbergh [acteur] => Benicio Del Toro, Demian Bichir, Santiago Cabrera [long_metrage] => français, américain, espagnol [synopsis] => Cuba, 1952 : le général Fulgencio Batista fomente un putsch, s'empare du pouvoir et annule les élections générales. Bravant ce dictateur corrompu, un jeune avocat, Fidel Castro, candidat à la députation sous la bannière du Parti du Peuple, passe à l'action. Dans l'espoir de provoquer un soulèvement populaire, il attaque avec 150 jeunes la caserne de Monaca le 26 juillet 1953. L'opération échoue ; Castro passe deux ans en prison. Amnistié en 1955, il s'exile à Mexico. Pendant ce temps, au Guatemala, un jeune Argentin idéaliste, Ernesto Guevara, se lance en politique. En 1954, lorsqu'un complot militaire soutenu par la CIA renverse le gouvernement, démocratiquement élu, de Jacobo Arbenz, Guevara se réfugie au Mexique. Après une première prise de contact au Guatemala, il rejoint un groupuscule révolutionnaire cubain. le 13 juillet 1955, dans un modeste appartement de Mexico, Raul Castro présente Guevara à son frère aîné, Fidel. Une rencontre discrète, qui marque une date clé dans l'histoire de Cuba. Guevara se voit immédiatement confier une opération de guérilla en vue de renverser Batista. Les Cubains affublent le jeune rebelle d'un sobriquet courant en Argentine : "Che". 26 novembre 1956 : Fidel Castro embarque pour Cuba avec 80 rebelles. L'offensive se solde par un massacre : seuls douze hommes en réchappent, dont le Che (médecin du groupe) et Castro. Réfugiés dans la Sierra Maestra, les "barbudos" déclarent la "guerre totale" au régime de Batista. Guevara prouve ses qualités de combattant et se rend indispensable à ses compagnons. La résistante s'intensifie, gange toute l'île. 1er janvier 1959 : les rebelles célèbrent leur victoire à Santa Clara, le dictateur s'enfuit. Fin de la 1ère partie... [affiche] => http://images.allocine.fr/r_160_214/b_1_cfd7e1/med ias/nmedia/18/36/35/03/18997008.jpg [duree] => 02h07min [titre_vo] => Che: Part One [sortie_cinema] => 2009-01-07 [sortie_salle_lien] => http://www.allocine.fr/film/agenda.html?week=2009- 01-07 [sortie_salle] => 7 janvier 2009 [age] => inconnu [annee_de_production] => 2008 )
Source
- <?php
- function allocine($allocine)
- {
- $absent = Array(
- 'titre_film' => 'inconnu',
- 'realisateur' => 'inconnu',
- 'acteur' => 'inconnu',
- 'long_metrage' => 'inconnu',
- 'synopsis' => 'inconnu',
- 'affiche' => './img/image_introuvable_films.jpg',
- 'duree' => 'inconnue',
- 'titre_vo' => 'inconnu',
- 'sortie_cinema' => 'inconnue',
- 'age' => 'inconnu',
- 'annee_de_production' => 'inconnue'
- );
-
- $curl = curl_init();
- curl_setopt($curl, CURLOPT_URL, 'http://www.allocine.fr/film/fichefilm_gen_cfilm='.$allocine.'.html');
- curl_setopt($curl, CURLOPT_POST, 1);
- curl_setopt($curl, CURLOPT_POSTFIELDS, $post_data);
- curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
- curl_setopt($curl, CURLOPT_NOBODY, FALSE);
- $recup = curl_exec($curl);
- curl_close($curl);
-
-
- // on récupère le titre
- preg_match('#<h1 property="v:itemreviewed">(.*?)</h1>#is', $recup, $titre_film);
- $sortie['titre_film'] = (empty($titre_film)) ? $absent['titre_film'] : trim(utf8_decode(strip_tags($titre_film[0])));
-
-
- // on réupère le nom du/des réalisateur(s)
- preg_match('#<!-- End first block -->(.*?)</a>#is', $recup, $realisateur);
- $sortie['realisateur'] = (empty($realisateur)) ? $absent['realisateur'] : trim(utf8_decode(strip_tags($realisateur[0])));
- $sortie['realisateur'] = str_replace("\n", '', $sortie['realisateur']);
- $sortie['realisateur'] = str_replace("\r", '', $sortie['realisateur']);
- $sortie['realisateur'] = preg_replace('/\s\s+/', '', $sortie['realisateur']);
- $sortie['realisateur'] = explode('par', $sortie['realisateur']);
- $sortie['realisateur'] = trim($sortie['realisateur'][1]);
-
-
- // on réupère le nom du/des acteur(s)
- preg_match('#<!-- End first block -->(.*?)<!-- end paragraph for second block -->#is', $recup, $acteur);
- $sortie['acteur'] = (empty($acteur)) ? $absent['acteur'] : trim($acteur[0]);
- $sortie['acteur'] = preg_replace('#<p>(.*?)Avec#is', '', $sortie['acteur']);
- $sortie['acteur'] = preg_replace('#plus</a>(.*?)</p>#is', '', $sortie['acteur']);
- $sortie['acteur'] = strip_tags(utf8_decode(trim($sortie['acteur'])));
- $sortie['acteur'] = str_replace("\n", '', $sortie['acteur']);
- $sortie['acteur'] = str_replace("\r", '', $sortie['acteur']);
- $sortie['acteur'] = preg_replace('/\s\s+/', '', $sortie['acteur']);
- $sortie['acteur'] = substr($sortie['acteur'], 0, -1);
-
-
- // on réupère le long-métrage du film
- preg_match('#Long-m[^"]+trage(.*?)\.#is', $recup, $long_metrage);
- $sortie['long_metrage'] = (empty($long_metrage)) ? $absent['long_metrage'] : strip_tags(utf8_decode(trim($long_metrage[1])));
- $sortie['long_metrage'] = str_replace("\r", '', $sortie['long_metrage']);
- $sortie['long_metrage'] = str_replace("\t", '', $sortie['long_metrage']);
- $sortie['long_metrage'] = str_replace("\n", '', $sortie['long_metrage']);
-
-
- // on récupère le synopsis
- preg_match('#<span class="bold">Synopsis : </span>(.*?)</p>#is', $recup, $synopsis);
- $synopsis[1] = str_replace("’", "'", $synopsis[1]);
- $synopsis[1] = str_replace('…', '...', $synopsis[1]);
- $synopsis[1] = str_replace('–', '-', $synopsis[1]);
- $synopsis[1] = str_replace("\n", '', $synopsis[1]);
- $synopsis[1] = str_replace('½', 'oe', $synopsis[1]);
- $synopsis[1] = str_replace('”', '"', $synopsis[1]);
- $synopsis[1] = str_replace('“', '"', $synopsis[1]);
- $sortie['synopsis'] = (empty($synopsis)) ? $absent['synopsis'] : trim(utf8_decode($synopsis[1]));
-
-
- // on récupère l'url de l'affiche
- preg_match('#<img src=\'http://images.allocine.fr/r_160_214/(.*?)\'[^"]+alt="[^"]+"[^"]+title="[^"]+"[^"]+/>#is', $recup, $affiche);
- $sortie['affiche'] = ($affiche[1] == 'http://images.allocine.fr/r_160_214/b_1_cfd7e1/commons/emptymedia/AffichetteAllocine.gif') ? $absent['affiche'] : 'http://images.allocine.fr/r_160_214/'.$affiche[1];
-
-
- // on récupère la durée
- preg_match_all('#[0-9]+h[0-9]+min#is', $recup, $duree);
- $sortie['duree'] = (empty($duree[0][0])) ? $absent['duree'] : trim(str_replace(' min', '', utf8_decode($duree[0][0])));
-
-
- // on récupère le titre original
- preg_match('#Titre original : <span class="purehtml"><em>(.*?)</em></span>#is', $recup, $titre_vo);
- $sortie['titre_vo'] = (empty($titre_vo)) ? $absent['titre_vo'] : trim(utf8_decode($titre_vo[1]));
-
-
- // on récupere la date de sortie au cinéma
- preg_match('#<a href="/film/agenda\.html\?week=(.*?)">(.*?)</a>#is', $recup, $sortie_cinema);
- $sortie['sortie_cinema'] = (empty($sortie_cinema)) ? $absent['sortie_cinema'] : trim(utf8_decode($sortie_cinema[1]));
-
- if($sortie['sortie_cinema'] != 'inconnue')
- $sortie['sortie_salle_lien'] = 'http://www.allocine.fr/film/agenda.html?week='.$sortie_cinema[1];
- else
- $sortie['sortie_salle_lien'] = 'inconnue';
-
- if($sortie['sortie_cinema'] != 'inconnue')
- $sortie['sortie_salle'] = trim(utf8_decode($sortie_cinema[2]));
- else
- $sortie['sortie_salle'] = 'inconnue';
-
-
- // on récupère les restriction d'âge si il y a
- preg_match('#<span class="insist">(.*?)</span>#is', $recup, $age);
- $sortie['age'] = (empty($age)) ? $absent['age'] : trim(utf8_decode($age[1]));
-
-
- // on récupère l'année de production
- preg_match('#Ann..?e de production.*<a href=["\'][^>]+["\']>([0-9]+)</a>#isU', $recup, $annee_de_production);
- $sortie['annee_de_production'] = (empty($annee_de_production)) ? $absent['annee_de_production'] : trim(utf8_decode($annee_de_production[1]));
-
-
- return $sortie;
- }
- ?>
<?php
function allocine($allocine)
{
$absent = Array(
'titre_film' => 'inconnu',
'realisateur' => 'inconnu',
'acteur' => 'inconnu',
'long_metrage' => 'inconnu',
'synopsis' => 'inconnu',
'affiche' => './img/image_introuvable_films.jpg',
'duree' => 'inconnue',
'titre_vo' => 'inconnu',
'sortie_cinema' => 'inconnue',
'age' => 'inconnu',
'annee_de_production' => 'inconnue'
);
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, 'http://www.allocine.fr/film/fichefilm_gen_cfilm='.$allocine.'.html');
curl_setopt($curl, CURLOPT_POST, 1);
curl_setopt($curl, CURLOPT_POSTFIELDS, $post_data);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($curl, CURLOPT_NOBODY, FALSE);
$recup = curl_exec($curl);
curl_close($curl);
// on récupère le titre
preg_match('#<h1 property="v:itemreviewed">(.*?)</h1>#is', $recup, $titre_film);
$sortie['titre_film'] = (empty($titre_film)) ? $absent['titre_film'] : trim(utf8_decode(strip_tags($titre_film[0])));
// on réupère le nom du/des réalisateur(s)
preg_match('#<!-- End first block -->(.*?)</a>#is', $recup, $realisateur);
$sortie['realisateur'] = (empty($realisateur)) ? $absent['realisateur'] : trim(utf8_decode(strip_tags($realisateur[0])));
$sortie['realisateur'] = str_replace("\n", '', $sortie['realisateur']);
$sortie['realisateur'] = str_replace("\r", '', $sortie['realisateur']);
$sortie['realisateur'] = preg_replace('/\s\s+/', '', $sortie['realisateur']);
$sortie['realisateur'] = explode('par', $sortie['realisateur']);
$sortie['realisateur'] = trim($sortie['realisateur'][1]);
// on réupère le nom du/des acteur(s)
preg_match('#<!-- End first block -->(.*?)<!-- end paragraph for second block -->#is', $recup, $acteur);
$sortie['acteur'] = (empty($acteur)) ? $absent['acteur'] : trim($acteur[0]);
$sortie['acteur'] = preg_replace('#<p>(.*?)Avec#is', '', $sortie['acteur']);
$sortie['acteur'] = preg_replace('#plus</a>(.*?)</p>#is', '', $sortie['acteur']);
$sortie['acteur'] = strip_tags(utf8_decode(trim($sortie['acteur'])));
$sortie['acteur'] = str_replace("\n", '', $sortie['acteur']);
$sortie['acteur'] = str_replace("\r", '', $sortie['acteur']);
$sortie['acteur'] = preg_replace('/\s\s+/', '', $sortie['acteur']);
$sortie['acteur'] = substr($sortie['acteur'], 0, -1);
// on réupère le long-métrage du film
preg_match('#Long-m[^"]+trage(.*?)\.#is', $recup, $long_metrage);
$sortie['long_metrage'] = (empty($long_metrage)) ? $absent['long_metrage'] : strip_tags(utf8_decode(trim($long_metrage[1])));
$sortie['long_metrage'] = str_replace("\r", '', $sortie['long_metrage']);
$sortie['long_metrage'] = str_replace("\t", '', $sortie['long_metrage']);
$sortie['long_metrage'] = str_replace("\n", '', $sortie['long_metrage']);
// on récupère le synopsis
preg_match('#<span class="bold">Synopsis : </span>(.*?)</p>#is', $recup, $synopsis);
$synopsis[1] = str_replace("’", "'", $synopsis[1]);
$synopsis[1] = str_replace('…', '...', $synopsis[1]);
$synopsis[1] = str_replace('–', '-', $synopsis[1]);
$synopsis[1] = str_replace("\n", '', $synopsis[1]);
$synopsis[1] = str_replace('½', 'oe', $synopsis[1]);
$synopsis[1] = str_replace('”', '"', $synopsis[1]);
$synopsis[1] = str_replace('“', '"', $synopsis[1]);
$sortie['synopsis'] = (empty($synopsis)) ? $absent['synopsis'] : trim(utf8_decode($synopsis[1]));
// on récupère l'url de l'affiche
preg_match('#<img src=\'http://images.allocine.fr/r_160_214/(.*?)\'[^"]+alt="[^"]+"[^"]+title="[^"]+"[^"]+/>#is', $recup, $affiche);
$sortie['affiche'] = ($affiche[1] == 'http://images.allocine.fr/r_160_214/b_1_cfd7e1/commons/emptymedia/AffichetteAllocine.gif') ? $absent['affiche'] : 'http://images.allocine.fr/r_160_214/'.$affiche[1];
// on récupère la durée
preg_match_all('#[0-9]+h[0-9]+min#is', $recup, $duree);
$sortie['duree'] = (empty($duree[0][0])) ? $absent['duree'] : trim(str_replace(' min', '', utf8_decode($duree[0][0])));
// on récupère le titre original
preg_match('#Titre original : <span class="purehtml"><em>(.*?)</em></span>#is', $recup, $titre_vo);
$sortie['titre_vo'] = (empty($titre_vo)) ? $absent['titre_vo'] : trim(utf8_decode($titre_vo[1]));
// on récupere la date de sortie au cinéma
preg_match('#<a href="/film/agenda\.html\?week=(.*?)">(.*?)</a>#is', $recup, $sortie_cinema);
$sortie['sortie_cinema'] = (empty($sortie_cinema)) ? $absent['sortie_cinema'] : trim(utf8_decode($sortie_cinema[1]));
if($sortie['sortie_cinema'] != 'inconnue')
$sortie['sortie_salle_lien'] = 'http://www.allocine.fr/film/agenda.html?week='.$sortie_cinema[1];
else
$sortie['sortie_salle_lien'] = 'inconnue';
if($sortie['sortie_cinema'] != 'inconnue')
$sortie['sortie_salle'] = trim(utf8_decode($sortie_cinema[2]));
else
$sortie['sortie_salle'] = 'inconnue';
// on récupère les restriction d'âge si il y a
preg_match('#<span class="insist">(.*?)</span>#is', $recup, $age);
$sortie['age'] = (empty($age)) ? $absent['age'] : trim(utf8_decode($age[1]));
// on récupère l'année de production
preg_match('#Ann..?e de production.*<a href=["\'][^>]+["\']>([0-9]+)</a>#isU', $recup, $annee_de_production);
$sortie['annee_de_production'] = (empty($annee_de_production)) ? $absent['annee_de_production'] : trim(utf8_decode($annee_de_production[1]));
return $sortie;
}
?>
Conclusion
Je suis ouvert à toute modification, amélioration... etc
et pensez à enregistrer votre page en UTF-8 sans BOM
Historique
- 05 novembre 2010 21:27:42 :
- maj 5/11/2010 : le script ne parsé plus très bien certaines infos d'allocine, donc correction
- 01 décembre 2010 15:26:31 :
- allociné à modifier son code, donc maj :)
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
Parser xml en php [ par tahbre ]
Bonjour à tous, Je dois accéder à un fichier xml qui est sur un autre site ftp que le mien, et je veux réaliser un parser en php de façon à stocker l
Parser overture [ par yvain91 ]
Bonjour,J'aurai besoin, grace à une fonction php, de récupérer des résultats affichés sur la page d'overture de suggestion de mot clé(http://inventory
Problème avec les regex [PHP] [ par b4d ]
Bonjour.Voilà, j'ai un petit problème avec une regex...Je ne sais pas comment la faire.Pouvez-vous m'aider?Le problème:Je vais lire dan
Mod rewrite, regex et autres joyeuseries [ par zmc ]
Bonsoir,J'utilise actuellement de la redirection d'URL via .htaccess, aucun problemes jusqu'ici, par exemple "site.com/avis=xxxx" est redirigé vers "s
parser un fichier doc en php [ par kayoo ]
je n' arrive pas à parser un fichier de type word en php, le but est de réaliser un moteur de recherche sur le fichier .merci
parser une page html en php [ par rose2009 ]
J'ai besoin d'extraire des infos d'une page html pour les stocker dans une table MySQL et tout ca en PHP.Merci pour votre aide si vous avez une idee !
parser xml avec php(compatible php4 php5) [ par chezcodessources ]
Bonjour je veux parser un fichier xml avec xml et je sais pas quel serveur m'hebergera(php4 ou php5) donc je veux du php qui sera compatible 4 ou 5
Parser une chaine UTF8 en php [ par SuperChouquette ]
Bonjour, je ne parvient pas à "parser" une chaine en utf8. Chaque caractère à une largeur en pixel définie dans une table, et mon système passe une li
Regex... à plusieurs conditions [ par hdh ]
Bonjour Je voudrais utiliser une expression régulière dans une requète mysql pour ne selectionner que les tables qui m'intéressent... la base est bonn
comment recuperer le code source du parser allocine pour mettre sur mon site [ par supra80 ]
supra80 bonjour je viens de telecharger le parser allocine mais je ces pas comment il marche,je voudrais recuperer le code source pour le mettre sur m
|
Derniers Blogs
IMAGINE CUP 2012, MAKE A SIGN EN FINALEIMAGINE CUP 2012, MAKE A SIGN EN FINALE par junarnoalg
Voilà qui est fait, la nouvelle est officielle ! L'équipe belge "Make a Sign" va au pays des kangourous défendre son projet dans la catégorie Software Design. http://www.imaginecup.com/CompetitionsContent/Competition/WorldwideFinalists.aspx V...
Cliquez pour lire la suite de l'article par junarnoalg KINECT 1.5 IS OUT !KINECT 1.5 IS OUT ! par Vko
La version 1.5 du Kinect For Microsoft vient tout juste de sortir ! Plein de nouveautés: Tracking de squelette en Near Mode Détection en position assise Détection faciale avec un SDK dédié Documentation et des guideline (enfin) Un out...
Cliquez pour lire la suite de l'article par Vko LES ACTUALITéS DE LA SEMAINE SUR C2I.FR (14 MAI - 20 MAI) LES ACTUALITéS DE LA SEMAINE SUR C2I.FR (14 MAI - 20 MAI) par richardc
Mise à jour des Web API du 14 Mai
Réservez dès maintenant votre journée du 20 juin pour le Windows Azure Dev Camp 2012 à Paris
Mise à jour de Team Foundation Service
MechCommander 2 sur Windows 8
Entity Framework 5 Release Candidate e...
Cliquez pour lire la suite de l'article par richardc REACTIVE EXTENSIONS : CONSOMMER DES SERVICES AVEC RX PARTIE 3, LES PIèGES à éVITERREACTIVE EXTENSIONS : CONSOMMER DES SERVICES AVEC RX PARTIE 3, LES PIèGES à éVITER par Groc
Une mauvaise utilisation de rx lors de l'écriture d'une couche d'accès à des services peut conduire à des cas embarassants avec des erreurs mal gérées, des appels qui ne partent lorsqu'ils le devraient, et même des résultats incorrects . le tout nuis...
Cliquez pour lire la suite de l'article par Groc SHAREPOINT BLOG SITE, PROBLèME D'ARCHIVESSHAREPOINT BLOG SITE, PROBLèME D'ARCHIVES par junarnoalg
Dernièrement, nous avons migré le site
myTIC
vers un nouveau serveur SharePoint 2010. Dans les contenus que nous vouloins récupérer, nous avions un certain nombre de blogs.
Nous avons utilisé les commandes Power...
Cliquez pour lire la suite de l'article par junarnoalg
Logiciels
sDEVIS-FACTURES vlPRO (8.1.0.3)SDEVIS-FACTURES VLPRO (8.1.0.3)sDEVIS-FACTURES vlPRO a été mis au point pour les particuliers, créateurs, entrepreneurs, artisa... Cliquez pour télécharger sDEVIS-FACTURES vlPRO 974 Application Server (12.2.4.6)974 APPLICATION SERVER (12.2.4.6)Développez de puissantes applications dans un environnement de 'cloud computing', clusterisé, séc... Cliquez pour télécharger 974 Application Server vPicture (1.4.2.1)VPICTURE (1.4.2.1)Avec vPicture, hébergez vos images facilement et rapidement.
vPicture est un utilitaire simple, ... Cliquez pour télécharger vPicture Easy-Planning (2.2.1.6)EASY-PLANNING (2.2.1.6)Easy-Planning permet de créer des plannings sous la représentation de diagrammes et est adapté au... Cliquez pour télécharger Easy-Planning COM-BACKUP (2.0)COM-BACKUP (2.0)
COM-BACKUP est un logiciel de sauvegarde qui permet de planifier les sauvegardes de vos dossiers ...
Cliquez pour télécharger COM-BACKUP
|