Accueil > > > GOOGLE SEARCH PARSER
GOOGLE SEARCH PARSER
Information sur la source
Description
Un petit script qui permet d'intégrer le moteur de recherche google à son site sans passer par leur API... peut être très utile pour un intranet par exemple ;)
Source
- <?php
- /**
- * Google search parser est un module permettant d'afficher les résultats de recherche google sans passer par leur api
- * Réalisation : Nans Stefanini -> http://nans.stefanini.free.fr
- * Blog : http://www.22h22.fr
- */
-
-
- //renvoie une url longue raccourcie
- function ShortDisplayURLggp($FullPath,$MaxLenght=65)
- {
- If (strlen($FullPath) > $MaxLenght)
- {
- //Suppression des arguments et fragment si nécessaire
- if (strpos($FullPath,"#",0) > 0) $FullPath = substr($FullPath,0,strpos($FullPath,"#",0));
- if (strpos($FullPath,"?",0) > 0) $FullPath = substr($FullPath,0,strpos($FullPath,"?",0));
-
- If (strlen($FullPath) > $MaxLenght)
- {
- // Decompose l'URL
- $FullPathParsed=parse_url($FullPath);
- // Parties minimales
- $RootPath = $FullPathParsed['scheme'].'://'.$FullPathParsed['host'];
- // Slash de fin si dossier
- if (substr($FullPathParsed['path'],-1) == '/')
- {
- $FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1);
- $isFolder = TRUE;
- }
- else
- {
- $isFolder = FALSE;
- }
- $PathBaseName = basename($FullPathParsed['path']);
- $FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1*strlen($PathBaseName)-1);
- // Pas besoin de citer l'index
- if (($PathBaseName == 'index.html') OR ($PathBaseName == 'index.php') OR ($PathBaseName == 'index.php3'))
- {
- $FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1*strlen($PathBaseName)-1);
- $PathBaseName = basename($FullPathParsed['path']);
- $isFolder = TRUE;
- }
-
- if ($PathBaseName == '')
- {
- if (strlen($RootPath) > $MaxLenght) $RootPath = $FullPathParsed['scheme'].'://'.ShortDisplayHostggp($FullPathParsed['host'],$MaxLenght - strlen($FullPathParsed['scheme']) - 3);
-
- return $RootPath;
- }
- else if ($FullPathParsed['path'] == '')
- {
- return $RootPath.'/…/'.$PathBaseName;
- }
- else if ((strlen($RootPath)+strlen($PathBaseName)+3) >= $MaxLenght)
- {
- return $RootPath.'/…/'.$PathBaseName;
- }
- else
- {
- // Reduction du chemin
- while ((strlen($RootPath)+strlen($PathBaseName)+strlen($FullPathParsed['path'])+3) > $MaxLenght)
- {
- $FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1*strlen(basename($FullPathParsed['path']))-1);
- }
-
- if ($FullPathParsed['path'] == '')
- {
- return $RootPath.'/…/'.$PathBaseName;
- }
- else
- {
- return $RootPath.$FullPathParsed['path'].'/…/'.$PathBaseName;
- }
- }
- }
- Else
- {
- return $FullPath;
- }
-
- }
- Else
- {
- return $FullPath;
- }
- }
-
- function ShortDisplayHostggp($FullHost,$MaxLenght=80)
- {
- If (strlen($FullHost) > $MaxLenght)
- {
- if (substr_count($FullHost,'.') >= 2)
- {
- return $FullHost;
- }
- else if (substr_count($FullHost,'.') == 1)
- {
- $extension = substr($FullHost,strpos($FullHost,".",0));
- $FullHost = substr($FullHost,0,strpos($FullHost,".",0));
- $FullHost = substr($FullHost,0,10).'(…)'.substr($FullHost,-1*(10+3+1+strlen($extension))).'.'.$extension;
- }
- else
- {
- $FullHost = substr($FullHost,0,$MaxLenght-3).'(…)';
- }
- }
- else
- {
- return $FullHost;
- }
- }
-
- function ShortDisplayNameggp($FullName,$MaxLenght=50)
- {
- If (strlen($FullName) > $MaxLenght)
- {
- $FullName = substr($FullName,0,$MaxLenght-3).'(…)';
- return $FullName;
- }
- else
- {
- return $FullName;
- }
- }
-
- ?>
- <?php
-
-
-
-
- function googlesearch($req, $start='0',$lg='fr') {
-
- $index = @file_get_contents('http://www.google.fr/search?q='.urlencode($req).'&hl='.$lg.'&start='.$start);
- //echo 'http://www.google.fr/search?q='.urlencode($req).'&hl='.$lg.'&start='.$start;
- $index = str_replace ('<b>', '', $index);
- $index = str_replace ('</b>', '', $index);
-
- /*
- Résultats <b>1</b> - <b>10</b> sur un total d'environ <b>1 780</b> pour <b>cogestar</b> (<b>0,15</b> second
- Résultats <b>61</b> - <b>66</b> sur <b>66</b> pour <b>cogestar</b>. (<b>0,79</b> secondes) */
- // nombre de liens trouvés
- preg_match_all('%sur[\s]*(un total d\'environ)* (([0-9 ]*)*) pour%si', $index, $nbliens);
-
- /*
- echo '<pre>';
- print_r($nbliens);
- echo '</pre>';
-
- */
- $nblien = $nbliens[2][0];
- $nblien = str_replace (' ', '', $nblien);
-
-
- // si la requette ne retourne rien on quite la fonction
- if (!isset($nblien)) {
- return 'false';
- break;
- }
-
- preg_match_all('%\<div class=g\>(.*?)(\</div\>)%si', $index, $out);
-
-
- /*
- echo '<pre>';
- print_r($out);
- echo '</pre>';
- */
-
- $tabfin = array();
- foreach ($out[1] as $key => $value) {
-
- /*
- preg_match_all('%(\<h2 class=r.*\>)?(.*)?\</h2\>%si', $value, $out2);
-
- echo '<pre>';
- print_r($out2);
- echo '</pre>';
- */
-
- // description
- $q = '\<td class="j"\>.*(\>)(..*)\<br';
- // preg_match_all('%%si', $value, $out3);
-
-
- // liens et titre
- $p = '\<h2 class=r\>\<a href="(.*?)".*\>(..*)\</h2\>';
-
- // lien titre + description
- preg_match_all('%'.$p.'.*'.$q.'%si', $value, $out2);
-
- /*
- echo '<pre>';
- print_r($out2[1]);
- print_r($out2[2]);
- print_r($out2[4]);
- echo '</pre>';
- echo '<br /><br /><br />';
- */
-
- $tabfin[$key]['lien'] = $out2[1][0];
- $tabfin[$key]['titre'] = $out2[2][0];
- $tabfin[$key]['description'] = $out2[4][0];
- $tabfin[$key]['nbliens'] = $nblien;
-
- /*
- // pour rechercher les liens verts
- preg_match_all('%\<span class=a\s*\>\s*([-A-Z0-9+&@#/=~_|!:,.;\%]*)?.*(\</span\>)%si', $value, $out3);
- echo '<pre>';
- print_r($out3);
- echo '</pre>';
- */
-
-
- }
- /*
-
- */
-
- /*
- echo '<pre>';
- print_r($tabfin);
-
- echo '</pre>';
- echo '<br /><br /><br />';
- */
-
-
-
-
-
- return $tabfin ;
-
-
- }
-
-
-
-
- /* exemple de fonctionnement */
-
-
- ?>
- <form action="" method="get" >
- <input type="text" size="40" name="req" id="req" value="<?php if (isset ($_GET['req']) ){ echo $_GET['req'] ; }?>">
- <input type="submit" name="submit" value="Rechercher google" >
- </form>
- <script>
- document.getElementById("req").focus();
- </script>
- <?php
- if (!isset ($_GET['pagestartgg']) ){
- $_GET['pagestartgg'] = 0;
- }
-
- if (isset($_GET['req'])) {
-
- $tabgg = googlesearch($_GET['req'],$_GET['pagestartgg']);
-
- echo 'Résultats de votre recherche : ';
- echo '<a href="http://www.google.fr/search?q='.urlencode($_GET['req']).'&start='.$_GET['pagestartgg'].'" target="_blank">Voir sur google</a><br /><br />';
-
- foreach ($tabgg as $key => $value) {
- echo '<strong><a href="'.$value['lien'].'">'.$value['titre'].'</a></strong><br />'.$value['description'].'<br /><a href="'.$value['lien'].'">'.ShortDisplayURLggp($value['lien']).'</a><br /><br />';
- }
-
- $nbliens = $tabgg[0]['nbliens'];
- echo '<br />';
-
- // mise en place des pages
- $nbpage = round($nbliens/10);
- echo '<strong>'.$nbpage. ' pages </strong><br />';
-
- $ideb = ($_GET['pagestartgg']/10)-10 ;
- $ideb < 0 ? $ideb = 0: '';
- $page = ($_GET['pagestartgg']/10);
- //echo 'page '.($_GET['pagestartgg']/10).'<br />';
-
-
- $nbpage < $ideb ? $ideb = $nbpage : '';
- //echo 'ideb '.$ideb.'<br />';
-
- $ifin = $ideb + 15 ;
- $ifin > $nbpage ? $ifin = $nbpage : '';
-
- echo '<a href="?pagestartgg=0"><<</a> ';
- for ($i = $ideb; $i<=$ifin; $i++) {
- if ($page == $i) echo '<strong> ' ;
- echo '<a href="?pagestartgg='.($i*10).'&req='.urlencode($_GET['req']).'">'.($i+1).'</a> ';
- if ($page == $i) echo ' </strong>' ;
- }
- echo ' <a href="?pagestartgg='.$nbpage.'">>></a> ';
-
- }
- ?>
<?php
/**
* Google search parser est un module permettant d'afficher les résultats de recherche google sans passer par leur api
* Réalisation : Nans Stefanini -> http://nans.stefanini.free.fr
* Blog : http://www.22h22.fr
*/
//renvoie une url longue raccourcie
function ShortDisplayURLggp($FullPath,$MaxLenght=65)
{
If (strlen($FullPath) > $MaxLenght)
{
//Suppression des arguments et fragment si nécessaire
if (strpos($FullPath,"#",0) > 0) $FullPath = substr($FullPath,0,strpos($FullPath,"#",0));
if (strpos($FullPath,"?",0) > 0) $FullPath = substr($FullPath,0,strpos($FullPath,"?",0));
If (strlen($FullPath) > $MaxLenght)
{
// Decompose l'URL
$FullPathParsed=parse_url($FullPath);
// Parties minimales
$RootPath = $FullPathParsed['scheme'].'://'.$FullPathParsed['host'];
// Slash de fin si dossier
if (substr($FullPathParsed['path'],-1) == '/')
{
$FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1);
$isFolder = TRUE;
}
else
{
$isFolder = FALSE;
}
$PathBaseName = basename($FullPathParsed['path']);
$FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1*strlen($PathBaseName)-1);
// Pas besoin de citer l'index
if (($PathBaseName == 'index.html') OR ($PathBaseName == 'index.php') OR ($PathBaseName == 'index.php3'))
{
$FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1*strlen($PathBaseName)-1);
$PathBaseName = basename($FullPathParsed['path']);
$isFolder = TRUE;
}
if ($PathBaseName == '')
{
if (strlen($RootPath) > $MaxLenght) $RootPath = $FullPathParsed['scheme'].'://'.ShortDisplayHostggp($FullPathParsed['host'],$MaxLenght - strlen($FullPathParsed['scheme']) - 3);
return $RootPath;
}
else if ($FullPathParsed['path'] == '')
{
return $RootPath.'/…/'.$PathBaseName;
}
else if ((strlen($RootPath)+strlen($PathBaseName)+3) >= $MaxLenght)
{
return $RootPath.'/…/'.$PathBaseName;
}
else
{
// Reduction du chemin
while ((strlen($RootPath)+strlen($PathBaseName)+strlen($FullPathParsed['path'])+3) > $MaxLenght)
{
$FullPathParsed['path'] = substr($FullPathParsed['path'],0,-1*strlen(basename($FullPathParsed['path']))-1);
}
if ($FullPathParsed['path'] == '')
{
return $RootPath.'/…/'.$PathBaseName;
}
else
{
return $RootPath.$FullPathParsed['path'].'/…/'.$PathBaseName;
}
}
}
Else
{
return $FullPath;
}
}
Else
{
return $FullPath;
}
}
function ShortDisplayHostggp($FullHost,$MaxLenght=80)
{
If (strlen($FullHost) > $MaxLenght)
{
if (substr_count($FullHost,'.') >= 2)
{
return $FullHost;
}
else if (substr_count($FullHost,'.') == 1)
{
$extension = substr($FullHost,strpos($FullHost,".",0));
$FullHost = substr($FullHost,0,strpos($FullHost,".",0));
$FullHost = substr($FullHost,0,10).'(…)'.substr($FullHost,-1*(10+3+1+strlen($extension))).'.'.$extension;
}
else
{
$FullHost = substr($FullHost,0,$MaxLenght-3).'(…)';
}
}
else
{
return $FullHost;
}
}
function ShortDisplayNameggp($FullName,$MaxLenght=50)
{
If (strlen($FullName) > $MaxLenght)
{
$FullName = substr($FullName,0,$MaxLenght-3).'(…)';
return $FullName;
}
else
{
return $FullName;
}
}
?>
<?php
function googlesearch($req, $start='0',$lg='fr') {
$index = @file_get_contents('http://www.google.fr/search?q='.urlencode($req).'&hl='.$lg.'&start='.$start);
//echo 'http://www.google.fr/search?q='.urlencode($req).'&hl='.$lg.'&start='.$start;
$index = str_replace ('<b>', '', $index);
$index = str_replace ('</b>', '', $index);
/*
Résultats <b>1</b> - <b>10</b> sur un total d'environ <b>1 780</b> pour <b>cogestar</b> (<b>0,15</b> second
Résultats <b>61</b> - <b>66</b> sur <b>66</b> pour <b>cogestar</b>. (<b>0,79</b> secondes) */
// nombre de liens trouvés
preg_match_all('%sur[\s]*(un total d\'environ)* (([0-9 ]*)*) pour%si', $index, $nbliens);
/*
echo '<pre>';
print_r($nbliens);
echo '</pre>';
*/
$nblien = $nbliens[2][0];
$nblien = str_replace (' ', '', $nblien);
// si la requette ne retourne rien on quite la fonction
if (!isset($nblien)) {
return 'false';
break;
}
preg_match_all('%\<div class=g\>(.*?)(\</div\>)%si', $index, $out);
/*
echo '<pre>';
print_r($out);
echo '</pre>';
*/
$tabfin = array();
foreach ($out[1] as $key => $value) {
/*
preg_match_all('%(\<h2 class=r.*\>)?(.*)?\</h2\>%si', $value, $out2);
echo '<pre>';
print_r($out2);
echo '</pre>';
*/
// description
$q = '\<td class="j"\>.*(\>)(..*)\<br';
// preg_match_all('%%si', $value, $out3);
// liens et titre
$p = '\<h2 class=r\>\<a href="(.*?)".*\>(..*)\</h2\>';
// lien titre + description
preg_match_all('%'.$p.'.*'.$q.'%si', $value, $out2);
/*
echo '<pre>';
print_r($out2[1]);
print_r($out2[2]);
print_r($out2[4]);
echo '</pre>';
echo '<br /><br /><br />';
*/
$tabfin[$key]['lien'] = $out2[1][0];
$tabfin[$key]['titre'] = $out2[2][0];
$tabfin[$key]['description'] = $out2[4][0];
$tabfin[$key]['nbliens'] = $nblien;
/*
// pour rechercher les liens verts
preg_match_all('%\<span class=a\s*\>\s*([-A-Z0-9+&@#/=~_|!:,.;\%]*)?.*(\</span\>)%si', $value, $out3);
echo '<pre>';
print_r($out3);
echo '</pre>';
*/
}
/*
*/
/*
echo '<pre>';
print_r($tabfin);
echo '</pre>';
echo '<br /><br /><br />';
*/
return $tabfin ;
}
/* exemple de fonctionnement */
?>
<form action="" method="get" >
<input type="text" size="40" name="req" id="req" value="<?php if (isset ($_GET['req']) ){ echo $_GET['req'] ; }?>">
<input type="submit" name="submit" value="Rechercher google" >
</form>
<script>
document.getElementById("req").focus();
</script>
<?php
if (!isset ($_GET['pagestartgg']) ){
$_GET['pagestartgg'] = 0;
}
if (isset($_GET['req'])) {
$tabgg = googlesearch($_GET['req'],$_GET['pagestartgg']);
echo 'Résultats de votre recherche : ';
echo '<a href="http://www.google.fr/search?q='.urlencode($_GET['req']).'&start='.$_GET['pagestartgg'].'" target="_blank">Voir sur google</a><br /><br />';
foreach ($tabgg as $key => $value) {
echo '<strong><a href="'.$value['lien'].'">'.$value['titre'].'</a></strong><br />'.$value['description'].'<br /><a href="'.$value['lien'].'">'.ShortDisplayURLggp($value['lien']).'</a><br /><br />';
}
$nbliens = $tabgg[0]['nbliens'];
echo '<br />';
// mise en place des pages
$nbpage = round($nbliens/10);
echo '<strong>'.$nbpage. ' pages </strong><br />';
$ideb = ($_GET['pagestartgg']/10)-10 ;
$ideb < 0 ? $ideb = 0: '';
$page = ($_GET['pagestartgg']/10);
//echo 'page '.($_GET['pagestartgg']/10).'<br />';
$nbpage < $ideb ? $ideb = $nbpage : '';
//echo 'ideb '.$ideb.'<br />';
$ifin = $ideb + 15 ;
$ifin > $nbpage ? $ifin = $nbpage : '';
echo '<a href="?pagestartgg=0"><<</a> ';
for ($i = $ideb; $i<=$ifin; $i++) {
if ($page == $i) echo '<strong> ' ;
echo '<a href="?pagestartgg='.($i*10).'&req='.urlencode($_GET['req']).'">'.($i+1).'</a> ';
if ($page == $i) echo ' </strong>' ;
}
echo ' <a href="?pagestartgg='.$nbpage.'">>></a> ';
}
?>
Conclusion
Ce code parse le code html des résultats renvoyés par google sur une requette... donc le jour ou ils changeront radicalement de mise en page ça risque de ne plus fonctionner ... m'enfin je pense que c'est pas demain la veille :) Au debut du code deux trois fonctions qui ne sont pas de mo mais qui sont utiles pour la mise en page des url trop longues ;)
Historique
- 06 juin 2007 14:05:23 :
- credits
Sources du même auteur
Sources de la même categorie
Commentaires et avis
Discussions en rapport avec ce code source dans le forum
moteur de recherche google? [ par tremier_julien ]
ou puis-je trouver le code source du moteur de recherche google afin de l'intégrer dans mon site? Pouvez vous me donnez des indications Merci
moteur de recherche google [ par mariobotta ]
bonjour,j'ai intégré le formidable moteur de recherches de google sur mon site.Je voulais savoir si il y avait moyen d'afficher le résu
moteur de recherche : en dur, en php-mysql... ?? [ par hdh ]
Bonsoir ! Je suis en train de faire un site internet.... et pour aider l'internaute à trouver facilement l'info je voudrais mettre en place un mo
Paramètres via adresse [ par Galmiza ]
Salut,Quand on tape un mot dans google exemple "recherche", on est envoyé à une page nommée comme ci-dessous:http://www.google.fr/searc
Moteur de recherche pour mon site perso [ par benoyt ]
Bonjour à tous et à toute, je n'arrive pas à trouver un moteur de recherche pour mettre sur mon site. En fait mon site, parle de livre,
moteur de recherche [ par el_bassir ]
j'aimerai realiser un moteur de recherche interne, vous allez dire que c simple, mais l probleme c k j vx qu'a chaque fois que j tappe ou j supprime u
Recherche par critère ou reccherche flou [ par pbreaker ]
Bonjour, Je suis en galère pour un moteur de recherche, en fait mon problème consiste a afficher des resultats d'une requete de ce moteur ma
de l'aide pour un moteur de recherche [ par maurimaure ]
Bonjour, Je voudrais développer un moteur de recherche pour un site internet qui contient deux partie : 1-partie dynamyque (BDD MySql) 2-partie statiq
help! pb moteur de recherche sur bd [ par frenchyie ]
Salut à tous,Suis novice sur php, on peut dire que je bidouille...je bugs pour faire un moteur de recherche basé sur ma base de donnée, simple en appa
recherche web avec google comme 01net.com [ par astuces_jeux ]
bonjour je cherche comment faire une recherche sur le web comme 01net.com avec google <A href="
|
Derniers Blogs
GESTION D'EXCEPTION AVEC LES TASKSGESTION D'EXCEPTION AVEC LES TASKS par richardc
Nous avons vu dans un précédent article comment utiliser Task pour effectuer des opérations dans un autre thread.
Malheureusement, comme tout le monde n'est pas parfait, il se peut que cette exécution se passe mal et qu'une exception se produise.
La...
Cliquez pour lire la suite de l'article par richardc DéMARRONS AVEC LES TASKSDéMARRONS AVEC LES TASKS par richardc
Que vous le vouliez ou non, le développement multi-tâche est maintenant une obligation pour toute nouvelle application. Il est donc vital d'en comprendre les mécanismes et de s'y mettre le plus tôt possible.
En attendant le .NET Framework 4.5 avec le...
Cliquez pour lire la suite de l'article par richardc SLIDE & DéMO TECHDAYS 2012 - FAST & FURIOUS XAML APPSSLIDE & DéMO TECHDAYS 2012 - FAST & FURIOUS XAML APPS par Vko
Retrouvez les slides et les démo de ma session Fast & Furious XAML Apps. A ceux qui se posent la question : "est-ce que le code de la DataGrid est disponible?", je vous répondrais "pas encore". Je vais mettre en place un projet codeplex pour part...
Cliquez pour lire la suite de l'article par Vko XNA IS DEAD!XNA IS DEAD! par richardc
Depuis la semaine dernière (et grâce aux TechDays 2012), je me penche activement sur la nouvelle version de Windows, aka Windows 8. Vous me direz, il était temps puisque la première preview date de Septembre dernier.
OK. Remarquez, on n'en est qu'aux...
Cliquez pour lire la suite de l'article par richardc TECHDAYS PARIS 2012 : WINDOWS SERVER "8" QUOI DE 9 !TECHDAYS PARIS 2012 : WINDOWS SERVER "8" QUOI DE 9 ! par ROMELARD Fabrice
Speakers: Fabrice Meillon et Stanislas Quastana Cette session est basée entièrement sur celle donnée lors de la BUILD cet hiver. Il n'y a pas d'ajout d'information en rapport avec cet évènement passé. Windows 8 Server sera intégralem...
Cliquez pour lire la suite de l'article par ROMELARD Fabrice
Forum
CHAMPS TIMECHAMPS TIME par vargas
Cliquez pour lire la suite par vargas
Logiciels
DocTranslate (V3.1.0.0)DOCTRANSLATE (V3.1.0.0)DocTranslate est un traducteur de document Microsoft Word, PowerPoint et Excel. Il permet d'autom... Cliquez pour télécharger DocTranslate Tribler (2012)TRIBLER (2012)Tribler est un client pair à pair (P2P/Peer-to-Peer) open source avec la capacité de regarder des... Cliquez pour télécharger Tribler OneSwarm (2012)ONESWARM (2012)Le peer-to-peer qui protège votre vie privée, c'est OneSwarm.
Ce logiciel de peer-to-peer crypté... Cliquez pour télécharger OneSwarm PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA TV DEVIENS HELLLOOO FLASH
LA TV SUR VOTRE ORDINATEUR.
Toute une plateforme Multi... Cliquez pour télécharger PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO Academy System (17.2.1.0)ACADEMY SYSTEM (17.2.1.0)Logiciel de gestion des établissements.
- élèves/étudiants (inscription, dossier, absence...)
-... Cliquez pour télécharger Academy System
|