Accueil > > > EXTRACTION DE LIENS AVANCÉE
EXTRACTION DE LIENS AVANCÉE
Information sur la source
Description
Cette source complète la suivante : http://www.phpcs.com/code.aspx?ID=13443 mais permet surtout d'exploiter directement (création d'un tableau) les liens avec quelques options de formattage et de filtrage.
Source
- <?php
- /**
- * FReD - derfum@free.fr
- * Extraction de liens
- * renvoie un tableau associatif multidimentionnel
- * contenant l'adresse cible et le contenu de la balise
- * ou faux si erreur ou aucun lien
- *
- * Options (Somme pour combiner les options) :
- * - 0: aucune
- * - 2: Trier le tableau par contenu (tri par position par défaut)
- * - 4: Trier par contenu et dédoublonner
- * - 8: Supprimer les liens scripts (javascript:)
- * - 16: Supprimer les liens email (mailto:)
- * - 32: Supprimer les ancres locales (#)
- * - 64: Supprimer les liens locaux
- * - 128: Simplifier les images
- */
- function ExtractLien($PFichier, $POptions = 0)
- {
- if (!is_file($PFichier)) {
- echo 'Erreur : Le parametre n\'est pas un fichier';
- return false;
- }
- $LReturn = array();
- $LFichier = implode('', file($PFichier));
- preg_match_all('%<a (.*?)href=("|\')(.+?)("|\')(.*?)>(.+?)</a>%i', $LFichier, $LMatch, PREG_SET_ORDER);
- if ($POptions >= 128) { // Simplification images
- $POptions -= 128; $POpImg = true;
- } else $POpImg = false;
- if ($POptions >= 64) { // suppression des locaux
- $POptions -= 64; $POpLoc = true;
- } else $POpLoc = false;
- if ($POptions >= 32) { // suppression des ancres
- $POptions -= 32; $POpA = true;
- } else $POpLoc = false;
- if ($POptions >= 16) { // suppression des mailto:
- $POptions -= 16; $POpLien = true;
- } else $POpLien = false;
- if ($POptions >= 8) { // suppression des javscript:
- $POptions -= 8; $POpJS = true;
- } else $POpJS = false;
-
- foreach($LMatch as $LLiens) {
- if ($POpImg && preg_match('/^<img (.*)src=("|\')(.+?)("|\')/i', $LLiens[6], $LImg)) {
- $LLiens[6] = '[IMAGE : ' . $LImg[3] . ']';
- }
- if ($POpA && $LLiens[3]{0} == '#') continue;
- if ($POpLien && substr($LLiens[3], 0, 7) == 'mailto:') continue;
- if ($POpJS && substr($LLiens[3], 0, 11) == 'javascript:') continue;
- if ($POpLoc && strstr($LLiens[3], ':') === false) continue;
- $LReturn[] = array($LLiens[6], $LLiens[3]);
- }
- unset($LMatch);
- if ($LCount = count($LReturn)) {
- if ($POptions >= 2) { // Tri
- $POptions -= 2;
- array_multisort($LReturn);
- }
- if ($POptions >= 2) { // Dedoublonnage : array_unique ne marche pas...
- $POptions -= 2;
- if ($LCount > 1) {
- $LTemp = $LReturn[0]; // Existe obligatoirement
- for($i = 1;$i <= $LCount;$i++) {
- if ($LReturn[$i] == $LTemp) {
- unset($LReturn[$i]);
- } else {
- $LTemp = $LReturn[$i];
- }
- }
- sort($LReturn); // Permet de reindexer le tableau
- }
- }
- return $LReturn;
- } else return false; //Pas de lien
- }
- /**
- * Formatte un tableau en liste de liens
- */
- function FormatLien($PTableau)
- {
- $LReturn = '<ul>';
- foreach($PTableau as $LLiens) {
- $LReturn .= '<li><a href="' . $LLiens[1] . '">' . $LLiens[0] . ' [' . $LLiens[1] . ']</a></li>';
- }
- return $LReturn . '</ul>';
- }
- ?>
<?php
/**
* FReD - derfum@free.fr
* Extraction de liens
* renvoie un tableau associatif multidimentionnel
* contenant l'adresse cible et le contenu de la balise
* ou faux si erreur ou aucun lien
*
* Options (Somme pour combiner les options) :
* - 0: aucune
* - 2: Trier le tableau par contenu (tri par position par défaut)
* - 4: Trier par contenu et dédoublonner
* - 8: Supprimer les liens scripts (javascript:)
* - 16: Supprimer les liens email (mailto:)
* - 32: Supprimer les ancres locales (#)
* - 64: Supprimer les liens locaux
* - 128: Simplifier les images
*/
function ExtractLien($PFichier, $POptions = 0)
{
if (!is_file($PFichier)) {
echo 'Erreur : Le parametre n\'est pas un fichier';
return false;
}
$LReturn = array();
$LFichier = implode('', file($PFichier));
preg_match_all('%<a (.*?)href=("|\')(.+?)("|\')(.*?)>(.+?)</a>%i', $LFichier, $LMatch, PREG_SET_ORDER);
if ($POptions >= 128) { // Simplification images
$POptions -= 128; $POpImg = true;
} else $POpImg = false;
if ($POptions >= 64) { // suppression des locaux
$POptions -= 64; $POpLoc = true;
} else $POpLoc = false;
if ($POptions >= 32) { // suppression des ancres
$POptions -= 32; $POpA = true;
} else $POpLoc = false;
if ($POptions >= 16) { // suppression des mailto:
$POptions -= 16; $POpLien = true;
} else $POpLien = false;
if ($POptions >= 8) { // suppression des javscript:
$POptions -= 8; $POpJS = true;
} else $POpJS = false;
foreach($LMatch as $LLiens) {
if ($POpImg && preg_match('/^<img (.*)src=("|\')(.+?)("|\')/i', $LLiens[6], $LImg)) {
$LLiens[6] = '[IMAGE : ' . $LImg[3] . ']';
}
if ($POpA && $LLiens[3]{0} == '#') continue;
if ($POpLien && substr($LLiens[3], 0, 7) == 'mailto:') continue;
if ($POpJS && substr($LLiens[3], 0, 11) == 'javascript:') continue;
if ($POpLoc && strstr($LLiens[3], ':') === false) continue;
$LReturn[] = array($LLiens[6], $LLiens[3]);
}
unset($LMatch);
if ($LCount = count($LReturn)) {
if ($POptions >= 2) { // Tri
$POptions -= 2;
array_multisort($LReturn);
}
if ($POptions >= 2) { // Dedoublonnage : array_unique ne marche pas...
$POptions -= 2;
if ($LCount > 1) {
$LTemp = $LReturn[0]; // Existe obligatoirement
for($i = 1;$i <= $LCount;$i++) {
if ($LReturn[$i] == $LTemp) {
unset($LReturn[$i]);
} else {
$LTemp = $LReturn[$i];
}
}
sort($LReturn); // Permet de reindexer le tableau
}
}
return $LReturn;
} else return false; //Pas de lien
}
/**
* Formatte un tableau en liste de liens
*/
function FormatLien($PTableau)
{
$LReturn = '<ul>';
foreach($PTableau as $LLiens) {
$LReturn .= '<li><a href="' . $LLiens[1] . '">' . $LLiens[0] . ' [' . $LLiens[1] . ']</a></li>';
}
return $LReturn . '</ul>';
}
?>
Conclusion
La fonction FormatLien est juste l'exemple le plus simple d'utilisation du tableau retourné.
Sources du même auteur
Sources de la même categorie
Commentaires et avis
|
Derniers Blogs
GESTION D'EXCEPTION AVEC LES TASKSGESTION D'EXCEPTION AVEC LES TASKS par richardc
Nous avons vu dans un précédent article comment utiliser Task pour effectuer des opérations dans un autre thread.
Malheureusement, comme tout le monde n'est pas parfait, il se peut que cette exécution se passe mal et qu'une exception se produise.
La...
Cliquez pour lire la suite de l'article par richardc DéMARRONS AVEC LES TASKSDéMARRONS AVEC LES TASKS par richardc
Que vous le vouliez ou non, le développement multi-tâche est maintenant une obligation pour toute nouvelle application. Il est donc vital d'en comprendre les mécanismes et de s'y mettre le plus tôt possible.
En attendant le .NET Framework 4.5 avec le...
Cliquez pour lire la suite de l'article par richardc SLIDE & DéMO TECHDAYS 2012 - FAST & FURIOUS XAML APPSSLIDE & DéMO TECHDAYS 2012 - FAST & FURIOUS XAML APPS par Vko
Retrouvez les slides et les démo de ma session Fast & Furious XAML Apps. A ceux qui se posent la question : "est-ce que le code de la DataGrid est disponible?", je vous répondrais "pas encore". Je vais mettre en place un projet codeplex pour part...
Cliquez pour lire la suite de l'article par Vko XNA IS DEAD!XNA IS DEAD! par richardc
Depuis la semaine dernière (et grâce aux TechDays 2012), je me penche activement sur la nouvelle version de Windows, aka Windows 8. Vous me direz, il était temps puisque la première preview date de Septembre dernier.
OK. Remarquez, on n'en est qu'aux...
Cliquez pour lire la suite de l'article par richardc TECHDAYS PARIS 2012 : WINDOWS SERVER "8" QUOI DE 9 !TECHDAYS PARIS 2012 : WINDOWS SERVER "8" QUOI DE 9 ! par ROMELARD Fabrice
Speakers: Fabrice Meillon et Stanislas Quastana Cette session est basée entièrement sur celle donnée lors de la BUILD cet hiver. Il n'y a pas d'ajout d'information en rapport avec cet évènement passé. Windows 8 Server sera intégralem...
Cliquez pour lire la suite de l'article par ROMELARD Fabrice
Forum
CHAMPS TIMECHAMPS TIME par vargas
Cliquez pour lire la suite par vargas
Logiciels
DocTranslate (V3.1.0.0)DOCTRANSLATE (V3.1.0.0)DocTranslate est un traducteur de document Microsoft Word, PowerPoint et Excel. Il permet d'autom... Cliquez pour télécharger DocTranslate Tribler (2012)TRIBLER (2012)Tribler est un client pair à pair (P2P/Peer-to-Peer) open source avec la capacité de regarder des... Cliquez pour télécharger Tribler OneSwarm (2012)ONESWARM (2012)Le peer-to-peer qui protège votre vie privée, c'est OneSwarm.
Ce logiciel de peer-to-peer crypté... Cliquez pour télécharger OneSwarm PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO (V8.4)PONAMEDIA TV DEVIENS HELLLOOO FLASH
LA TV SUR VOTRE ORDINATEUR.
Toute une plateforme Multi... Cliquez pour télécharger PONAMEDIA PREMIUM - HELLLOOO FLASH DEMO Academy System (17.2.1.0)ACADEMY SYSTEM (17.2.1.0)Logiciel de gestion des établissements.
- élèves/étudiants (inscription, dossier, absence...)
-... Cliquez pour télécharger Academy System
|