PROJET AUTOBLOG


Warrior du Dimanche

Site original : Warrior du Dimanche

⇐ retour index

Googol, des hoooo et des Bahhh...

vendredi 31 mai 2019 à 18:29

Certains peuvent s'interroger sur le fait que googol cesse parfois tout bonnement de fonctionner... Et bien c'est simplement dû au fait que Google transforme sa page. Parfois complètement. Du coup la regex de parsage ne fait plus son taf. Mais quand il faut cibler des données sur leur page, faut voir à quoi on se heurte:


 <div class="ZINbbc xpd O9g5cc uUPGi">
   <div>
    <div class="jfp3ef">
     <a href="https://google.fr/url?q=https://trendy.letudiant.fr/tests-et-quiz.html&sa=U&ved=2ahUKEwjSntHNjsbiAhVCA4gKHWpRARwQFjAGegQIZBAB&usg=AOvVaw2mXT_9o0gy-P8Mb8zpR-pZ">
      <div class="BNeawe vvjwJb AP7Wnd">
       500 tests et quizz gratuits en ligne : personnalité, psycho et culture ...
      </div>
      <div class="BNeawe UPmit AP7Wnd">
       https://trendy.letudiant.fr › tests-et-quiz
      </div></a>
    </div>
    <div class="NJM3tb"></div>
    <div class="jfp3ef">
     <div>
      <div class="BNeawe s3v9rd AP7Wnd">
       <div>
        <div>
         <div class="BNeawe s3v9rd AP7Wnd">
          Psycho, sexo, love : tous nos tests et quiz pour en découvrir plus sur ta personnalité !
         </div>
        </div>
       </div>
      </div>
     </div>
    </div>
   </div>
  </div>

C'est pas beau ces noms de classe ? Ça sent les classes aléatoires dont les noms sont générés en début de session, ou bien je suis parano ?!

Pour cibler ça, surtout de façon pérenne, bonjour.

J'ai réfléchi à la solution d'un parseur xml mais bon:

  1. lesdits parseurs se foutent en PLS quand on leur file à bouffer une page google
  2. ce sera fatalement moins rapide et moins concis qu'avec une bonne regex bien faite (qui renvoie des données presqu'immédiatement utilisables)
  3. ça ne résoudra pas le problème de changement de contenu de la page.

    parseur et google

    Donc, je réfléchis à une alternative viable qui évite de remplacer l'url en dur dans le code... un fichier ini, peut-être ? En même temps, une fois sur deux changer la regex ne suffit pas, il y a une ou deux retouches de code à faire...

Et là, je vous parle même pas de la page images dans laquelle les liens vers les images semblent ... avoir disparu.

fontchier

[EDIT] Pour les images, ils utilisent de l'ajax, ce qui explique la disparition des images «en dur» exemple de requête (attention, ça pique): www.google.fr/async/imgrc?ei=YVTxXIPULPWj1fAP0Z-EwAM&hl=fr&yv=3&iact=rc&ved=0ahUKEwjDiMGulsbiAhX1URUIHdEPATgQMwhOKAMwAw&vet=10ahUKEwjDiMGulsbiAhX1URUIHdEPATgQMwhOKAMwAw..i&imgrt=0&q=test&imgurl=https://www.uhs.umich.edu/files/uhs/field/image/TEST.jpg&imgrefurl=https://www.uhs.umich.edu/testanxiety&tbnid=_Kh4MPtGrJjSRM:&docid=j4YSDljFZKmg5M&uact=3&ictx=1&csi=VJS.0,VOS.5&ri=3&bih=747&biw=1600&imgdii=_Kh4MPtGrJjSRM:&tbm=isch&tbs=&imgwo=1526&land=1&async=cidx:0,saved:0,iu:0,lp:0,_fmt:prog,_id:irc_imgrc0

Voilà... Je vais devoir me lancer dans de l'ajax... tant qu'à faire, je vais reprendre un peu le code et l'améliorer.

alt

<link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/style.css"/> <link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.css"/> <script src="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.js"> <script>[].forEach.call(document.querySelectorAll("[lightbox]"), function(el) { el.lightbox = new Lightbox(el);});

► Commentaires

Citation d'actualité...

vendredi 31 mai 2019 à 13:45

«L’homme est un animal docile, malléable. On le conduit facilement où l’on veut, on peut le persuader d’à peu près n’importe quoi. Son envie de croire est si grande qu’il en devient une proie facile pour le langage hypocrite des politiciens et des leaders religieux. Pour mettre un terme à la violence, je ne vois qu’une seule solution : enseigner à nos semblables une méthode facile qui leur permettra de déjouer la rhétorique mensongère de leurs dirigeants.» Rees, Rod

... voilà.

<link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/style.css"/> <link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.css"/> <script src="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.js"> <script>[].forEach.call(document.querySelectorAll("[lightbox]"), function(el) { el.lightbox = new Lightbox(el);});

► Commentaires

A Python tool to export annotations and highlights from a Kobo SQLite file

vendredi 31 mai 2019 à 13:33

Marche super bien ! \o/

<link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/style.css"/> <link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.css"/> <script src="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.js"> <script>[].forEach.call(document.querySelectorAll("[lightbox]"), function(el) { el.lightbox = new Lightbox(el);});

► Commentaires

Décalage horaire entre Windows et Linux en dual-boot – Blog Libre

jeudi 30 mai 2019 à 18:55

«On peut régler le problème du côté Windows ou Linux, je vous propose Linux évidemment : timedatectl --adjust-system-clock set-local-rtc 1. On vérifie ensuite qu’on a bien RTC in local TZ: yes en faisant timedatectl. »

Merci Cascador!

<link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/style.css"/> <link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.css"/> <script src="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.js"> <script>[].forEach.call(document.querySelectorAll("[lightbox]"), function(el) { el.lightbox = new Lightbox(el);});

► Commentaires

Nubia met un ventilateur dans son smartphone Red Magic 3

mercredi 29 mai 2019 à 10:52
./plugins//WDDWebLinks/default_image.jpg

Surenchère dans le nombre de ventilateurs de smartphone dans 5...4...3...

<link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/style.css"/> <link rel="stylesheet" href="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.css"/> <script src="http://www.warriordudimanche.net/./plugins/Galart/assets/lightbox.js"> <script>[].forEach.call(document.querySelectorAll("[lightbox]"), function(el) { el.lightbox = new Lightbox(el);});

► Commentaires