PROJET AUTOBLOG


Korben

source: Korben

⇐ retour index

Quand les robots humanoïdes se font pirater en 1 minute via Bluetooth

mercredi 24 décembre 2025 à 18:28

Vous vous souvenez de ces robots chiens et humanoïdes Unitree qu'on voit partout sur les réseaux depuis quelques mois ? Hé bien des chercheurs en sécurité viennent de découvrir qu'on pouvait les pirater en moins d'une minute, sans même avoir besoin d'un accès internet. Et le pire, c'est que la faille est tellement débile qu'elle en devient presque comique.

Lors de la conférence GEEKCon à Shanghai, l'équipe de DARKNAVY a fait une démonstration qui fait froid dans le dos. L'expert Ku Shipei a pris le contrôle d'un robot humanoïde Unitree G1 (quand même 100 000 yuans, soit environ 14 000 balles) en utilisant uniquement des commandes vocales et une connexion Bluetooth. Après environ une minute de manipulation, l'indicateur lumineux sur la tête du robot est passé du bleu au rouge, il a alors cessé de répondre à son contrôleur officiel, puis sous les ordres de Ku, il s'est précipité vers un journaliste en balançant son poing.

Sympa l'ambiance.

En fait, le problème vient de la façon dont ces robots gèrent leur configuration Wi-Fi via Bluetooth Low Energy (BLE). Quand vous configurez le réseau sur un robot Unitree, il utilise le BLE pour recevoir le nom du réseau et le mot de passe, sauf que ce canal ne filtre absolument pas ce que vous lui envoyez. Vous pouvez donc injecter des commandes directement dans les champs SSID ou mot de passe avec le pattern « ;$(cmd);# », et hop, exécution de code en tant que root.

Et le truc encore plus dingue, c'est que tous les robots Unitree partagent la même clé AES codée en dur pour chiffrer les paquets de contrôle BLE, donc si vous avez cracké un G1, vous avez cracké tous les G1, H1, Go2 et B2 de la planète. Et là vous allez me dire : Et la sécurité du handshake ? Hé bien elle vérifie juste si la chaîne contient « unitree » comme secret. Bravo les gars ^^.

Du coup, la vulnérabilité devient wormable, c'est à dire qu'un robot infecté peut scanner les autres robots Unitree à portée Bluetooth et les compromettre automatiquement à son tour, créant ainsi un botnet de robots qui se propage sans intervention humaine. Imaginez ça dans un entrepôt avec 50 robots !! Le bordel que ça serait...

Moi ce qui m'inquiète avec ces robots, c'est l'architecture d'exfiltration de données car le G1 est équipé de caméras Intel RealSense D435i, de 4 microphones et de systèmes de positionnement qui peuvent capturer des réunions confidentielles, photographier des documents sensibles ou cartographier des locaux sécurisés. Et tout ça peut être streamé vers des serveurs externes sans que vous le sachiez surtout que la télémétrie est transmise en continu vers des serveurs en Chine... Vous voyez le tableau.

En avril 2025 déjà, des chercheurs avaient trouvé une backdoor non documentée dans le robot chien Go1 qui permettait un contrôle à distance via un tunnel réseau et l'accès aux caméras, donc c'est pas vraiment une surprise que les modèles plus récents aient des problèmes similaires, hein ?

J'imagine que certains d'entre vous bidouillent des robots avec Raspberry Pi ou Arduino, alors si vous voulez pas finir avec un robot qui part en freestyle, y'a quelques trucs à faire. Déjà, pour la config Wi-Fi via BLE, ne passez jamais le SSID et le mot de passe en clair mais utilisez un protocole de dérivation de clé comme ECDH pour établir un secret partagé. Et surtout validez et sanitisez toutes les entrées utilisateur avant de les balancer dans un shell.

Et puis changez les clés par défaut, car ça paraît con mais c'est le problème numéro un. Générez des clés uniques par appareil au premier boot ou lors de l'appairage. Vous pouvez stocker ça dans l'EEPROM de l'Arduino ou dans un fichier protégé sur le Pi.

Pensez aussi à isoler vos robots sur un réseau dédié... Si vous utilisez un Pi, créez un VLAN séparé et bloquez tout trafic sortant non autorisé avec iptables. Comme ça, même si un robot est compromis, il ne pourra pas exfiltrer de données ni attaquer d'autres machines.

Ah et désactivez aussi le Bluetooth quand vous n'en avez pas besoin ! Sur un Pi, ajoutez « dtoverlay=disable-bt » dans /boot/config.txt et sur Arduino, c'est encore plus simple, si vous utilisez pas le BLE, ne l'incluez pas dans votre projet.

Bref, ces robots sont de vrais chevaux de Troie ambulants. Ils ont des capteurs, des caméras, des micros, et maintenant ils peuvent être compromis par n'importe qui à portée de Bluetooth... Donc si vous bossez sur des projets robotiques, prenez le temps de sécuriser vos communications sans fil avant de vous retrouver avec un robot qui décide de vous tuer !! Et bookmarkez ce lien car c'est là où je mets toutes mes meilleures news robotiques !

Et si vous êtes encore en train de lire mes articles à cette heure-ci, je vous souhaite un excellent Noël !

Source

Comment les IA se nourrissent de livres piratés ?

mercredi 24 décembre 2025 à 17:27

Bibliotik ça vous parle ou pas ? C'est un tracker torrent privé ultra-discret comme il y en a tant d'autres, où les fans de lecture vont chopper leurs ePubs.

Hé bien figurez-vous que Meta, Bloomberg, et toute une brochette de géants de la tech ont fait exactement pareil pour entraîner leurs IA. Sauf qu'eux, c'était pas pour lire du Stephen King au lit, mais pour aspirer 195 000 livres d'un coup et les transformer en "données d'entraînement".

Le dataset s'appelle Books3, et c'est un peu le Napster des LLMs. Créé en 2020 par un chercheur IA nommé Shawn Presser, ce jeu de données de 37 Go compressés contient des bouquins scrapés directement depuis la bibliothèque pirate Bibliotik. L'idée de Presser était plutôt noble à la base puisqu'il voulait démocratiser l'accès aux données d'entraînement pour que les petits labos puissent rivaliser avec OpenAI et leurs mystérieux datasets "Books1" et "Books2" dont personne ne connaît le contenu.

Sauf que Books3 a fini par être intégré dans The Pile , un gros dataset de 825 Go créé par EleutherAI, et là ça a pris des proportions industrielles... Meta l'a utilisé pour entraîner LLaMA, Bloomberg pour BloombergGPT, et des dizaines d'autres projets. Le problème, c'est que ça contient des livres protégés par le copyright tels que des romans de Sarah Silverman, de George R.R. Martin, et même le bouquin de John Carreyrou sur Theranos, "Bad Blood". D'ailleurs Carreyrou vient de porter plainte avec d'autres auteurs contre six géants de l'IA dont Anthropic, Google, OpenAI, Meta, xAI et Perplexity.

Et comme vous vous en doutez, la défense de toutes ces entreprises c'est le fameux "fair use" des américains. En gros, ils disent que transformer des livres en vecteurs mathématiques pour qu'une IA apprenne à écrire, c'est pas du vol, c'est de l'apprentissage. Un peu comme quand vous lisez 500 bouquins et que ça influence votre style d'écriture. Sauf que vous, vous payez vos livres et vous avez un cerveau biologique alors que ces IA, elles, aspirent tout le web sans demander la permission à personne.

Et en juin dernier, deux juges californiens ont, sans surprise, tranché en faveur d'Anthropic et Meta sur certains points. Ils ont considéré que l'utilisation de livres protégés pour entraîner des modèles comme Claude ou Llama 2 pouvait constituer un usage "spectaculairement transformatif" donc légal. Par contre, télécharger les bouquins depuis des sites pirates, ça reste illégal... Bref, vous pouvez utiliser le butin, mais pas le voler vous-même...

De son côté, le sénateur américain Hawley n'a pas mâché ses mots en parlant du "plus grand vol de propriété intellectuelle de l'histoire américaine" et quand on voit que les auteurs ont touché environ 3000 dollars chacun dans le règlement de 1,5 milliard de dollars proposé par Anthropic alors que ces boîtes génèrent des milliards de revenus, je peux comprendre l'énervement.

Mais le pire, c'est qu'il existe des datasets alternatifs 100% légaux, ouverts, et utilisables sans risquer un procès !! J'ai par exemple découvert Common Corpus , et je kiffe le concept. C'est un projet coordonné par Pleias, une startup française, avec le soutien de HuggingFace, du Ministère de la Culture et de l'AI Alliance et ce dataset contient 500 milliards de mots, dont 180 milliards en anglais et 110 milliards en français.

Mais alors d'où viennent ces données légales ?

Hé bien du domaine public uniquement. Ce sont des millions de journaux américains qui ont été numérisés via le projet Chronicling America, des collections de patrimoine culturel, des monographies historiques...etc. Et tout a été vérifié pour s'assurer que les droits d'auteur sont bien expirés.. Donc dedans, y'a pas de livres piratés, ce qui veut dire pas de procès potentiels...etc.

Y'a aussi le dataset Dolma avec ses 3 trillions de tokens créé par l'Allen AI Institute, ou encore RedPajama qui atteint les 30 trillions de tokens, et ces projets sont open source avec tout le processus de construction documenté donc vous pouvez les auditer, les refaire, et les vérifier, contrairement aux datasets proprio où on vous dit "faites-nous confiance, on a rien fait de mal, hihihi".

Mais même si tout ces trucs open source ont l'air cool, le problème, c'est que personne (ou presque) ne les utilise parce que les vieux livres du domaine public, ça parle comme Molière ou Victor Hugo. Le vocabulaire est archaïque, les tournures de phrases sont datées... on dirait une discussion sur l'oreiller du couple Macron. Et vous l'aurez compris, un LLM entraîné là-dessus va avoir tendance à vous pondre du texte qui sent la naphtaline, alors que les livres modernes piratés, quand à eux, c'est du langage contemporain, des dialogues naturels, des références actuelles...etc.

C'est donc ça le dilemme... Choisir entre éthique ou performance. Les chercheurs de Mozilla et EleutherAI ont publié en janvier 2025 un papier sur les bonnes pratiques pour créer des datasets ouverts , et ils admettent eux-mêmes que c'est compliqué car les métadonnées sont pourries, la numérisation coûte une blinde, et il faut des compétences juridiques ET techniques pour faire les choses proprement.

Un autre paradoxe encore plus cruel c'est que les projets qui documentent proprement leurs sources deviennent des cibles faciles pour les procès. C'est comme ça que le groupe anti-piratage danois Rights Alliance a fait supprimer Books3 via des notices DMCA, forçant EleutherAI à nettoyer The Pile alors que pendant ce temps, OpenAI reste discret sur ses données d'entraînement et évite ainsi les ennuis. Faire les choses bien, ça vous expose alors que faire les choses en douce pour entrainer votre IA, ça passe tranquillou (même si ça n'immunise pas totalement contre les procès non plus, faut pas déconner).

Et de plus en plus de sites partout sur la toile, changent petit à petit leurs conditions d'utilisation pour interdire le scraping par les IA... Autant dire que le web ouvert se referme petit à petit, ce qui rend encore plus galère de construire des datasets éthiques...

Bref, on est dans une situation où les géants aspirent tout sans vergogne, et où les petits qui essaient de faire les choses proprement galèrent... Sans parler des auteurs qui se retrouvent à quémander 3000 balles pour des œuvres qui valent bien plus. Common Corpus et tous ces autres projets ouverts prouvent, certes, qu'on peut entraîner des IA sans piller le travail des autres, mais ça demande énormément plus d'efforts et ça donne des résultats incroyablement moins sexy...

Voilà, au final, la vraie question n'est donc pas technique, mais politique. Est-ce qu'on doit accepter qu'une machine qui lit pour transformer un livre en vecteur, c'est OK parce que grâce à ce petit sacrifice, on peut profiter d'IA (open source de préférence) de folie ? Ou est ce qu'on se dit que lire c'est du vol quand c'est une machine qui lit ? Et dans ce cas, on accepte d'avoir des IA qui cause comme Balzac... ?

Source

Wattage - Surveillez l'état de santé de votre batterie Linux comme un chef

mercredi 24 décembre 2025 à 09:00

Je trouve que ce qui manque sous Linux, c'est un petit outil sympa pour garder un œil sur l'état de sa batterie de portable. Alors oui, y'a des trucs par-ci par-là, mais rien de vraiment moderne et surtout complet. Mais c'était sans compter sur Wattage vient combler ce vide aussi immense que votre amour pour mon site ^^.

C'est donc une petite appli GTK4/libadwaita toute fraîche qui vous affiche tout un tas d'infos sur votre batterie. Et quand je dis tout un tas, c'est vraiment tout un tas du genre le nombre de cycles de charge, la capacité actuelle, le voltage, l'état de santé, les métriques d'énergie, les infos constructeur, etc.

L'appli est codée en Vala, ce qui veut dire qu'elle compile en C et que c'est plutôt rapide. Elle va récupérer toutes ses données directement dans /sys/class/power_supply, le dossier système où Linux stocke les infos de vos périphériques d'alimentation.

Le truc cool avec Wattage, c'est qu'elle supporte plusieurs batteries ou sources d'alimentation en même temps, donc si vous avez un setup un peu particulier avec plusieurs batteries, hop, tout s'affiche proprement dans l'interface.

L'interface justement, elle est assez minimaliste et bien fichue puisque vous avez toutes vos stats batterie dans une seule fenêtre, sans menus compliqués, ni options inutiles.

Voilà, alors plutôt que de vous fier uniquement à l'indicateur système classique qui vous dit juste le pourcentage, vous pourrez maintenant voir l'état réel de votre batterie. Comme ça, si elle commence à décliner, ou si le nombre de cycles grimpe trop, vous le saurez. Même chose si la capacité maximale baisse par rapport à la capacité d'origine... Plus rien ne vous échappera.

C'est développé par v81d, dispo sur GitHub , et sous licence GPL v3 et comme tout bon logiciel Linux moderne, Wattage est dispo sur Flathub , donc vous pouvez l'installer sur à peu près n'importe quelle distribution en deux clics. Ubuntu, Fedora, Arch, Mint... tant que vous avez Flatpak installé, vous êtes bons.

Source

API fantôme - Quand l'IA crée des backdoors dans le dos des dev

mardi 23 décembre 2025 à 13:00

Si vous utilisez GitHub Copilot ou ChatGPT pour coder plus vite, voici une nouvelle qui va peut-être vous refroidir un peu. Une fintech a découvert que des attaquants avaient extrait des données clients via un endpoint API qui n'était documenté nulle part. Personne dans l'équipe ne se souvenait l'avoir créé et après 3 semaines d'enquête, le verdict est tombé : c'est Copilot qui l'avait généré pendant une session de code nocturne.

Bienvenue dans l'ère des "phantom APIs" les amis !

J'avoue que le concept m'a fait marrer car on parle quand même d'endpoints qui existent en production mais dont personne n'a connaissance. Ahahaha... y'a pas de documentation, pas de tests, pas de validation de sécurité. C'est juste un peu de code généré par une IA qui a trouvé ça "logique" de créer un /api/v2/admin/debug-metrics qui balance du PII à quiconque tombe dessus par hasard.

J'ai vu le dernier rapport Veracode GenAI Code Security et les chiffres font un peu flipper c'est vrai ! Ils ont testé plus de 100 LLM sur 80 tâches de codage différentes, et le résultat fait mal puisque 45% du code généré par IA contient des vulnérabilités classées OWASP Top 10. En gros, presque une fois sur deux, votre assistant IA vous pond du code troué comme une passoire. Java est le grand gagnant avec 72% de taux d'échec, suivi par Python, JavaScript et C# qui tournent autour de 38-45%.

En effet, l'IA ne pense pas comme un dev qui s'est déjà fait hacker. Par exemple, quand un dev crée un endpoint, il réfléchit authentification, rate limiting, exposition de données, documentation. Alors que l'IA, elle, génère juste ce qui lui semble statistiquement logique vu son dataset d'entraînement, sans comprendre les implications sécurité ou les politiques de l'organisation.

D'ailleurs une autre étude Apiiro montre que les assistants IA ont multiplié par 10 les vulnérabilités introduites en seulement 6 mois dans les dépôts étudiés. Les chemins d'escalade de privilèges ont explosé tout comme les défauts architecturaux. Et le pire c'est que les développeurs qui utilisent l'IA exposent leurs credentials cloud (clés Azure, Storage Access Keys) deux fois plus souvent que les autres.

Y'a aussi le problème du "slopsquatting". Oui, encore un gros mot, je sais... En fait, l'IA peut vous recommander d'installer un package qui n'existe tout simplement pas. Genre elle hallucine un nom de librairie et un attaquant un peu moins con que les autres, peut enregistrer ce nom sur npm ou PyPI et y foutre du code malveillant.

Et là que ça devient vraiment problématique, c'est que les outils de sécurité traditionnels ne voient rien. L'analyse statique compare votre code à des specs documentées, sauf que les phantom APIs n'existent dans aucune spec. Les API gateways protègent les endpoints enregistrés mais laissent passer des routes non déclarées sans authentification.

Pour s'en sortir, certaines boîtes commencent donc à analyser le trafic en temps réel pour détecter les endpoints qui traînent. Y'a aussi l'audit de code spécifique IA pour repérer les patterns de génération algorithmique, et la comparaison continue entre les specs et ce qui tourne vraiment en production.

Bref, relisez votre code généré par IA comme si c'était un stagiaire collégien de 3e qui l'avait écrit, et si vous découvrez un endpoint bizarre dans votre base de code dont personne ne se souvient, y'a des chances que ce soit un "fantôme" laissé par votre copilote préféré...

La Chine a maintenant des RoboCops qui règlent la circulation

mardi 23 décembre 2025 à 12:00

En Chine, RoboCop c'est plus vraiment de la science-fiction puisque la ville de Hangzhou vient de déployer un robot humanoïde qui fait la circulation à un carrefour. Et je trouve ça un poil flippant ^^.

Ce robot qui s'appelle Hangxing-1 a commencé son boulot le 1er décembre dernier, à l'intersection de Binsheng Road et Changhe Road dans le district de Binjiang. Le truc mesure 1m80, il est équipé de caméras haute définition et de capteurs qui lui offrent une bonne vision de ce qui se passe autour de lui et il roule sur des petites roues omnidirectionnelles, affublé d'un uniforme haute visibilité avec des bandes de police. Bref, impossible de le louper.

Et son job, c'est de faire des gestes pour diriger les voitures, les scooters et les piétons. Les ingénieurs ont modélisé ses mouvements sur ceux de vrais policiers pour que ce soit bien standardisé et il peut siffler de manière électronique en synchro avec les feux de circulation. Et le truc marrant, c'est qu'il est capable de détecter les infractions en temps réel, comme les motards sans casque, les voitures qui dépassent la ligne d'arrêt ou encore les piétons qui traversent au rouge. Et quand il chope quelqu'un en flagrant délit, il balance un message vocal bien poli.

Bien sûr, on est en Chine, donc toutes les infractions sont logguées et envoyées direct dans la base de données de la police.

Côté autonomie, le robot peut tenir plusieurs heures sur une charge, ce qui couvre largement les heures de pointe et quand la batterie est à plat, il retourne tout seul au bistrot à sa station de recharge. La machine a été développée entièrement à Hangzhou, fruit d'une collab entre la police locale et des boîtes tech du coin.

D'après les premières observations locales, le respect des règles à ce carrefour se serait nettement amélioré depuis que le robot est en poste. Bon, y'a quand même des flics humains pas loin pendant cette phase test, au cas où les avertissements vocaux du robot ne suffiraient pas.

Hangxing-1 fonctionne pour l'instant dans deux modes : gestion du trafic et sensibilisation civique. Mais la ville prévoit de l'upgrader avec des capacités de langage naturel pour qu'il puisse donner des directions et répondre aux questions des passants. Le robot est d'ailleurs connecté au "City Brain" d'Alibaba, le système de gestion urbaine intelligent déployé à Hangzhou.

Et Hangzhou n'est pas la seule ville à jouer avec ces robots puisque Chengdu a déployé 5 robots policiers sur la place Tianfu, Mianyang utilise des chiens robots pour patrouiller dans les quartiers d'affaires, et Shenzhen teste des robots humanoïdes d'Engine AI qui serrent la main aux passants. Le gouvernement chinois veut clairement multiplier ce genre de déploiements.

Perso, je trouve ça plus mignon (et apparemment plus efficace) qu'un policier municipal même s'il ne faut pas oublier que ce robot vous filme, vous identifie, enregistre la moindre de vos infractions et les balance à la vraie police...

Ce monde commence sérieusement à ressembler à un épisode de Black Mirror.

Source