Message de Gate News, 23 avril — Des chercheurs de Google, dont He Kaiming et Xie Saining, ont publié un article présentant Vision Banana, un modèle polyvalent de compréhension visuelle créé grâce à un réglage fin par instruction léger du modèle de génération d’images Nano Banana Pro (Gemini 3 Pro Image) de l’entreprise. L’innovation clé unifie les sorties de toutes les tâches de vision sous forme d’images RGB, permettant la segmentation, l’estimation de profondeur et la prédiction des normales de surface via la génération d’images, sans architectures ou fonctions de perte spécifiques aux tâches.
En segmentation sémantique, Vision Banana a surpassé le modèle spécialisé SAM 3 de 4,7 points de pourcentage sur Cityscapes ; en segmentation par expressions de référence, il a dépassé SAM 3 Agent. En revanche, il a pris du retard sur SAM 3 en segmentation d’instances. Pour les tâches 3D, l’estimation de profondeur métrique a atteint 0,929 de précision moyenne sur quatre ensembles de données standards, dépassant les 0,918 de Depth Anything V3, en n’utilisant que des données synthétiques sans informations de profondeur réelles ni paramètres de caméra lors de l’inférence. L’estimation des normales de surface a obtenu des résultats à l’état de l’art sur trois bancs d’essai en intérieur.
Le réglage fin a impliqué une quantité minimale de données de tâches visuelles mélangées à l’entraînement initial de génération d’images, préservant les capacités de génération du modèle — les performances étaient conformes au Nano Banana Pro original lors de tests de qualité de génération. L’article propose que le préentraînement à la génération d’images en vision soit analogue au préentraînement de la génération de texte en langage : les modèles apprennent les représentations internes nécessaires à la compréhension d’images pendant la génération, et le réglage fin par instruction ne fait que libérer cette capacité.
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'
avertissement.
Articles similaires
Le FMI émet un avertissement : les cyberattaques pilotées par l’IA présentent des risques systémiques pour la stabilité financière mondiale le 7 mai
D’après le Fonds monétaire international, le 7 mai, les cyberattaques alimentées par l’IA présentent des risques systémiques pour la stabilité financière mondiale, les modèles d’IA avancés réduisant de manière significative le temps et les coûts nécessaires pour identifier et exploiter des vulnérabilités. L’analyse du FMI indique que des cyberévénements extrêmes pourraient déclencher des tensions sur le financement, approfondir les inquiétudes concernant la solvabilité des institutions et pertur
GateNewsIl y a 5m
Whale Labs : les négociations de financement entre DeepSeek et Alibaba n’ont pas abouti à un accord
D’après un article du 9 mai du laboratoire Whale, DeepSeek, dans le cadre d’un programme de financement externe lancé en avril, n’a pas réussi à conclure un accord avec Alibaba. Le cœur du désaccord tient au fait que les demandes d’Alibaba en matière d’intégration de l’écosystème d’IA entrent en conflit avec la position de DeepSeek consistant à préserver son indépendance technologique. D’après un article du début du mois de mai de The Financial Times, la valorisation finale attendue de ce tour d
MarketWhisperIl y a 6m
« Préjudices liés à l’IA » dépassent 400 cas : une étude révèle que la confiance excessive dans l’intelligence artificielle a conduit à la production de symptômes délirants de persécution.
Un médecin anonyme interviewé au Japon, après avoir discuté avec ChatGPT pendant plusieurs mois, a attaqué sa femme. Un utilisateur américain, pendant ses échanges avec une IA, a cru qu’il aidait des membres du FBI à faire fuir des immigrés. En Irlande du Nord, un homme a été convaincu par Grok qu’un camion rempli de personnes allait venir le tuer, si bien qu’il a pris une arme pour se défendre. Une vidéo récemment publiée par la BBC examine ce type émergent de « délire lié à l’IA ». Elle suit d
ChainNewsAbmediaIl y a 23m
Les discussions de financement de DeepSeek avec Alibaba s’effondrent en raison du contrôle de l’écosystème, valorisation $45B
D’après Beating, les négociations de financement de DeepSeek avec Alibaba ont échoué en avril, malgré la participation initiale des deux entreprises au grand tour de table du démarrage. Le cœur du désaccord porte sur l’intégration à l’écosystème : Alibaba a cherché à renforcer son contrôle sur l’écosystème d’IA via son Tongyi et
GateNewsIl y a 51m
DeepSeek n’arrive pas à conclure les conditions de financement avec Alibaba ; Tencent propose jusqu’à une participation de 20%
D’après Odaily, DeepSeek et Alibaba n’ont pas réussi à se mettre d’accord sur les conditions de financement lors de négociations récentes. Des sources citent une faible compatibilité entre l’écosystème d’Alibaba et les opérations de DeepSeek, tandis que DeepSeek cherche à réduire au minimum les contraintes contractuelles compte tenu des multiples options de financement
GateNewsIl y a 1h
La demande pour les puces d’IA est très forte : l’introduction en bourse de Cerebras a été sursouscrite de plus de 20 fois
La demande du marché pour le matériel d’IA reste forte. Cerebras a relevé sa fourchette de prix d’introduction en Bourse à 125–135 dollars par action, avec des souscriptions dépassant 20 fois. Le financement potentiel s’élève à près de 3,8 milliards de dollars ; si le plafond est atteint, il s’agirait du plus grand dossier de l’année 2026 sur le marché boursier américain. Le code de transaction est CBRS. La société prévoit une tarification le 13 mai, avec une cotation au Nasdaq, afin de renforcer la R&D et le déploiement d’une implantation de centres de données dans le monde.
ChainNewsAbmediaIl y a 1h