Lancement par les membres clés de DeepSeek, leader du projet, de le modèle d'analyse de documents 3B open source de Baidu, Unlimited OCR

robot
Création du résumé en cours
ME AI Message, selon la surveillance Beating, Baidu a open-sourcé le modèle de grande taille d’analyse intelligente de documents basé sur la documentation open source Unlimited-OCR et publié un rapport technique. La signature du rapport indique que le directeur technique du projet est un mystérieux membre sous le pseudonyme « YY ». L’industrie suppose largement que l’identité réelle de « YY » est Wei Haoran, ancien auteur principal de DeepSeek-OCR. Le modèle Unlimited-OCR est également construit sur la base de DeepSeek-OCR.
Unlimited-OCR a obtenu un score de 93,92 % dans le test de référence d’analyse de documents longs OmniDocBench v1.6, battant le record SOTA de bout en bout.
Les grands modèles traditionnels d’analyse de documents ont souvent un ralentissement significatif et une consommation élevée de mémoire lors du traitement de textes longs multi-pages, en raison de la croissance linéaire du cache de clés-valeurs KV.
Pour résoudre ce problème de ralentissement, Baidu a introduit la mécanique d’attention à fenêtre glissante de référence R-SWA. Lors de la génération de texte en décodage, le modèle ne se concentre que sur toutes les caractéristiques d’image et le texte généré récemment dans une fenêtre fixe (par défaut 128 tokens), ce qui limite la volume total du cache KV à une constante.
R-SWA évite que les détails de l’image ne deviennent flous lorsque la fenêtre élimine des informations, tout en garantissant que la vitesse d’inférence et la consommation de mémoire restent constantes lors de l’analyse de documents de plus de 40 pages, avec une accélération de 12,7 % par rapport à DeepSeek-OCR dans les tests.
Actuellement, Baidu a open-sourcé le code et les poids d’Unlimited-OCR sous licence MIT, supportant les principaux moteurs tels que Hugging Face Transformers, vLLM, SGLang, dont SGLang a déjà pris en charge l’optimisation du cache pour R-SWA.
À l’avenir, l’équipe prévoit de promouvoir l’attention à fenêtre glissante de référence dans d’autres tâches de référence telles que la reconnaissance vocale ASR et la traduction.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé