La china DeepSeek lanza modelo de IA que une texto e imagen para reducir costes de cómputo
Pekín, 21 oct (EFE).- La empresa china de inteligencia artificial DeepSeek presentó un nuevo modelo multimodal que combina texto e información visual para procesar documentos extensos con menos recursos computacionales.
Según la compañía, este método puede reducir el volumen de texto entre siete y veinte veces, lo que permitiría manejar grandes cantidades de información sin elevar los costes informáticos.
El modelo, disponible en código abierto en Hugging Face y GitHub, plataformas usadas por desarrolladores para alojar y compartir modelos de IA y código, se compone de un codificador visual (DeepEncoder) y un decodificador con arquitectura Mixture-of-Experts (MoE) de 570 millones de parámetros.
Además de reconocer texto, puede interpretar elementos visuales como tablas, fórmulas o diagramas, lo que amplía su uso en ámbitos como las finanzas o la investigación científica.
De acuerdo con las pruebas publicadas por la compañía, DeepSeek-OCR superó a otros modelos de reconocimiento óptico de caracteres, como GOT-OCR 2.0 y MinerU 2.0, al mantener una precisión del 97 % con una compresión inferior a diez veces.
La empresa asegura que su sistema puede generar más de 200.000 páginas de datos de entrenamiento al día con una sola tarjeta gráfica Nvidia A100-40G.
El lanzamiento continúa la estrategia de DeepSeek de desarrollar modelos más eficientes y de menor coste, como los anteriores V3 y R1, centrados en el razonamiento y el aprendizaje por refuerzo.
Fundada en Hangzhou, DeepSeek forma parte de la nueva ola de desarrolladores chinos de IA de código abierto, junto con Baidu, Tencent o Alibaba.
Sin embargo, algunos expertos advierten que las estrictas regulaciones sobre contenido en China podrían limitar la expansión internacional de estos sistemas.
Foto EFE


