{"id":288,"date":"2025-09-16T01:25:21","date_gmt":"2025-09-16T01:25:21","guid":{"rendered":"https:\/\/aldomonges.com\/aldomonges\/?p=288"},"modified":"2025-09-16T01:25:21","modified_gmt":"2025-09-16T01:25:21","slug":"alibaba-acaba-de-demostrar-que-openai-se-gasta-78-millones-en-hacer-lo-mismo-que-ellos-por-500-000-dolares","status":"publish","type":"post","link":"https:\/\/aldomonges.com\/aldomonges\/?p=288","title":{"rendered":"Alibaba acaba de demostrar que OpenAI se gasta 78 millones en hacer lo mismo que ellos por 500.000 d\u00f3lares"},"content":{"rendered":"<ul>\n<li>\n<h4>El nuevo Qwen3-Next-80B-A3B es seg\u00fan los expertos un modelo excepcionalmente eficiente<\/h4>\n<\/li>\n<li>\n<h4>Se estima que su entrenamiento ha costado tan solo 500.000 d\u00f3lares, mientras que GPT-4 cost\u00f3 78 millones y Gemini Ultra cost\u00f3 191 millones de d\u00f3lares<\/h4>\n<\/li>\n<li>\n<p data-mrf-recirculation=\"Article links\">Hay una nueva t\u00e9cnica estrella para entrenar modelos de IA de forma s\u00faper eficiente. Es al menos lo que parece haber demostrado Alibaba, que el viernes\u00a0<a href=\"https:\/\/x.com\/AlibabaGroup\/status\/1966350879755481544\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/x.com\/AlibabaGroup\/status\/1966350879755481544\">present\u00f3<\/a>\u00a0su familia de modelos Qwen3-Next y lo hizo presumiendo de una eficiencia espectacular que\u00a0<a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/robotica-e-ia\/conocemos-secreto-extrema-eficiencia-deepseek-ha-esquivado-estandar-cuda-nvidia\" data-vars-post-title=\"Ya conocemos el secreto de la extrema eficiencia de DeepSeek: ha esquivado el est\u00e1ndar CUDA de NVIDIA\" data-vars-post-url=\"https:\/\/www.xataka.com\/robotica-e-ia\/conocemos-secreto-extrema-eficiencia-deepseek-ha-esquivado-estandar-cuda-nvidia\" data-mrf-link=\"https:\/\/www.xataka.com\/robotica-e-ia\/conocemos-secreto-extrema-eficiencia-deepseek-ha-esquivado-estandar-cuda-nvidia\">incluso<\/a>\u00a0deja atr\u00e1s a la que logr\u00f3\u00a0<a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/basics\/deepseek-que-como-funciona-que-opciones-tiene-esta-inteligencia-artificial\" data-vars-post-title=\"DeepSeek: qu\u00e9 es, c\u00f3mo funciona y qu\u00e9 opciones tiene esta inteligencia artificial\" data-vars-post-url=\"https:\/\/www.xataka.com\/basics\/deepseek-que-como-funciona-que-opciones-tiene-esta-inteligencia-artificial\" data-mrf-link=\"https:\/\/www.xataka.com\/basics\/deepseek-que-como-funciona-que-opciones-tiene-esta-inteligencia-artificial\">DeepSeek R1<\/a>.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>Qu\u00e9 ha pasado<\/strong>. Alibaba Cloud, la divisi\u00f3n de infraestructura en la nube del grupo Alibaba, present\u00f3 el viernes una nueva generaci\u00f3n de LLMs que\u00a0<a href=\"https:\/\/x.com\/Alibaba_Qwen\/status\/1966197643904000262\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/x.com\/Alibaba_Qwen\/status\/1966197643904000262\">calific\u00f3<\/a>\u00a0como \u00abel futuro de los LLMs eficientes\u00bb. Seg\u00fan sus responsables, estos nuevos modelos son 13 veces m\u00e1s peque\u00f1os que el modelo m\u00e1s grande que ha lanzado esa empresa, y que se present\u00f3 justo una semana antes. Puedes probar Qwen3-Next\u00a0<a href=\"https:\/\/chat.qwen.ai\/\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/chat.qwen.ai\/\">en la web de Alibaba<\/a>\u00a0(recuerda elegirlo del men\u00fa desplegable, en la parte superior izquierda).<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>Qwen3-Next<\/strong>. As\u00ed se llaman los modelos de esta familia, entre los que destaca especialmente\u00a0<a href=\"https:\/\/huggingface.co\/Qwen\/Qwen3-Next-80B-A3B-Thinking\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/huggingface.co\/Qwen\/Qwen3-Next-80B-A3B-Thinking\">Qwen3-Next-80B-A3B<\/a>, que seg\u00fan los desarrolladores es hasta 10 veces m\u00e1s r\u00e1pido que el modelo Qwen3-32B que se lanz\u00f3 en el mes de abril. Lo realmente destacable es que adem\u00e1s logra ser mucho m\u00e1s r\u00e1pido con una reducci\u00f3n del 90% en los costes de entrenamiento.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>500.000 d\u00f3lares no es nada<\/strong>.\u00a0<a href=\"https:\/\/hai.stanford.edu\/assets\/files\/hai_ai-index-report-2024-smaller2.pdf\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/hai.stanford.edu\/assets\/files\/hai_ai-index-report-2024-smaller2.pdf\">Seg\u00fan el AI Index Report<\/a>\u00a0de la Universidad de Stanford, para entrenar GPT-4 OpenAI invirti\u00f3 78 millones de d\u00f3lares en c\u00f3mputo. Google se gast\u00f3 a\u00fan m\u00e1s en Gemini Ultra, y seg\u00fan ese estudio la cifra ascendi\u00f3 a 191 millones de d\u00f3lares. Emad Mostaque, fundador de Stability AI,\u00a0<a href=\"https:\/\/x.com\/EMostaque\/status\/1966218217074077839\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/x.com\/EMostaque\/status\/1966218217074077839\">estima<\/a>\u00a0que Qwen3-Next solo ha costado 500.000 d\u00f3lares en esa fase de entrenamiento. El art\u00edculo oficial de Alibaba no da cifras exactas, pero\u00a0<a href=\"https:\/\/qwen.ai\/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&amp;from=research.latest-advancements-list\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/qwen.ai\/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&amp;from=research.latest-advancements-list\">s\u00ed que indica<\/a>\u00a0que Qwen3-Next-80B-A3B us\u00f3 \u00absolo el 9,3% del coste computacional (horas de GPU) de Qwen3-32B\u00bb.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/i.blogs.es\/a5e214\/captura-de-pantalla-2025-09-15-a-las-9.07.38\/450_1000.jpeg\" alt=\"Captura De Pantalla 2025 09 15 A Las 9 07 38\" \/><\/li>\n<\/ul>\n<p><strong>Mejor que sus competidores<\/strong>. Seg\u00fan los\u00a0<a href=\"https:\/\/artificialanalysis.ai\/models\/qwen3-next-80b-a3b-reasoning\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/artificialanalysis.ai\/models\/qwen3-next-80b-a3b-reasoning\">benchmarks realizados<\/a>\u00a0por la firma Artificial Analysis, Qwen3-Next-80B-A3B ha logrado superar tanto a la \u00faltima versi\u00f3n de DeepSeek R1 como a Kimi-K2. El nuevo modelo de razonamiento de Alibaba\u00a0no es el mejor en t\u00e9rminos globales \u2014GPT-5, Grok 4, Gemini 2.5 Pro \u00a0Claude 4.1 Opus lo superan\u2014 pero aun as\u00ed logra un rendimiento sobresaliente teniendo en cuenta su coste de entrenamiento. \u00bfC\u00f3mo lo ha hecho?<\/p>\n<p><strong>Mixture of Experts<\/strong>. Estos modelos\u00a0<a href=\"https:\/\/www.scmp.com\/tech\/big-tech\/article\/3325436\/how-alibaba-builds-its-most-efficient-ai-model-date?module=top_story&amp;pgtype=section\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/www.scmp.com\/tech\/big-tech\/article\/3325436\/how-alibaba-builds-its-most-efficient-ai-model-date?module=top_story&amp;pgtype=section\">hacen uso<\/a>\u00a0de la arquitectura Mixture of Experts (MoE). Con ella se \u00abdivide\u00bb el modelo en una especie de subredes neuronales que son los \u00abexpertos\u00bb especializados en subconjuntos de datos. Alibaba en este caso aument\u00f3 el n\u00famero de \u00abexpertos\u00bb: mientras que DeepSeek-V3 y Kimi-K2 hacen uso de 256 y 384 expertos, Qwen3-Next-80B-A3B hace uso de 512 expertos, pero solo activa 10 al mismo tiempo.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>Atenci\u00f3n h\u00edbrida<\/strong>. la clave de esa eficiencia\u00a0<a href=\"https:\/\/qwen.ai\/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&amp;from=research.latest-advancements-list\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/qwen.ai\/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&amp;from=research.latest-advancements-list\">est\u00e1 en la llamada atenci\u00f3n h\u00edbrida<\/a>. Los modelos actuales suelen ver reducida su eficiencia si la longitud de las entradas es muy larga y tienen que \u00abprestar m\u00e1s atenci\u00f3n\u00bb y eso implica m\u00e1s c\u00f3mputo. En Qwen3-Next-80B-A3B se hace uso de una t\u00e9cnica llamada \u00abGated DeltaNet\u00bb que\u00a0<a href=\"https:\/\/arxiv.org\/pdf\/2412.06464\" rel=\"noopener, noreferrer\" data-mrf-link=\"https:\/\/arxiv.org\/pdf\/2412.06464\">desarrollaron y compartieron<\/a>\u00a0el MIT y NVIDIA en marzo.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>Gated DeltaNet<\/strong>. Esta t\u00e9cnica mejora la forma en la que presta atenci\u00f3n los modelos al realizar ciertos ajustes a los datos de entrada. La t\u00e9cnica determina qu\u00e9 informaci\u00f3n retener y cu\u00e1l se puede descartar. Eso permite crear un mecanismo de atenci\u00f3n preciso y s\u00faper eficiente en coste. De hecho, Qwen3-Next-80B-A3B es comparable al modelo m\u00e1s potente de Alibaba, Qwern3-235B-A22B-Thinking-2507.<\/p>\n<p data-mrf-recirculation=\"Article links\"><strong>Modelos eficientes y peque\u00f1os<\/strong>. Los crecientes costes de entrenar nuevos modelos de IA empiezan a ser preocupantes, y eso ha hecho que cada vez m\u00e1s vamos esfuerzos para crear modelos de lenguaje \u00abpeque\u00f1os\u00bb que sean m\u00e1s baratos de entrenar, est\u00e9n m\u00e1s especializados y sean especialmente eficientes. El mes pasado Tencent present\u00f3 modelos por debajo de los 7.000 millones de par\u00e1metros, y otra startup llamada Z.ai public\u00f3 su modelo GLM-4.5 Air con tan solo 12.000 millones de par\u00e1metros activos. Mientras, los grandes modelos como GPT-5 o Claude usan muchos m\u00e1s par\u00e1metros, lo que hace que el c\u00f3mputo necesario para usarlos sea mucho mayor.<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>El nuevo Qwen3-Next-80B-A3B es seg\u00fan los expertos un modelo excepcionalmente eficiente Se estima que su entrenamiento ha costado tan solo 500.000 d\u00f3lares, mientras que GPT-4 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":289,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8],"tags":[],"class_list":["post-288","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"jetpack_featured_media_url":"https:\/\/i1.wp.com\/i.blogs.es\/db4fa7\/qwen\/1200_800.jpeg?w=1200&resize=1200,800&ssl=1","_links":{"self":[{"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=\/wp\/v2\/posts\/288","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=288"}],"version-history":[{"count":1,"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=\/wp\/v2\/posts\/288\/revisions"}],"predecessor-version":[{"id":290,"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=\/wp\/v2\/posts\/288\/revisions\/290"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=\/wp\/v2\/media\/289"}],"wp:attachment":[{"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=288"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=288"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/aldomonges.com\/aldomonges\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=288"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}