算子简报

2025-05-29 · 算子简报

1

DeepSeek R1-0528震撼发布,性能直逼OpenAI o3

DeepSeek R1-0528版本发布,支持128K超大上下文,推理能力和代码生成能力大幅提升。

该模型保持免费使用,降低了用户的使用门槛。

文本召回测试准确度显著提升,适合复杂任务。

详情链接
2

字节推出图像Agent“小云雀AI”,一键生成创作神器

字节跳动推出了全新的图像Agent‘小云雀AI’,主打AI视频剪辑。

用户只需一句指令,即可生成高质量的视频和图片,降低了创作门槛。

该应用基于字节自研‘云雀’大模型,融合深度学习与多模态技术。

3

可灵2.1重磅上线,价格降65%性能显著提升

可灵2.1正式上线,价格大幅降低65%,性价比显著提升。

新增标准版、高品质版与大师版三种模型,满足不同用户需求。

生成效果优于前版本,速度更快,适合短视频和广告制作。

4

全球首款AI代理浏览器Opera Neon发布,开启Web4.0时代

Opera Neon作为全球首款代理型浏览器,通过AI驱动的智能聊天和任务自动化功能,重新定义了网络体验。

内置AI助手Neon Chat支持多语言交互,提升用户效率。

用户可通过简单指令生成游戏、网站等内容,释放创造力。

详情链接
5

Meta发布Multi-SpatialMLLM,推动多模态AI空间理解革命

Meta与香港中文大学合作推出Multi-SpatialMLLM模型,提升多模态大语言模型的空间理解能力。

该模型通过整合深度感知、视觉对应和动态感知三大组件,显著提升了模型性能。

在多项基准测试中表现出色,超越传统模型。

6

通义实验室与北大发布ZeroSearch技术,检索能力激活

ZeroSearch是一项创新框架,通过模拟搜索引擎激活大语言模型的检索能力。

该技术大幅降低训练成本达88%,同时提升模型的推理清晰度与答案提取效率。

框架采用结构化训练模板和“模拟微调”策略,提升生成文档质量。

7

字节推出AI剪辑应用“剪小映”,轻松记录生活瞬间

字节推出新应用“剪小映”,主打AI视频剪辑,降低创作门槛。

应用集成AI技术,鼓励用户分享生活,轻松制作高质量视频。

火山引擎豆包大模型为应用提供强大支持,提升视频处理效率。

8

MotionPro推出AI视频生成技术,影视游戏行业将迎变革

MotionPro是一款专为图像到视频生成设计的精密运动控制器,提供灵活性和精确性。

通过区域轨迹和运动掩码技术,实现更自然、细腻的效果。

同时控制物体与镜头运动,支持复杂镜头和物体轨迹的精准生成。

9

马斯克的xAI与Telegram达成3亿美元合作,推出Grok AI聊天机器人

Telegram与xAI合作,xAI支付3亿美元用于部署Grok AI聊天机器人。

该合作将提升Telegram用户交流体验,提供智能化聊天服务。

合作将推动社交媒体智能化进程,丰富Telegram盈利模式。

10

OpenAI CFO透露重组新架构,IPO前景引关注

OpenAI正在进行组织重组,为未来的IPO铺路,但上市需视市场状况。

微软投资超130亿美元,OpenAI转型公共利益公司兼顾股东与社会责任。

稳定性是关键,上市需公司准备充分且市场窗口合适。

11

像素蛋糕“方糖大模型”成功获批,成为国内影像行业首个备案图像大模型

方糖大模型通过国家网信办备案,成为影像行业首个获官方资质的应用级图像大模型。

该技术标志着技术突破与合规性,将推动广告、影视等领域的发展。

自主研发彰显像素蛋糕在AI技术领域的实力与创新能力。

12

Paper2Poster推出,学术论文轻松转化为海报

Paper2Poster是一款自动化工具,将学术论文转化为多模态海报,显著提升传播效率。

生成一张海报仅需0.005美元,开源特性降低学术工具使用门槛。

发布100个论文-海报对的数据集,推动多模态内容生成领域规范化发展。

13

Resemble AI开源TTS Chatterbox,性能超越ElevenLabs

Chatterbox是一款基于开源的TTS模型,具备实时合成、零样本语音克隆等功能。

在盲测中63.75%的听众更偏好其真实感和流畅度,成为行业焦点。

支持实时合成,延迟低于200ms,为开发者提供高度灵活性。

详情链接