【导读】 研究人员首次探讨了大型语言模型(LLMs)在问题生成任务中的表现,与人类生成的问题进行了多维度对比,结果发现LLMs倾向于生成需要较长描述性答案的问题,且在问题生成中对上下文的关注更均衡。
年关将至,AI业界卷王辈出,好几家公司都在最近拿出了重量级的大模型。虽然很热闹,不过放在平时,你可能会觉得这和游戏公司没什么太大的联系。 但这次的情况不太一样:在被称为「新一代国产LLM之光」的大模型背后,我们听到一个特别神奇的,和游戏行 ...
2025 被称为 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于强化学习的智能体应用:论文检索智能体。它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。繁琐冗长的论文调研,现在,只需要两分钟。
生态系统构建的重要性:GPT Store的上线构建了一个以自然语言处理为核心的AI生态系统,这是人工智能技术成功商业化的关键。通过吸引开发者、用户、内容创作者和投资者多方参与,共同推动技术的发展和应用,才能实现商业价值的最大化。
1月20日,不仅是美国换“老板”的日子,AI圈也迎来了一件大事——DeepSeek 上线了他们全新的开源推理大模型 DeepSeek-R1 , 它在数学、编程和推理上的表现已经和 OpenAI 的 o1 不分伯仲,但API 调用成本便宜了90-95% ...
在 AI 领域,强化学习(RL)作为 LLM 的关键训练方法,已成为行业共识。其灵感来自于 AlphaGo、AlphaStar、OpenAI Dota Five 等掌握了围棋、星际争霸II 和 Dota2 等复杂游戏。得益于在 RL-LLM ...
IT之家 1 月 20 日消息,尽管人工智能(AI)在编码等任务中表现出色,但一项最新研究发现,AI 在应对高级历史考试时仍显得力不从心。 这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI ...
编辑:泽正 英智 【新智元导读】AI大模型正从仅会聊天的LLM进化为能够执行任务的大型行动模型LAM。它不仅能理解用户的指令,还能在软件环境中自主执行任务。 LLM只能针对问题进行回答与分析?这种「隔靴搔痒」的体验也许就要被终结了! 最近, ...
穿越重重迷雾,OpenAI模型参数终被揭开!一份来自微软华盛顿大学医疗论文,意外曝光了GPT-4、GPT-4o、o1系列模型参数。让所有人震惊不已的是,GPT-4o ...
值得一提的是,这些数据此前从未被任何LLM接触过,能够确保评估真实性可靠性。目前,该数据集已被用于MEDIQA-CORR共享任务,以评估17个参与系统的表现。 得到数据集MEDEC后,研究团队对当前最先进的模型,包括o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash等 ...
为了达到这一目的,他们会想办法让LLM的“越狱”——使用特定的提示词让模型绕过其内置的安全措施和过滤器。 例如,欺诈GPT可以编写恶意代码,创建网络钓鱼页面,并生成无法检测到的恶意软件。它也提供策划各种网络犯罪的工具,从信用卡欺诈到通过数字 ...
对了,省去中间过程,这项研究得出的结论是:Claude 3.5 Sonnet 在错误标志检测方面优于其他 LLM 方法,得分为 70.16,第二名是 o1-mini。 每一次,ChatGPT 相关模型架构和参数泄露,都会引起轩然大波,这次也不例外。 2023 年 10 月,微软论文声称 GPT-3.5-Turbo 只有 20B ...