可可资讯

“当前全球人工智能正加速从感知智能向认知智能跃迁，大模型作为核心载体，其能力边界几乎完全由数据的质量、规模和安全性决定。数据不仅是模型训练的基础，更直接影响知识结构、表达能力和文化传承，高质量数据集建设是人工智能发展的基础工程和战略任务。”吴世忠说道。

8月28日，在2025中国国际大数据产业博览会“高质量数据集”主题交流活动上，中国工程院院士吴世忠围绕大模型数据集建设分享了一些思考。

吴世忠表示，大模型的逻辑推理、复杂指令遵循以及各种智能涌现，都依赖于海量、多样和高质量的训练数据。五年前GPT-3推出时使用的是数千亿级的文本数据，如今国内外头部模型的训练数据已经迈入万亿级门槛。数据集不仅是模型的训练素材，更是真实世界的模拟环境，数据的广度决定模型的认知、知识边界，标注质量影响模型水平。

“可以说，没有优质的数据集，再先进的算法也难以突破智能边界，再强大的算力底座也可能出现无米之炊，更难以支撑人工智能迈向通用智能的终极目标。”吴世忠说道。

从政策层面看，数据集建设已经明确纳入我国人工智能发展的战略规划和顶层设计。国务院

吴世忠谈数据集建设：合法性监管是第一道防线，不能失守

配置提升 2...

动力电池再扩...

李想：理想i...

AMD也要减...

美军两架B-...

结构性货币政...

网红抓银环蛇被咬伤疑因＂嫌注射血清贵不打＂好友发声

这是陈妍希？新剧开播后居然长这样

吉尔贝托：枪手要给道曼提供支持，不要给他施加太多的压力

FBI逮捕CIA高官：家中搜出303根金条 200万美元现金

阿娇度假美照出炉！44 岁穿比基尼身形纤瘦

首日大涨，成都一家“AI小巨人”敲钟了

律所主任疑＂借款＂9亿失联客户有上百人最年长者88岁

iPad mini劲敌！华为MatePad Mini官宣9月4日发布：首款旗舰小平板

格拉维纳：政府应给予意大利足球更多资金支持；联赛体系需重塑

5月开车撞利物浦球迷的司机承认故意撞人，预计12月15日宣判

上海AI实验室发现＂考试时间换智商＂的神奇现象

韩磊被疑出轨大龄女，女方身份曝光

白百何工作室放聊天记录了！锤了剧组没撒谎，东京之前就有矛盾

美驻华外交机构要有＂大动作＂或迎史无前例重大裁员

内娱有自己的肯豆，她的度假日记好对味

深铁再救万科220亿，暗藏的动作太多了

涉及中国日本高官公开道歉并撤回错误言论

帕多瓦诺：我为图多尔感到遗憾；让我选新帅绝对是曼奇尼

是颜值派更是实力派，李斯丹妮的高能生活不设限

奥恰洛夫谈击败张本智和：我打出了顶级水准，自己也有些意外

李雪健黄景瑜主演《斗贼》积压5年终于下证

巴黎极端球迷在埃菲尔铁塔前非法燃放大量焰火，约40人被逮捕

巴列卡诺2-1马略卡，帕拉松点射、德弗鲁托斯破门

空间更宽敞奔驰纯电GLC七座版实车曝光