当前位置: 首页 > 实时讯息 >

2025数博会高质量数据集主题交流活动嘉宾观点荟萃

0次浏览     发布时间:2025-08-29 17:19:00    

8月28日,2025数博会高质量数据集主题交流活动在贵阳国际生态会议中心举行。本次交流活动由国家数据局主办,中国信息通信研究院、中国移动通信集团承办,以“数据要素赋能人工智能创新发展”为主题,共同见证高质量数据集建设和发展的新成果,探讨数据产业发展新实践和新机遇。

中国工程院吴世忠研究员:

高质量推进数据集建设

“当前,全球人工智能正从感知智能向认知智能跃迁,大模型作为核心载体,其能力边界由数据的质量、规模和安全性定义,是模型训练基础与性能优化支撑,关乎社会伦理与文化传承。”吴世忠说。

从重要意义看,大模型时代数据集被提到新高度。国家政策层面,数据集建设已纳入我国人工智能发展战略规划。现实情况中,我国大模型发展有独特场景与文化需求,中文数据丰富多元,同时对人工智能治理审慎,需在数据集源头融入安全与文化元素,数据集建设是战略工程。

然而,数据集建设面临诸多现实困难,需从多方面加强工作:要完善分级分类数据安全制度,制定安全指南,实施分级分类管理,建立资源目录。要强化全流程技术防护手段,加强采集阶段合规性验证与敏感信息检测,提升标注环节质量控制,部署数据沙箱环境。要创新多方协同治理模式,政府发挥统筹作用,企业落实主体责任,科研机构推进技术攻关。要培育安全向善行业生态,融入优秀传统文化与价值观,鼓励企业发布白皮书,支持行业协会制定公约。

性能安全是大模型核心领域,数据集是关键。“我们既是建设者、把关者,也是守门人,唯有敬畏数据,才能让大模型更好服务社会与国家发展。”吴世忠说。

清华大学数字政府与治理研究院院长张小劲:

数据标注迈向“AI自驱”

“早期文本投喂已进化为机器学习的通识大模型,再升级为面向场景的专项大模型;数据抓取变为自我学习……”张小劲说,国家数据局、央企、国企齐推高质量数据集,恰好契合这一规律。

张小劲介绍,国家数据局刚发布的数据标注产业实施意见,把数据正式认定为生产要素,没有高质量标注就没有可交易、可应用的数据,也就没有行业驱动力。标注行业已成熟,催生新职业与技能标准。

技术层面,人工标注正被AI颠覆。合成数据弥补真实样本不足,大模型自标注、智能质检、工具链优化成为核心竞争力。企业可划为四类:技术场景双强(具身机器人)、技术强场景弱(前沿实验)、技术弱场景强(垂直采集)、技术弱场景弱(众包外包)。

面向未来,需要推进AI辅助与全自动标注,让标注从劳动密集转向知识密集;建立多轮质监与反馈机制,剔除低质数据,抑制大模型幻觉;开发行业靶向标注体系,把中国海量小众场景做成差异化优势;深化校企合作,加速技术转化与标准迭代;强化技能培训,优化人力配置与质量追踪。

中国移动通信集团数智化部党委委员、副总经理陶涛:

数据供给从“大而全”走向“优而精”

“ChatGPT、DeepSeek引爆全球AI新浪潮,算力、算法、数据三要素中,数据已成决定模型性能的天花板,AI落地到哪里,高质量数据集就必须同步到哪里。”陶涛说。

陶涛认为,当前,数据供给正从“大而全”转向“优而精”,追求高精度、多模态、严治理;从“烟囱孤岛”走向“可信共享”,构建隐私保护、流通有序的开放体系;从“支撑应用”升级为“驱动智能”,让数据成为模型持续进化的核心引擎。

面向高质量的数据供给,中国移动提出并实践了“5个1”的高质量数据集质量体系。一是高质量数据集的治理方案,包括体系化、工程化、场景化的生产流程;二是建立一支数据标注力量;三是自主研发了一套高质量数据供给管理平台,包括汇聚、清洗、管理的供应链;四是产出高质量的数据集,包括通识、行业专识不同层次的高质量数据集;五是建立跨域共建的产业生态,希望产业各方共同建立高质量数据集。

中科闻歌联合创始人兼首席执行官罗引:

驱动AI从可用到可靠

“当下,人工智能产业可从算力、模型、数据三层剖析。”罗引介绍,算力层,我们处于追赶态势,实现自主可控尚需时日,不过在数学、逻辑、创新方面,我们以更低算力消耗和优秀用户体验占据优势。数据层,则是未来最大的机遇与变量,我国拥有完整产业链,是巨大数据金矿,数据要素行动正唤醒沉睡的行业数据,使其成为驱动AI的高质量燃料,当垂直行业提炼出高质量数据与专属模型时,AI将迎来真正爆发。

罗引认为,在企业微观层面,推动AI落地时,模型工作量仅占项目的10%,90%的挑战来自工程架构。当前,学界和产业界行动变化可总结为六点:数据质量从量到质转变;基座模型能力同质化,高质量数据成为差异化竞争壁垒;流动鲜活数据资产更重要;合成数据提供稳定来源;多模态数据依赖高质量标注;AI数据治理需兼顾技术、商业与社会。

“技术环节上,解决思路是以AI体系平台化,构建从算力、数据、模型到决策的平台。”罗引说,如数据底座让AI更理解数据,发布“磐石科学大模型”萃取科学知识,通过智能体技术实现业务流程自主规划。实践中,该平台在金融、政务、媒体等行业实现价值赋能。展望未来,以高质量数据为燃料、一体化架构为引擎,AI将从可用走向可靠。

数据堂公司董事长、CEO齐红威:

大模型下数据已经开始分层

“大模型基本颠覆了传统人工智能开发体系。”齐红威介绍,未来众多传统行业将快速应用大模型,其中90%的工作与数据相关,这凸显了高质量数据集的重要性。

当下,大模型下数据已经开始分层,而当前制约大模型高质量数据集最核心的问题包括版权、标注成本、领域数据封闭等。

那么,高质量数据集应该如何建设?齐红威认为,建设技术体系包括从业务系统提取数据至大模型;数据标注生产环节,含标准制定、人员培训、质量控制与生产管理;数据集管理;服务体系构建;利用高质量数据集为传统行业赋能,快速生成领域大模型;评测模型效果,高质量数据集核心是质量。

记者 钱丽 章婧