每日精选:国内多数模型训练使用中文数据占比超60%

2025-08-19 07:42:06 来源: 杭州网


(资料图片仅供参考)

记者从国家数据局获悉:中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

在人工智能时代,Token(通常所说的词元)是处理文本的最小数据单元。国家数据局局长刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

标签: 今日热点网 热点资讯

[责任编辑:]

相关阅读

黄石有个“马尔代夫”!全国网媒总编辑夜访未苏湾

黄石有个“马尔代夫”!全国网媒总编辑夜访未苏湾

长江网讯华灯初上,漂亮的风车倒映在磁湖中,欧式灯塔的灯光在空气中跃更多

2025-08-18 09:58:47
微信给别人转账,记得加一个动作!小心吃大亏 每日信息

微信给别人转账,记得加一个动作!小心吃大亏 每

微信转账暗藏玄机?这个步骤不做小心吃大亏!近日,关于微信转账的一个更多

2025-08-18 08:58:38
热文:我国成功发射卫星互联网低轨卫星

热文:我国成功发射卫星互联网低轨卫星

北京时间2025年8月17日22时15分,我国在太原卫星发射中心使用长征六号更多

2025-08-18 07:58:01
感受非遗魅力、打卡小众博物馆……“文博热”成为暑期文旅“流量”入口-新要闻

感受非遗魅力、打卡小众博物馆……“文博热”成为

央视网消息:福建省非物质文化遗产博览苑是福建省首个集非物质文化遗产更多

2025-08-17 15:46:29
第二次综合演练顺利完成,增加了更多要素及环节

第二次综合演练顺利完成,增加了更多要素及环节

记者从中国人民抗日战争暨世界反法西斯战争胜利80周年纪念活动新闻中心更多

2025-08-17 09:44:39
404 Not Found

404 Not Found


nginx