每日精选:国内多数模型训练使用中文数据占比超60%
2025-08-19 07:42:06 来源: 杭州网
(资料图片仅供参考)
记者从国家数据局获悉:中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。
在人工智能时代,Token(通常所说的词元)是处理文本的最小数据单元。国家数据局局长刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,截至今年6月底,日均Token消耗量已经突破30万亿,1年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。
[责任编辑:]
相关阅读
-
-
黄石有个“马尔代夫”!全国网媒总编辑夜访未苏湾
长江网讯华灯初上,漂亮的风车倒映在磁湖中,欧式灯塔的灯光在空气中跃更多
2025-08-18 09:58:47
-
-
微信给别人转账,记得加一个动作!小心吃大亏 每
微信转账暗藏玄机?这个步骤不做小心吃大亏!近日,关于微信转账的一个更多
2025-08-18 08:58:38
-
-
热文:我国成功发射卫星互联网低轨卫星
北京时间2025年8月17日22时15分,我国在太原卫星发射中心使用长征六号更多
2025-08-18 07:58:01
-
-
感受非遗魅力、打卡小众博物馆……“文博热”成为
央视网消息:福建省非物质文化遗产博览苑是福建省首个集非物质文化遗产更多
2025-08-17 15:46:29
-
-
第二次综合演练顺利完成,增加了更多要素及环节
记者从中国人民抗日战争暨世界反法西斯战争胜利80周年纪念活动新闻中心更多
2025-08-17 09:44:39