海天瑞声推千万轮对话预料库 7.9亿定增募资拟投向AI大模型训练数据集建设等项目
2023-07-28 13:33:58 来源:每日经济新闻
(资料图片)
7月27日,海天瑞声宣布正式推出「中文千万轮对话语料库DOTS-NLP-216」。
海天瑞声方面分析认为,当前在中文对话领域,公开的数据集往往量少、分布有偏、价格昂贵甚至不能商用。导致一些大模型在中文对话方面的能力,相比英文对话略逊一筹。尤其是在一些需要比较深的中文语言理解能力的对话场景,无论开源的还是闭源的大模型,都往往表现不佳。
海天瑞声方面表示,真实场景采集,符合中文表达习惯的自然对话数据,将为中文大语言模型(LLM)带来新动能。
据海天瑞声方面介绍,此次发布的数据集,是一个符合中国人表达习惯的自然对话数据集,共计约1000万轮,上亿级token(标记)。
此前,海天瑞声发布公告称,拟定增募资不超过7.9亿元,其中,3.83亿元计划用于“AI大模型训练数据集建设项目”,4.07亿元计划投向“数据生产垂直大模型研发项目”。
海天瑞声在公告中表示,在人工智能产业进入以大模型为代表的新的发展时期,通过本次募投项目的实施,公司将建设一批适用性较强的大模型训练数据集,拓展潜在高增长价值的新型业务板块,并藉此进一步扩大公司业务规模;同时,以研发海天瑞声数据生产垂直大模型为核心,升级海天瑞声一体化技术支撑平台,研发并引入多项新兴技术,促进公司科技创新水平的不断提升,巩固公司的核心技术壁垒,构建长期技术实力支撑,从而进一步增强公司核心竞争力。
相关新闻
- 海天瑞声推千万轮对话预料库 7.9亿定增募资拟投向AI大模型训练数据集建设等项目
- 渣打集团(02888)将于10月13日派发中期股息每股0.06美元
- 华为预热系统云翻新功能,首发支持华为 P40 和 Mate30 系列手机
- “浮式储油轮+水下生产系统”智能技术实现油气田无人化生产 保障稳定供应
- 2022年02月27日整理发布:苹果放弃了iOS14.6开发人员beta3并为AirTag丢失模式提供了新选项
- 援建纪实|2023年普陀区“组团式”援藏医疗队出发啦!
- 青海省今年上半年超六成新增贷款投放给企(事)业部门
- 河南预制菜产品首次出口
- 本科二批第二次网上填报志愿有关事宜公告!今天下午三点!
- 菲律宾黎刹省倾覆船只救援行动继续,已有40人获救
- 美媒:中方对镓锗相关物项实施出口管制,五角大楼拟从废料中回收镓
- 江宏杰回击福原爱5点声明 让对方尊重并配合司法
- 剧本杀《风烟如故》复盘评测(内含剧透解析+真相答案)
- 特利迦奥特曼第24话好评率公开保持0差评纪录粉丝提纯过于严重
- 全国买车最便宜的城市(哪里买车最便宜全国最低价)
- 医院污物电梯规范要求(什么叫污物电梯)
- urv发动机启动不了,发动机启动困难
- 刷屏的“二次元”女生,来自这所高校!学医原因没想到......
- 周黑鸭预期上半年净利润近1亿元,同比大幅增长
- 成都进市区限单双号吗?
- “杜苏芮”再次升级为超强台风,中国气象局启动台风一级响应
- “礼赞新时代 建功新征程”网络名人吉林行|长白山百科全书:长白山自然博物馆VR全景
- 中级经济师现在可以报名吗?正值报名季!
- 深圳鼓励民企参与“工业上楼”