手机版 广东益福电缆回收信息网 联系电话18664666166
电缆电线回收_二手电缆电线回收_废旧电线电缆回收_广州电缆线回收网

广州GDYF二手电缆回收公司:智源开源中英文语义向量模型训练数据集MTP

时间:2023-09-19 10:41
广州GDYF二手电缆回收公司:智源开源中英文语义向量模型训练数据集MTP

广州电缆线回收网9月18日 采访:近日,智源思量院宣布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。

这是全球最大的中、英文文本对训练数据集, 数据规模达3亿对,祈望推动解决中文模型训练数据集缺乏问题。

据介绍,MTP(massive text pairs)中文记录达1亿条,英文数据达2亿条。MTP 是当今为止开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型供给了关键的基础。

该数据集包含了各种不同的数据源,网罗 wudao、cmrc2023、dureader、simclue、csl、amazon_reviews_multi、wiki_atomic_edits、mlqa、xlsum 以及其他一些来自互联网的数据,如社区问答、报道和文献等。

智源商讨院表示,数据对大模型训练起着至关重大的基础作用,开源亦是人工智能发展的严重推动力量。看成国内大模型开源生态圈的代表机构,智源持续进行网罗数据在内的大模型全栈技术开源,推动人工智能合伙立异。

MTP数据集链接:

https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型链接:

https://huggingface.co/BAAI

BGE 代码仓库:

https://github.com/FlagOpen/FlagEmbedding

(投诉)

(责任编辑:admin)
栏目列表
电缆电线回收_二手电缆电线回收_废旧电线电缆回收_广州电缆线回收网
推荐内容
电缆电线回收_二手电缆电线回收_废旧电线电缆回收_广州电缆线回收网