深绎未来，让AI链接全世界

数据资源综合概览

📊

庞大的数据规模：文本、视频、音频各100T，图片20T，每月新增10T

🛠️

专业的数据工具：国际化众包平台、多模态AI预标注、数据交易平台

✅

高质量数据：文本/语音数据质量达95%，图片92%，视频90%

详细信息

📦数据规模

存量：文本100T，视频100T，音频100T，图片20T
增量：10T/月

从数据规模来看，文本、视频、音频均达到100T的存量，图片也有20T，且每月还以10T的速度增长，这表明数据资源在数量上十分丰富，能够为各类数据相关应用和研究提供充足的基础素材，无论是大规模的数据分析还是模型训练，都有足够的数据支撑。

🔧数据工具

国际化众包平台
多模态AI预标注
数据交易平台

配备的国际化众包平台，有助于汇聚全球的人力来进行数据标注等工作，能提高数据处理的效率和多样性；多模态AI预标注工具可以利用人工智能技术自动对数据进行初步标注，减少人工标注的工作量，提升数据处理的智能化水平；数据交易平台则为数据的流通和共享提供了渠道，有利于数据价值的最大化利用，促进数据生态的发展。

⚙️数据生产

智能化数据采标流程
自研大模型源数据
国内外线上/线下数据源

智能化的数据采标流程，实现了数据采集和标注的自动化、高效化，能保证数据生产的质量和效率；自研大模型源数据，说明在数据生产方面有自主研发的能力，可根据自身需求定制化生产数据，满足特定大模型训练等场景的需求；同时依托国内外线上线下的数据源，能获取到更广泛、更多样化的数据，进一步丰富数据资源库。

🏷️数据品类

120+语言
17+行业学科
文本/语音/图片/视频
视/听/读/说

数据品类覆盖了120多种语言和17多个行业学科，还有文本、语音、图片、视频等多种数据形式以及视、听、读、说等多维度的数据，这意味着数据资源具有极强的多样性和全面性，能够满足不同领域、不同应用场景下对数据的需求，无论是跨语言的研究，还是多行业的数据分析，都能找到合适的数据资源。

✅数据质量

文本/语音数据质量达95%
图片数据质量达92%
视频数据质量达90%

文本和语音数据质量达到95%，图片为92%，视频也有90%，这样的高质量数据，对于依赖数据质量的应用，如自然语言处理、计算机视觉等领域的模型训练，能够极大地提高模型的准确性和性能，减少因数据质量问题带来的误差，为后续的数据应用和分析提供可靠的基础。

⚠️数据稀缺

葡语系/"一带一路"小语种
低空/具身智能数据
独家数据源

葡语系以及“一带一路”相关的小语种数据稀缺，在全球化的背景下，这些小语种数据对于开展与葡语国家以及“一带一路”沿线国家的交流合作等工作十分重要，稀缺会限制相关业务的拓展；低空和具身智能数据的稀缺，会影响低空领域以及具身智能相关技术的发展，因为缺乏足够的数据来进行研究和模型训练；独家数据源的稀缺，使得在一些需要特定独家数据的场景下，难以获取到关键数据，可能会制约相关创新和应用的开展。不过，这也从侧面反映出在这些领域存在着数据挖掘和发展的机会。

数据的优势及特点

数据资源综合概览

详细信息

📦数据规模

🔧数据工具

⚙️数据生产

🏷️数据品类

✅数据质量

⚠️数据稀缺

DeeData数据

数据产品及服务

多语言，多模态，多领域

大模型厂商/互联网大厂/据交易所/数据公司

DeeAgentAI模型

大模型创新应用平台

自研深绎大模型第三方大模型

千行百业底座能力

DeeCom算力

智能算力Saas平台

调度国内外智能算力

自用/大模型企业/G/B企业/AI应用企业

智启东南亚：深绎未来闪耀马来西亚人工智能大会，“一带一路”再提速

国内首个出海大模型DeeCo-Model在横琴粤澳深度合作区发布