DCLM-7B – 苹果公司与合作团队推出的开源小模型

AI快讯1个月前发布 AI导航之家

48 0 0

DCLM-7B 是什么

DCLM-7B是由苹果公司联合研究团队推出的70亿参数开源小模型，性能超越Mistral-7B，接近Llama 3和Gemma。最近，苹果公司作为 DataComp-LM（DCLM）项目的研究机构之一，在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型基于240T Common Crawl数据，通过标准化的DCLM-POOL和OpenLM框架预训练，实现了64%的5-shot MMLU准确率，训练效率显著。DCLM-7B的开源包括权重、训练代码和数据集，推动了LLM开源社区的发展，提供了高质量数据集DCLM-BASELINE，为数据驱动的模型研究设立了新基准。

DCLM-7B – 苹果公司与合作团队推出的开源小模型

DCLM-7B 的技术原理

大规模数据集：DCLM-7B使用了从Common Crawl中提取的240万亿个令牌构成的标准化语料库，为模型提供了丰富的训练数据。
数据筛选：通过模型基础的过滤方法，从大规模数据集中筛选出高质量的训练数据，是构建DCLM-7B的关键步骤。
OpenLM框架：基于OpenLM框架，DCLM-7B采用了有效的预训练方案，提供了标准化的训练流程和超参数设置。
标准化评估：DCLM-7B在53个下游任务上进行了标准化评估，有助于量化训练集的优势和局限性。
模型架构：DCLM-7B采用的是decoder-only的Transformer模型架构，是一种常用于语言模型的深度学习架构。
训练优化：在训练过程中，DCLM-7B使用了特定的优化技术，如z-loss，以保持输出logit的数值稳定性。
多尺度训练：DCLM-7B在不同的计算规模上进行了训练，从412M到7B参数的模型，有助于理解不同训练规模对模型性能的影响。

DCLM-7B 的项目地址

项目官网：https://huggingface.co/apple/DCLM-7B
GitHub仓库：https://github.com/mlfoundations/dclm
arXiv技术论文：https://arxiv.org/pdf/2406.11794

DCLM-7B 的适用人群

AI研究人员：专注于自然语言处理和机器学习领域的科学家和学者。
软件开发者：集成高级语言处理能力到应用程序中的技术人员。
数据分析师：处理和分析大量文本数据以获取洞察力的专业人士。
教育技术专家：开发教育工具和交互式学习体验的教育工作者。
企业决策者：利用AI优化业务流程和增强客户服务的商业领袖。

# AI快讯 # 苹果公司

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Lingo – 西湖心辰推出的端到端语音大模型，媲美GPT-4o

AI导航之家

16 0

PhotoMaker V2 – 腾讯推出的AI图像生成框架

AI导航之家

34 0

消息称AI芯片公司Groq新一轮融资估值或达25亿美元

AI导航之家

98 0

AI蛋白质生成公司EvolutionaryScale完成超1.42亿美元种子轮融资

AI导航之家

97 0

GPT-4o Long Output模型 – OpenAI最新推出的超长输出模型

AI导航之家

55 0

HumanVid – 专为人类图像动画生成而设计的高质量数据集

AI导航之家

42 0

AI导航之家收集了AI文本生成、AI图像软件、AI聊天软件、AI翻译软件、AI音频软件、AI办公软件、AI行业软件等国内外优秀的AI软件工具，致力于为您提供最实用的AI工具。

免责声明广告合作关于我们

Copyright © 2024 AI导航之家闽ICP备14018711号-6