[发布说明] [https://lilys.ai/digest/7609256/8343269?s=1¬eVersionId=4776197](https://lilys.ai/digest/7609256/8343269?s=1¬eVersionId=4776197) [YouTube 原视频] [https://www.youtube.com/live/2YY9aAUSo_w?si=qUKMKeBIjycafSJy](https://www.youtube.com/live/2YY9aAUSo_w?si=qUKMKeBIjycafSJy) **三个有趣的事实:** - Solar-Open-100B 测试表明,该模型是从零开始训练的,权重初始化是随机的。 - 结构差异和数据解读错误已证明,对 LayerNorm 相似性的怀疑是错误的。 - 关键在于利用我们专有的学习课程和深度扩展技术,开发出经济高效、性能卓越的模型。 -- Upstage 的快速而明智的回应引发了一场有益的讨论,这着实令人钦佩。✨
[发布说明] [https://lilys.ai/digest/7609256/8343269?s=1¬eVersionId=4776197](https://lilys.ai/digest/7609256/8343269?s=1¬eVersionId=4776197) [YouTube 原视频] [https://www.youtube.com/live/2YY9aAUSo_w?si=qUKMKeBIjycafSJy](https://www.youtube.com/live/2YY9aAUSo_w?si=qUKMKeBIjycafSJy) **三个有趣的事实:** - Solar-Open-100B 测试表明,该模型是从零开始训练的,权重初始化是随机的。 - 结构差异和数据解读错误已证明,对 LayerNorm 相似性的怀疑是错误的。 - 关键在于利用我们专有的学习课程和深度扩展技术,开发出经济高效、性能卓越的模型。 -- Upstage 的快速而明智的回应引发了一场有益的讨论,这着实令人钦佩。✨