|
Post by account_disabled on Dec 26, 2023 9:13:46 GMT 3.5
这会将我们的文本系列数据转换为图表,如下所示。 来源:YouTube 频道《从头开始的大型语言模型》。 如果我们将概率添加到边缘(我们可以将方向发展到的可能的子树),它就会成为一个语言模型,可以用来生成其他人风格的文本(例如,鲍勃·迪伦)。为此,我们需要在另一次迭代中进行优化。 下一个想法是让每个单词仅依赖于前一个单词,并将其写为条件概率 ⇒ P(xn | xn-1)。我们可以通过不仅检查两个单词之间的关系,还可以检查三个单词(更大的上下文窗口)之间的关系来改进该过程。然而,这种方法要求我们考虑单词之间的长程依赖关系,其中一个单词的含义可能会延伸到第 13 个单词甚至更远。更大的上下文窗口导致更多的组合,这反过来又增加了数学计算所需的计算时间。 为了解决这个问题,我们需要使用函数逼近技术,例如神经网络(NN)。 对于神经网络,人们不一定需要了解试图近似的函数。相反,了解输入和输出至关重要。尽管神 手机号码数据 经网络是通用逼近器,但确保网络有足够的能力来有效逼近函数仍然很重要。 因此,我们的下一步是将单词转换为数字,以便神经网络能够理解它们。我们可以为每个可能的单词分配数字,但是像 [“laptop”] 和 [“computer”] 这样的单词将具有不同的含义……这当然不是期望的结果。我们需要及时思考语义和语境关系。考虑到这一点,最好将这样相似的单词映射到向量空间中相似的向量形式的数字,称为单词嵌入。它们也可以在线获取,例如 word2vec、GloVe 等。 通过以这种方式将单词表示为向量,我们可以更好地理解它们在向量空间中如何相互关联,如下所示。 资料来源: IBM 研究博客,Word Mover 的嵌入:来自 Word2Vec 的通用文本嵌入。 基本思想是相似的词在向量空间中彼此相似。 尽管神经网络中的神经元和层数有所增加,但神经网络仍然需要我们的一点帮助。下一步是使用注意力机制仅关注某些单词。这样,我们就可以减少计算时间,在可接受的时间范围内(甚至一个月或几个月的数据训练也可以接受)完成训练过程。注意力是 Transformer 架构中的一个关键概念,涉及复杂的数学计算和需要一起训练的组合网络。然而,在本文中,我将重点关注最重要的方面,而忽略其余的方面。 如果您仍然有兴趣详细了解所有内容,并且正在使用 GPT-3/LLM,旨在了解事物的工作原理以及为什么 0.8 的“温度”似乎最好,我建议您阅读Stephen Wolfram 的最新文章,即简直太棒了,因为它浓缩了 Stephen 43 年的神经网络经验。 大型语言模型优化(LLMO)时代已经到来——问题是。
|
|