然而我们仍然会产生毫无意义的句子

然而我们仍然会产生毫无意义的句子 Dec 26, 2023 9:13:46 GMT 3.5

Quote

Post by account_disabled on Dec 26, 2023 9:13:46 GMT 3.5

这会将我们的文本系列数据转换为图表，如下所示。来源：YouTube 频道《从头开始的大型语言模型》。如果我们将概率添加到边缘（我们可以将方向发展到的可能的子树），它就会成为一个语言模型，可以用来生成其他人风格的文本（例如，鲍勃·迪伦）。为此，我们需要在另一次迭代中进行优化。下一个想法是让每个单词仅依赖于前一个单词，并将其写为条件概率 ⇒ P(xn | xn-1)。我们可以通过不仅检查两个单词之间的关系，还可以检查三个单词（更大的上下文窗口）之间的关系来改进该过程。然而，这种方法要求我们考虑单词之间的长程依赖关系，其中一个单词的含义可能会延伸到第 13 个单词甚至更远。更大的上下文窗口导致更多的组合，这反过来又增加了数学计算所需的计算时间。为了解决这个问题，我们需要使用函数逼近技术，例如神经网络（NN）。

对于神经网络，人们不一定需要了解试图近似的函数。相反，了解输入和输出至关重要。尽管神手机号码数据经网络是通用逼近器，但确保网络有足够的能力来有效逼近函数仍然很重要。因此，我们的下一步是将单词转换为数字，以便神经网络能够理解它们。我们可以为每个可能的单词分配数字，但是像 [“laptop”] 和 [“computer”] 这样的单词将具有不同的含义……这当然不是期望的结果。我们需要及时思考语义和语境关系。考虑到这一点，最好将这样相似的单词映射到向量空间中相似的向量形式的数字，称为单词嵌入。它们也可以在线获取，例如 word2vec、GloVe 等。通过以这种方式将单词表示为向量，我们可以更好地理解它们在向量空间中如何相互关联，如下所示。资料来源： IBM 研究博客，Word Mover 的嵌入：来自 Word2Vec 的通用文本嵌入。

基本思想是相似的词在向量空间中彼此相似。尽管神经网络中的神经元和层数有所增加，但神经网络仍然需要我们的一点帮助。下一步是使用注意力机制仅关注某些单词。这样，我们就可以减少计算时间，在可接受的时间范围内（甚至一个月或几个月的数据训练也可以接受）完成训练过程。注意力是 Transformer 架构中的一个关键概念，涉及复杂的数学计算和需要一起训练的组合网络。然而，在本文中，我将重点关注最重要的方面，而忽略其余的方面。如果您仍然有兴趣详细了解所有内容，并且正在使用 GPT-3/LLM，旨在了解事物的工作原理以及为什么 0.8 的“温度”似乎最好，我建议您阅读Stephen Wolfram 的最新文章，即简直太棒了，因为它浓缩了 Stephen 43 年的神经网络经验。大型语言模型优化（LLMO）时代已经到来——问题是。

然而我们仍然会产生毫无意义的句子

Post by account_disabled on Dec 26, 2023 9:13:46 GMT 3.5

Quick Reply

Shoutbox