哈希游戏- 哈希游戏平台- 官方网站七个很酷的GenAI LLM技术性面试问题

作者:小编2025-01-31 11:27:39

　　哈希游戏- 哈希游戏平台- 哈希游戏官方网站一种方法是使用哈希(Python中的字典，也称为键-值表)，其中键(key)是单词、令牌、概念或类别，例如“数学”(mathematics)。每个键(key)对应一个值(value)，这个值本身就是一个哈希：嵌套哈希(nested hash)。嵌套哈希中的键也是一个与父哈希中的父键相关的单词，例如“微积分”(calculus)之类的单词。该值是一个权重：“微积分”的值高，因为“微积分”和“数学”是相关的，并且经常出现在一起;相反地，“餐馆”(restaurants)的值低，因为“餐馆”和“数学”很少出现在一起。

　　Sklearn等标准Python库提供凝聚聚类(agglomerative clustering)，也称为分层聚类(hierarchical clustering)。然而，在这个例子中，它们通常需要一个1亿x 1亿的距离矩阵。这显然行不通。在实践中，随机单词A和B很少同时出现，因此距离矩阵是非常离散的。解决方案包括使用适合离散图谱的方法，例如使用问题1中讨论的嵌套哈希。其中一种方法是基于检测底层图中的连接组件的聚类。

　　这些存储库都将结构化元素嵌入到网页中，使内容比乍一看更加结构化。有些结构元素是肉眼看不见的，比如元数据。有些是可见的，并且也出现在抓取的数据中，例如索引、相关项、面包屑或分类。您可以单独检索这些元素，以构建良好的知识图谱或分类法。但是您可能需要从头开始编写自己的爬虫程序，而不是依赖Beautiful Soup之类的工具。富含结构信息的LLM(如xLLM)提供了更好的结果。此外，如果您的存储库确实缺乏任何结构，您可以使用从外部源检索的结构来扩展您的抓取数据。这一过程称为“结构增强”(structure augmentation)。

　　Embeddings由令牌组成;这些是您可以在任何文档中找到的最小的文本元素。你不一定要有两个令牌，比如“数据”和“科学”，你可以有四个令牌：“数据^科学”、“数据”、“科学”和“数据~科学”。最后一个表示发现了“数据科学”这个词。第一个意思是“数据”和“科学”都被发现了，但是在一个给定段落的随机位置，而不是在相邻的位置。这样的令牌称为多令牌(multi-tokens)或上下文令牌。它们提供了一些很好的冗余，但如果不小心，您可能会得到巨大的embeddings。解决方案包括清除无用的令牌(保留最长的一个)和使用可变大小的embeddings。上下文内容可以帮助减少LLM幻觉。

　　在LLM中，使用可变长度(variable-length)embeddings极大地减少了embeddings的大小。因此，它可以加速搜索，以查找与前端提示符中捕获到的相似的后端embeddings。但是，它可能需要不同类型的数据库，例如键-值表(key-value tables)。减少令牌的大小和embeddings表是另一个解决方案：在一个万亿令牌系统中，95%的令牌永远不会被提取来回答提示。它们只是噪音，因此可以摆脱它们。使用上下文令牌(参见问题4)是另一种以更紧凑的方式存储信息的方法。最后，在压缩embeddings上使用近似最近邻搜索(approximate nearest neighbor，ANN)来进行搜索。概率版本(pANN)可以运行得快得多，见下图。最后，使用缓存机制来存储访问最频繁的embeddings 或查询，以获得更好的实时性能。

　　我目前正在研究一个系统，其中的评价指标和损失函数是相同的。不是基于神经网络的。最初，我的评估指标是多元Kolmogorov-Smirnov距离(KS)。但如果没有大量的计算，在大数据上对KS进行原子更新(atomic update)是极其困难的。这使得KS不适合作为损失函数，因为你需要数十亿次原子更新。但是通过将累积分布函数(cumulative distribution)改变为具有数百万个bins参数的概率密度函数(probability density function)，我能够想出一个很好的评估指标，它也可以作为损失函数。返回搜狐，查看更多

上一篇丨

哈希游戏- 哈希游戏平台- 官方网站网络虚拟财产专题入库参考案例解读｜专题入库参考案例编写小组丨《中国应用法学》2024年第6期丨中国应用法学公众号20250122

下一篇丨

以太坊币最新哈希游戏- 哈希游戏平台- 官方网站价格美元 eth最新价格

全国咨询热线： 400-123-4567

哈希游戏

哈希游戏| 哈希游戏平台| 哈希游戏APP

哈希游戏- 哈希游戏平台- 官方网站七个很酷的GenAI LLM技术性面试问题

联系我们