示例
请参阅下方涵盖 txtai 的一系列综合性示例笔记本和应用。
语义搜索
构建语义/相似度/向量/神经搜索应用。
笔记本 | 描述 | |
---|---|---|
txtai 简介 ▶️ | txtai 提供的功能概述 | |
使用 Hugging Face 数据集构建嵌入索引 | 索引和搜索 Hugging Face 数据集 | |
从数据源构建嵌入索引 | 使用词嵌入索引和搜索数据源 | |
向 Elasticsearch 添加语义搜索 | 向现有搜索系统添加语义搜索 | |
图像相似度搜索 | 将图像和文本嵌入到同一空间进行搜索 | |
自定义嵌入 SQL 函数 | 向嵌入 SQL 添加用户定义函数 | |
模型可解释性 | 语义搜索的可解释性 | |
查询翻译 | 使用查询翻译进行特定领域的自然语言查询 | |
构建问答数据库 | 使用语义搜索进行问题匹配 | |
语义图 | 探索主题、数据连接并运行网络分析 | |
使用 BM25 进行主题建模 | 由 BM25 索引支持的主题建模 |
LLM
自主代理、检索增强生成 (RAG)、与您的数据聊天、以及与大型语言模型 (LLMs) 交互的流水线和工作流。
笔记本 | 描述 | |
---|---|---|
使用 LLMs 进行 Prompt 驱动的搜索 | 使用大型语言模型 (LLMs) 进行嵌入引导和 Prompt 驱动的搜索 | |
Prompt 模板和任务链 | 构建模型 Prompt 并使用工作流连接任务 | |
使用 txtai 构建 RAG 流水线 | 关于检索增强生成(包括如何创建引用)的指南 | |
集成 LLM 框架 | 集成 llama.cpp, LiteLLM 和自定义生成框架 | |
使用语义图和 RAG 生成知识 | 使用语义图和 RAG 进行知识探索和发现 | |
使用 LLMs 构建知识图谱 | 使用 LLM 驱动的实体提取构建知识图谱 | |
使用图路径遍历进行高级 RAG | 使用图路径遍历收集复杂数据集进行高级 RAG | |
使用引导生成进行高级 RAG | 检索增强和引导生成 | |
使用 llama.cpp 和外部 API 服务进行 RAG | 使用额外的向量和 LLM 框架进行 RAG | |
txtai 的 RAG 工作原理 | 创建 RAG 进程、API 服务和 Docker 实例 | |
语音到语音 RAG ▶️ | 包含 RAG 的全周期语音到语音工作流 | |
使用图和代理分析 Hugging Face 帖子 | 使用图分析和代理探索丰富的数据集 | |
赋予代理自主性 | 能够根据自身判断迭代解决问题的代理 | |
LLM API 入门 | 使用 OpenAI, Claude, Gemini, Bedrock 等生成嵌入并运行 LLMs | |
使用图和代理分析 LinkedIn 公司帖子 | 探索如何利用 AI 提高社交媒体互动 | |
使用 txtai 解析星体 | 探索已知恒星、行星、星系的知识图谱 | |
为 RAG 切分数据 | 提取、切分和索引内容以进行有效检索 |
流水线
使用语言模型支持的流水线转换数据。
笔记本 | 描述 | |
---|---|---|
使用 txtai 进行抽取式问答 | txtai 抽取式问答简介 | |
使用 Elasticsearch 进行抽取式问答 | 使用 Elasticsearch 运行抽取式问答查询 | |
使用抽取式问答构建结构化数据 | 使用抽取式问答构建结构化数据集 | |
使用零样本分类应用标签 | 使用零样本学习进行标签、分类和主题建模 | |
构建抽象式文本摘要 | 运行抽象式文本摘要 | |
从文档中提取文本 | 从 PDF, Office, HTML 等提取文本 | |
文本到语音生成 | 从文本生成语音 | |
将音频转录为文本 | 将音频文件转换为文本 | |
在语言之间翻译文本 | 简化机器翻译和语言检测 | |
生成图像描述和检测对象 | 图像描述和对象检测 | |
近似重复图像检测 | 识别重复和近似重复图像 |
工作流
高效地大规模处理数据。
笔记本 | 描述 | |
---|---|---|
运行流水线工作流 ▶️ | 简单而强大的结构,可高效处理数据 | |
使用可组合工作流转换表格数据 | 转换、索引和搜索表格数据 | |
张量工作流 | 大型张量数组的高性能处理 | |
实体提取工作流 | 识别实体/标签组合 | |
工作流调度 | 使用 cron 表达式调度工作流 | |
使用工作流推送通知 | 使用工作流生成并推送通知 | |
图片胜过千言万语 | 使用 DALL-E mini 生成网页摘要图像 | |
使用原生代码运行 txtai | 使用 Python C API 在原生代码中执行工作流 | |
生成式音频 | 使用生成式音频工作流进行故事讲述 |
模型训练
训练 NLP 模型。
笔记本 | 描述 | |
---|---|---|
训练文本标注器 | 构建文本序列分类模型 | |
无标签训练 | 使用零样本分类器训练新模型 | |
训练问答模型 | 构建和微调问答模型 | |
从头开始训练语言模型 | 构建新的语言模型 | |
使用 ONNX 导出和运行模型 | 使用 ONNX 导出模型,在 JavaScript, Java 和 Rust 中原生运行 | |
导出和运行其他机器学习模型 | 导出和运行来自 scikit-learn, PyTorch 等的模型 |
API
运行分布式 txtai,与 API 和云端点集成。
笔记本 | 描述 | |
---|---|---|
API 画廊 | 在 JavaScript, Java, Rust 和 Go 中使用 txtai | |
分布式嵌入集群 | 将嵌入索引分发到多个数据节点 | |
云端嵌入 | 从 Hugging Face Hub 加载和使用嵌入索引 | |
自定义 API 端点 | 使用自定义端点扩展 API | |
API 授权和认证 | 为 API 添加授权、认证和中间件依赖 | |
OpenAI 兼容 API | 使用标准 OpenAI 客户端库连接到 txtai |
架构
项目架构、数据格式、外部集成、生产规模、基准测试和性能。
笔记本 | 描述 | |
---|---|---|
txtai 索引解析 | 深入探讨 txtai 嵌入索引背后的文件格式 | |
嵌入组件 | 使用向量、SQL 和评分组件进行可组合搜索 | |
自定义您的嵌入数据库 | 向量索引与关系数据库结合的方法 | |
在 Python 中构建高效的稀疏关键词索引 | 快速准确的稀疏关键词索引 | |
混合搜索的优势 | 结合语义和关键词搜索提高准确性 | |
外部数据库集成 | 在 PostgreSQL, MariaDB, MySQL 等存储元数据 | |
向量量化全解析 | 标量和乘积量化方法基准测试 | |
外部向量化 | 使用预计算嵌入数据集和 API 进行向量化 | |
将 txtai 与 Postgres 集成 | 在 Postgres 中持久化内容、向量和图数据 | |
用于开放数据访问的嵌入索引格式 | 使用 txtai 进行平台和编程语言无关的数据存储 |
发布版本
主要发布版本中新增的功能。
笔记本 | 描述 | |
---|---|---|
txtai 4.0 新特性 | 内容存储、SQL、对象存储、重新索引和压缩索引 | |
txtai 6.0 新特性 | 嵌入的稀疏、混合和子索引,LLM 改进 | |
txtai 7.0 新特性 | 语义图 2.0, LoRA/QLoRA 训练和二进制 API 支持 | |
txtai 8.0 新特性 | 使用 txtai 的代理 |
应用
txtai 系列示例应用。提供 Hugging Face Spaces 上托管版本的链接(如果可用)。
应用 | 描述 | |
---|---|---|
基本相似度搜索 | 基本相似度搜索示例。数据来自原始 txtai 演示。 | 🤗 |
棒球统计数据 | 使用向量搜索匹配历史棒球运动员统计数据。 | 🤗 |
基准测试 | 计算 BEIR 数据集的性能指标。 | 仅限本地运行 |
图书搜索 | 图书相似度搜索应用。索引图书描述并使用自然语言语句进行查询。 | 仅限本地运行 |
图像搜索 | 图像相似度搜索应用。索引图像目录并运行搜索以识别与输入查询相似的图像。 | 🤗 |
检索增强生成 | 使用 txtai 嵌入数据库进行 RAG。提问并从受上下文限制的 LLMs 中获取答案。 | 仅限本地运行 |
总结文章 | 总结文章。一个从网页提取文本并构建摘要的工作流。 | 🤗 |
维基搜索 | 维基百科搜索应用。查询维基百科 API 并总结最佳结果。 | 🤗 |
工作流构建器 | 构建和执行 txtai 工作流。将摘要、文本提取、转录、翻译和相似度搜索流水线连接在一起以运行统一工作流。 | 🤗 |