跳到内容

示例

examples examples

请参阅下方涵盖 txtai 的一系列综合性示例笔记本和应用。

构建语义/相似度/向量/神经搜索应用。

笔记本 描述
txtai 简介 ▶️ txtai 提供的功能概述 Open In Colab
使用 Hugging Face 数据集构建嵌入索引 索引和搜索 Hugging Face 数据集 Open In Colab
从数据源构建嵌入索引 使用词嵌入索引和搜索数据源 Open In Colab
向 Elasticsearch 添加语义搜索 向现有搜索系统添加语义搜索 Open In Colab
图像相似度搜索 将图像和文本嵌入到同一空间进行搜索 Open In Colab
自定义嵌入 SQL 函数 向嵌入 SQL 添加用户定义函数 Open In Colab
模型可解释性 语义搜索的可解释性 Open In Colab
查询翻译 使用查询翻译进行特定领域的自然语言查询 Open In Colab
构建问答数据库 使用语义搜索进行问题匹配 Open In Colab
语义图 探索主题、数据连接并运行网络分析 Open In Colab
使用 BM25 进行主题建模 由 BM25 索引支持的主题建模 Open In Colab

LLM

自主代理、检索增强生成 (RAG)、与您的数据聊天、以及与大型语言模型 (LLMs) 交互的流水线和工作流。

笔记本 描述
使用 LLMs 进行 Prompt 驱动的搜索 使用大型语言模型 (LLMs) 进行嵌入引导和 Prompt 驱动的搜索 Open In Colab
Prompt 模板和任务链 构建模型 Prompt 并使用工作流连接任务 Open In Colab
使用 txtai 构建 RAG 流水线 关于检索增强生成(包括如何创建引用)的指南 Open In Colab
集成 LLM 框架 集成 llama.cpp, LiteLLM 和自定义生成框架 Open In Colab
使用语义图和 RAG 生成知识 使用语义图和 RAG 进行知识探索和发现 Open In Colab
使用 LLMs 构建知识图谱 使用 LLM 驱动的实体提取构建知识图谱 Open In Colab
使用图路径遍历进行高级 RAG 使用图路径遍历收集复杂数据集进行高级 RAG Open In Colab
使用引导生成进行高级 RAG 检索增强和引导生成 Open In Colab
使用 llama.cpp 和外部 API 服务进行 RAG 使用额外的向量和 LLM 框架进行 RAG Open In Colab
txtai 的 RAG 工作原理 创建 RAG 进程、API 服务和 Docker 实例 Open In Colab
语音到语音 RAG ▶️ 包含 RAG 的全周期语音到语音工作流 Open In Colab
使用图和代理分析 Hugging Face 帖子 使用图分析和代理探索丰富的数据集 Open In Colab
赋予代理自主性 能够根据自身判断迭代解决问题的代理 Open In Colab
LLM API 入门 使用 OpenAI, Claude, Gemini, Bedrock 等生成嵌入并运行 LLMs Open In Colab
使用图和代理分析 LinkedIn 公司帖子 探索如何利用 AI 提高社交媒体互动 Open In Colab
使用 txtai 解析星体 探索已知恒星、行星、星系的知识图谱 Open In Colab
为 RAG 切分数据 提取、切分和索引内容以进行有效检索 Open In Colab

流水线

使用语言模型支持的流水线转换数据。

笔记本 描述
使用 txtai 进行抽取式问答 txtai 抽取式问答简介 Open In Colab
使用 Elasticsearch 进行抽取式问答 使用 Elasticsearch 运行抽取式问答查询 Open In Colab
使用抽取式问答构建结构化数据 使用抽取式问答构建结构化数据集 Open In Colab
使用零样本分类应用标签 使用零样本学习进行标签、分类和主题建模 Open In Colab
构建抽象式文本摘要 运行抽象式文本摘要 Open In Colab
从文档中提取文本 从 PDF, Office, HTML 等提取文本 Open In Colab
文本到语音生成 从文本生成语音 Open In Colab
将音频转录为文本 将音频文件转换为文本 Open In Colab
在语言之间翻译文本 简化机器翻译和语言检测 Open In Colab
生成图像描述和检测对象 图像描述和对象检测 Open In Colab
近似重复图像检测 识别重复和近似重复图像 Open In Colab

工作流

高效地大规模处理数据。

笔记本 描述
运行流水线工作流 ▶️ 简单而强大的结构,可高效处理数据 Open In Colab
使用可组合工作流转换表格数据 转换、索引和搜索表格数据 Open In Colab
张量工作流 大型张量数组的高性能处理 Open In Colab
实体提取工作流 识别实体/标签组合 Open In Colab
工作流调度 使用 cron 表达式调度工作流 Open In Colab
使用工作流推送通知 使用工作流生成并推送通知 Open In Colab
图片胜过千言万语 使用 DALL-E mini 生成网页摘要图像 Open In Colab
使用原生代码运行 txtai 使用 Python C API 在原生代码中执行工作流 Open In Colab
生成式音频 使用生成式音频工作流进行故事讲述 Open In Colab

模型训练

训练 NLP 模型。

笔记本 描述
训练文本标注器 构建文本序列分类模型 Open In Colab
无标签训练 使用零样本分类器训练新模型 Open In Colab
训练问答模型 构建和微调问答模型 Open In Colab
从头开始训练语言模型 构建新的语言模型 Open In Colab
使用 ONNX 导出和运行模型 使用 ONNX 导出模型,在 JavaScript, Java 和 Rust 中原生运行 Open In Colab
导出和运行其他机器学习模型 导出和运行来自 scikit-learn, PyTorch 等的模型 Open In Colab

API

运行分布式 txtai,与 API 和云端点集成。

笔记本 描述
API 画廊 在 JavaScript, Java, Rust 和 Go 中使用 txtai Open In Colab
分布式嵌入集群 将嵌入索引分发到多个数据节点 Open In Colab
云端嵌入 从 Hugging Face Hub 加载和使用嵌入索引 Open In Colab
自定义 API 端点 使用自定义端点扩展 API Open In Colab
API 授权和认证 为 API 添加授权、认证和中间件依赖 Open In Colab
OpenAI 兼容 API 使用标准 OpenAI 客户端库连接到 txtai Open In Colab

架构

项目架构、数据格式、外部集成、生产规模、基准测试和性能。

笔记本 描述
txtai 索引解析 深入探讨 txtai 嵌入索引背后的文件格式 Open In Colab
嵌入组件 使用向量、SQL 和评分组件进行可组合搜索 Open In Colab
自定义您的嵌入数据库 向量索引与关系数据库结合的方法 Open In Colab
在 Python 中构建高效的稀疏关键词索引 快速准确的稀疏关键词索引 Open In Colab
混合搜索的优势 结合语义和关键词搜索提高准确性 Open In Colab
外部数据库集成 在 PostgreSQL, MariaDB, MySQL 等存储元数据 Open In Colab
向量量化全解析 标量和乘积量化方法基准测试 Open In Colab
外部向量化 使用预计算嵌入数据集和 API 进行向量化 Open In Colab
将 txtai 与 Postgres 集成 在 Postgres 中持久化内容、向量和图数据 Open In Colab
用于开放数据访问的嵌入索引格式 使用 txtai 进行平台和编程语言无关的数据存储 Open In Colab

发布版本

主要发布版本中新增的功能。

笔记本 描述
txtai 4.0 新特性 内容存储、SQL、对象存储、重新索引和压缩索引 Open In Colab
txtai 6.0 新特性 嵌入的稀疏、混合和子索引,LLM 改进 Open In Colab
txtai 7.0 新特性 语义图 2.0, LoRA/QLoRA 训练和二进制 API 支持 Open In Colab
txtai 8.0 新特性 使用 txtai 的代理 Open In Colab

应用

txtai 系列示例应用。提供 Hugging Face Spaces 上托管版本的链接(如果可用)。

应用 描述
基本相似度搜索 基本相似度搜索示例。数据来自原始 txtai 演示。 🤗
棒球统计数据 使用向量搜索匹配历史棒球运动员统计数据。 🤗
基准测试 计算 BEIR 数据集的性能指标。 仅限本地运行
图书搜索 图书相似度搜索应用。索引图书描述并使用自然语言语句进行查询。 仅限本地运行
图像搜索 图像相似度搜索应用。索引图像目录并运行搜索以识别与输入查询相似的图像。 🤗
检索增强生成 使用 txtai 嵌入数据库进行 RAG。提问并从受上下文限制的 LLMs 中获取答案。 仅限本地运行
总结文章 总结文章。一个从网页提取文本并构建摘要的工作流。 🤗
维基搜索 维基百科搜索应用。查询维基百科 API 并总结最佳结果。 🤗
工作流构建器 构建和执行 txtai 工作流。将摘要、文本提取、转录、翻译和相似度搜索流水线连接在一起以运行统一工作流。 🤗