检索任务
检索任务连接到一个 URL 并将内容下载到本地。此任务在处理需要本地可用数据的操作时非常有用。
示例
下面显示了使用此任务作为工作流一部分的简单示例。
from txtai.workflow import RetrieveTask, Workflow
workflow = Workflow([RetrieveTask(directory="/tmp")])
workflow(["https://file.to.download", "/local/file/to/copy"])
配置驱动示例
此任务也可以通过工作流配置创建。
workflow:
tasks:
- task: retrieve
directory: /tmp
方法
此任务的 Python 文档。
__init__(action=None, select=None, unpack=True, column=None, merge='hstack', initialize=None, finalize=None, concurrency=None, onetomany=True, **kwargs)
创建一个新任务。任务定义了两种方法:它接受的数据类型以及对每个数据元素执行的操作。操作是一个可调用的函数或可调用函数的列表。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
action
|
对每个数据元素执行的操作 |
None
|
|
select
|
用于选择要处理的数据的过滤器 |
None
|
|
unpack
|
是否应从 (id, data, tag) 元组中解包或展开数据元素 |
True
|
|
column
|
如果元素是元组,则选择的列索引,默认为全部 |
None
|
|
merge
|
用于连接多操作输出的合并模式,默认为 hstack |
'hstack'
|
|
initialize
|
处理前执行的操作 |
None
|
|
finalize
|
处理后执行的操作 |
None
|
|
concurrency
|
设置可执行实例可用时的并发方法有效值:"thread" 用于基于线程的并发,"process" 用于基于进程的并发 |
None
|
|
onetomany
|
是否启用一对多数据转换,默认为 True |
True
|
|
kwargs
|
附加关键字参数 |
{}
|
源代码位于 txtai/workflow/task/base.py
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 |
|
register(directory=None, flatten=True)
将检索参数添加到任务。
参数
名称 | 类型 | 描述 | 默认值 |
---|---|---|---|
directory
|
用于存储检索到的文件的本地目录 |
None
|
|
flatten
|
展平输入目录结构,默认为 True |
True
|
源代码位于 txtai/workflow/task/retrieve.py
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
|