HTML 转 Markdown

pipeline

HTML 到 Markdown 管道将 HTML 转换为 Markdown。

Markdown 格式应用于标题、块引用、列表、代码、表格和文本。视觉格式（粗体、斜体等）也包含在内。

此管道会搜索包含相关文本的最佳节点，通常使用 article、main 或 body 标签找到。

HTML 转 Markdown 管道需要安装 BeautifulSoup4 库。

示例

下面是使用此管道的一个简单示例。

from txtai.pipeline import HTMLToMarkdown

# Create and run pipeline
md = HTMLToMarkdown()
md("<html><body>This is a test</body></html>")

配置驱动示例

管道通过 Python 或配置运行。管道可以在配置中使用管道的小写名称实例化。配置驱动的管道通过工作流或 API 运行。

config.yml

# Create pipeline using lower case class name
htmltomarkdown:

# Run pipeline with workflow
workflow:
  markdown:
    tasks:
      - action: htmltomarkdown

使用工作流运行

from txtai import Application

# Create and run pipeline with workflow
app = Application("config.yml")
list(app.workflow("markdown", ["<html><body>This is a test</body></html>"]))

使用 API 运行

CONFIG=config.yml uvicorn "txtai.api:app" &

curl \
  -X POST "http://localhost:8000/workflow" \
  -H "Content-Type: application/json" \
  -d '{"name":"markdown", "elements":["<html><body>This is a test</body></html>"]}'

方法

管道的 Python 文档。

`init(paragraphs=False, sections=False)`

创建一个新的 Extract 实例。

参数

名称	类型	描述	默认值
`paragraphs`		如果启用段落解析则为 True，否则为 False	`False`
`sections`		如果启用章节解析则为 True，否则为 False	`False`

源代码位于 txtai/pipeline/data/htmltomd.py 中

def __init__(self, paragraphs=False, sections=False):
    """
    Create a new Extract instance.

    Args:
        paragraphs: True if paragraph parsing enabled, False otherwise
        sections: True if section parsing enabled, False otherwise
    """

    if not SOUP:
        raise ImportError('HTMLToMarkdown pipeline is not available - install "pipeline" extra to enable')

    self.paragraphs = paragraphs
    self.sections = sections

`call(html)`

将输入的 HTML 转换为 Markdown 格式的文本。

参数

名称	类型	描述	默认值
`html`		输入 HTML	必需

返回

类型	描述
	Markdown 格式的文本