微软发布 POML(提示编排标记语言):为 LLM 提示带来模块化和可扩展性

enter image description here

提示工程已成为开发基于大型语言模型 (LLM) 的高级应用程序的基础。随着提示工程的复杂性日益增长——包含动态组件、多种角色、结构化数据和各种输出格式——非结构化文本方法的局限性日益凸显。微软发布了提示工程编排标记语言 (POML),这是一个新颖的开源框架,旨在为 LLM 的提示工程带来有序性、模块化和可扩展性。

什么是 POML?

POML是一种受 HTML/XML 启发的标记语言,专门用于创建复杂、可维护、可重用的 AI 提示。它提供了一种系统化的方法:

  • 使用语义组件和角色定义提示结构。
  • 整合多种数据类型和外部资源。
  • 使用样式表将内容与呈现分离。
  • 启用高级模板和变量逻辑以生成动态提示。
  • 通过强大的工具生态系统为开发人员提供支持。

核心功能

1.结构化提示标记

POML 使用清晰的语义元素(例如)来定义提示的各个逻辑部分。这种模块化设计使提示具有可读性、可维护性和高度可复用性。

xml<poml>
  <role>You are a science teacher.</role>
  <task>Explain gravity using the image below.</task>
  <img src="gravity_diagram.png" alt="Diagram of gravity" />
  <output-format>
    Use simple language and keep your answer under 50 words.
  </output-format>
</poml>

这种方法消除了“意大利面条式”格式中经常出现的脆弱问题,并促进了责任的明确分离。

2. 全面的数据处理

POML 本身支持嵌入或引用各种类型的外部数据: - 文本文档(<document>) - 电子表格和表格(<table>) - 图片( <img>) - 其他格式(根据需要)

这使得参考资料、教学数据集和视觉辅助工具可以在提示中无缝集成

3. 解耦演示样式

受 CSS 启发,POML 支持一套样式系统,将内容与格式和输出约束分离。样式可以通过块或内联属性指定,从而轻松进行修改,而无需触及提示符的逻辑结构。

例如:

xml<output-format style="verbose">
  Please provide a detailed, step-by-step explanation suitable for adults.
</output-format>

这最大限度地降低了由于无意的格式调整而导致的 LLM 输出不稳定的风险,并使不同表示层的 A/B 测试变得毫不费力。

4.集成模板引擎

POML 包含一个强大的内置模板引擎,支持:

  • 变量: {{ username }}
  • 循环: for x in data
  • 条件: if ... else
  • 定义: 这个动态系统使开发人员能够以编程方式生成提示并大规模管理复杂的变化。

5.丰富的工具生态系统

该语言由一套开发工具支持:

VS Code 扩展:提供语法高亮、自动完成、悬停文档、诊断以及提示格式和逻辑的实时预览——大大简化了调试和迭代开发。 SDK: POML 为 Node.js(TypeScript/JavaScript)和 Python 提供库,可轻松与现有工作流程和流行的 LLM 框架集成。 使用您首选的 LLM 提供商(例如,OpenAI、Azure)进行配置也很简单,可以快速测试和部署。

示例:带有图像引用的提示

向孩子教授光合作用的示例提示可能如下所示:

xml<poml>
  <role>You are a patient teacher explaining concepts to a 10-year-old.</role>
  <task>Explain the concept of photosynthesis using the provided image.</task>
  <img src="photosynthesis_diagram.png" alt="Diagram of photosynthesis"/>
  <output-format>
    Start with "Hey there, future scientist!" and keep the explanation under 100 words.
  </output-format>
</poml>

此示例演示了 POML 如何轻松地集成视觉上下文并在可重用模板中约束输出样式。

技术架构与理念

POML 的架构体现了传统前端开发(MVC 架构)中“视图层”的概念。标记定义了呈现方式,而不是业务逻辑或数据访问,从而实现了清晰的分离,并易于重构提示、测试变体,并确保跨代理工作流程和自动化测试的一致性。

安装和入门

POML 是开源的(遵循 MIT 许可证),可在 GitHub 上获取。您可以:

  • 从插件市场安装 VS Code 扩展
  • 使用 Node.js ( npm install pomljs) 或 Python ( pip install poml) SDK
  • 请参阅详细的POML 文档以了解语法、示例和集成指南。

结论

即时编排标记语言 (POML)为 AI 开发者的提示工程带来了急需的结构化、可扩展性和可维护性。其模块化语法、全面的数据处理、解耦的样式、动态模板以及丰富的集成生态系统,使其成为编排高级 LLM 应用程序的有前途的标准。

无论您是构建多代理工作流、调试复杂的提示逻辑,还是开发可重复使用的 AI 模块用于生产,POML 都提供了强大的新基础,并在 LLM 生态系统中迅速获得关注。

评论