相关工具#

以下工具旨在与 LLM 配合使用

strip-tags#

strip-tags 是一个从 HTML 中去除标签的命令。这在使用 LLM 时非常有用，因为 HTML 标签会占用大量的 token 预算。

以下是如何通过去除标签并仅过滤出具有 class="story-wrapper" 的元素来总结《纽约时报》首页内容的方法：

curl -s https://www.nytimes.com/ \
  | strip-tags .story-wrapper \
  | llm -s 'summarize the news'

ttok 是一个用于计算 OpenAI token 的命令行工具。你可以使用它来检查输入是否可能符合 GPT 3.5 或 GPT4 的 token 限制。

cat my-file.txt | ttok

它还可以将输入截断到所需的 token 数量

ttok This is too many tokens -t 3

This is too

这对于将大型文档截断到 LLM 可以处理的大小非常有用。

Symbex 是一个用于在 Python 代码库中搜索符号的工具。它对于提取特定问题的代码，然后将其通过管道输入到 LLM 进行解释、重构或其他任务非常有用。

以下是如何使用它来查找匹配 test*csv* 的所有函数，并使用这些函数来猜测被测试软件的功能的方法：

symbex 'test*csv*' | \
  llm --system 'based on these tests guess what this tool does'

它还可以用于以特定格式导出符号，该格式可以通过管道输入到 llm embed-multi 以创建嵌入。

symbex '*' '*:*' --nl | \
  llm embed-multi symbols - \
  --format nl --database embeddings.db --store