相关工具#
以下工具旨在与 LLM 配合使用
strip-tags#
strip-tags 是一个从 HTML 中去除标签的命令。这在使用 LLM 时非常有用,因为 HTML 标签会占用大量的 token 预算。
以下是如何通过去除标签并仅过滤出具有 class="story-wrapper"
的元素来总结《纽约时报》首页内容的方法:
curl -s https://www.nytimes.com/ \
| strip-tags .story-wrapper \
| llm -s 'summarize the news'
llm、ttok 和 strip-tags——用于处理 ChatGPT 及其他 LLM 的 CLI 工具 更详细地描述了如何使用 strip-tags
。
ttok#
ttok 是一个用于计算 OpenAI token 的命令行工具。你可以使用它来检查输入是否可能符合 GPT 3.5 或 GPT4 的 token 限制。
cat my-file.txt | ttok
125
它还可以将输入截断到所需的 token 数量
ttok This is too many tokens -t 3
This is too
这对于将大型文档截断到 LLM 可以处理的大小非常有用。
Symbex#
Symbex 是一个用于在 Python 代码库中搜索符号的工具。它对于提取特定问题的代码,然后将其通过管道输入到 LLM 进行解释、重构或其他任务非常有用。
以下是如何使用它来查找匹配 test*csv*
的所有函数,并使用这些函数来猜测被测试软件的功能的方法:
symbex 'test*csv*' | \
llm --system 'based on these tests guess what this tool does'
它还可以用于以特定格式导出符号,该格式可以通过管道输入到 llm embed-multi 以创建嵌入。
symbex '*' '*:*' --nl | \
llm embed-multi symbols - \
--format nl --database embeddings.db --store