Mistral添加了一个新的API，该API将任何PDF文档转换为A-Ready Markdown文件

2025年03月07日 16:49发布

1501阅读

周四，法国大型语言模型（LLM）开发人员Mistral为处理复杂PDF文档的开发人员推出了新的API。 Mistral OCR是一种光学字符识别（OCR）API，可以将任何PDF变成文本文件，以使AI模型更容易摄入。 LLM是Openai's Chatgpt等流行的Genai工具的LLM，与RAW TEAKS尤为合作。因此，想要创建自己的AI工作流的公司知道，以干净的格式存储和索引数据已经变得非常重要，以便可以将这些数据重新用于AI处理。与大多数OCR API不同，Mistral OCR是一种多模式API，这意味着它可以检测到何时有插图和照片与文本块相互交织在一起。 OCR API围绕这些图形元素创建边界框，并将它们包含在输出中。 Mistral OCR不仅输出了一大墙文本墙；输出在Markdown中格式化，Markdown是一种格式的语法，开发人员用来添加链接，标头s，以及纯文本文件的其他格式元素。 LLM在很大程度上依赖于他们的培训数据集的降价。同样，当您使用AI助手（例如Mistral的Le Chat或Openai的Chatgpt）时，他们经常会生成Markdown来创建子弹列表，添加链接或以粗体放入一些元素。助手应用程序无缝将Markdown输出格式化为丰富的文本输出。这就是为什么随着Genai蓬勃发展的近年来，原始文本和Markdown越来越重要。 “多年来，组织通常以PDF或幻灯片格式积累了许多文档，而LLMS，尤其是抹布系统，这些文件无法访问。借助Mistral OCR，我们的客户现在可以将丰富而复杂的文档转换为所有语言的可读内容。” 他补充说：“这是朝着需要简化其大量内部文档访问的公司中广泛采用的AI助手迈出的至关重要的一步。” MISTRAl OCR可在Mistral自己的API平台或通过其云合作伙伴（AWS，Azure，Google Cloud Vertex等）上找到。对于使用分类或敏感数据的公司，Mistral提供本地部署。根据这家总部位于巴黎的AI公司，Mistral OCR的表现要比Google，Microsoft和Openai的API更好。该公司已使用包括数学表达式（乳胶格式），高级布局或表格的复杂文档测试了其OCR模型。它也应该通过非英语文档来表现更好。图片来源：Mistral 鉴于Mistral OCR只做一件事，只做一件事，该公司认为它也比那里的速度快。如果您将其与GPT-4O这样的多式联运LLM进行比较，这也就不足为奇了，GPT-4O也具有OCR功能（包括许多其他功能）。 Mistral还使用Mismtral OCR进行自己的AI助理LE聊天。当用户上传PDF文件时，公司使用Mistral OCR在后台使用在处理文本之前，请放置文档中的内容。公司和开发人员最有可能将Mistral OCR与抹布（又名检索型生成）系统一起使用，以使用多模式文档作为LLM中的输入。并且有许多潜在用例。例如，我们可以设想使用它来帮助他们迅速通过大量文件来帮助他们。 RAG是一种用于检索数据并将其用作生成AI模型的上下文的技术。