OpenAI 發布 o1-mini:更經濟高效的推理模型
OpenAI 推出 o1-mini,一款專注于 STEM 領域的經濟高效推理模型。o1-mini 在數學和編碼方面表現出色,接近 OpenAI o1 的水平,同時成本更低,速度更快。
一、o1-mini 簡介
- OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,尤其擅長數學和編碼。
- o1-mini 在 AIME 和 Codeforces 等評估基準測試中接近 OpenAI o1 的性能。
- o1-mini 比 OpenAI o1-preview 便宜 80%,并且延遲更低,速率限制更高。
二、o1-mini 的優勢
- STEM 領域推理能力強 :o1-mini 經過專門優化,在 STEM 領域表現出色,尤其在數學和編碼方面。
- 成本效益高 :o1-mini 比大型語言模型更小,因此運行成本更低,更適合實際應用。
- 速度更快 :o1-mini 的響應速度比大型語言模型更快,例如在單詞推理問題上比 GPT-4o 快 3-5 倍。
三、o1-mini 的性能表現
領域 |
基準測試 |
o1-mini |
o1-preview |
o1 |
GPT-4o |
數學 |
AIME |
70.0% |
44.6% |
74.4% |
- |
編碼 |
Codeforces Elo |
1650 |
1258 |
1673 |
- |
STEM |
GPQA (科學) |
更高 |
更低 |
- |
更低 |
STEM |
MATH-500 |
更高 |
- |
- |
更低 |
|
MMLU |
- |
- |
- |
更高 |
- o1-mini 在 AIME 數學競賽中取得了 70.0% 的成績,與 o1 (74.4%) 相當,并優于 o1-preview (44.6%)。
- o1-mini 在 Codeforces 編碼競賽中獲得了 1650 Elo 的評分,與 o1 (1673) 相當,并高于 o1-preview (1258)。
- 在一些需要推理能力的學術基準測試中,例如 GPQA (科學) 和 MATH-500,o1-mini 的表現優于 GPT-4o。
- 在人類偏好評估中,o1-mini 在需要推理能力的領域優于 GPT-4o,但在語言類領域則不如 GPT-4o。
四、o1-mini 的安全性
- o1-mini 采用與 o1-preview 相同的對齊和安全技術進行訓練。
- 在內部版本的 StrongREJECT 數據集上,o1-mini 的越獄魯棒性比 GPT-4o 高 59%。
指標 |
GPT-4o |
o1-mini |
對有害提示的拒絕率(標準) |
0.99 |
0.99 |
對有害提示的安全完成率(挑戰:越獄和邊緣案例) |
0.714 |
0.932 |
對良性邊緣案例的合規性(“不過度拒絕”) |
0.91 |
0.923 |
Goodness@0.1 StrongREJECT 越獄評估 |
0.22 |
0.83 |
人工來源的越獄評估 |
0.77 |
0.95 |
五、o1-mini 的局限性
- o1-mini 在非 STEM 主題(如日期、傳記和冷知識)方面的知識儲備有限。
六、未來展望
- OpenAI 將在未來版本中改進 o1-mini 在非 STEM 領域的知識儲備。
- OpenAI 還將嘗試將 o1-mini 擴展到其他模態和 STEM 以外的專業領域。
OpenAI o1-mini 是一款專注于 STEM 領域的經濟高效推理模型,在數學和編碼方面表現出色。o1-mini 比大型語言模型更經濟、更快,是需要推理能力但對世界知識要求不高的應用的理想選擇。
來源:
https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
LibreOffice 24.8.1 發布,注重隱私保護的辦公套件
2024 年 9 月 12 日 – LibreOffice 24.8.1 發布! 這是 LibreOffice 24.8 系列的第一個次要版本 ,適用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。
主要特點
- 注重隱私: LibreOffice 24.8 系列專為注重隱私的辦公套件用戶而優化,他們希望完全控制自己共享的信息。LibreOffice 確保用戶能夠決定是否以及與誰共享他們創建的內容。
- 功能豐富: LibreOffice 提供了一系列界面選項,以適應不同的用戶習慣,從傳統到現代,并通過優化桌 面上的可用空間,最大限度地利用不同的屏幕尺寸,只需點擊一兩次即可實現最多的功能。
- 完全互操作性: LibreOffice 基于 LibreOffice 技術引擎,可提供更好的用戶體驗,并生成基于兩種可用 ISO 標準的相同且完全可互操作的文檔:開放文檔格式 (ODT、ODS 和 ODP) 和專有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
- 企業級支持: TDF 強烈推薦生態系統合作伙伴提供的 LibreOffice Enterprise 系列應用程序,適用于桌面、移動和云,具有廣泛的專用增值功能和其他優勢,例如 SLA。