-
llama3.1
Llama 3.1 是 Meta 釋出的一款新的最先進模型,提供 8B、70B 和 405B 引數規模。
工具 8b 70b 405b1.13億 次下載 93 個標籤 更新於 1年前
-
deepseek-r1
DeepSeek-R1 是一系列具有領先模型效能的開源推理模型,例如 O3 和 Gemini 2.5 Pro。
工具 思考 1.5b 7b 8b 14b 32b 70b 671b8250萬 次下載 35 個標籤 更新於 9個月前
-
llama3.2
Meta的Llama 3.2 採用 1B 和 3B 模型縮小規模。
工具 1b 3b6480萬 次下載 63 個標籤 更新於 1年前
-
nomic-embed-text
一款高效能的開放嵌入模型,具有較大的token上下文視窗。
嵌入6410萬 次下載 3 個標籤 更新於 2年前
-
gemma3
當前最強大的,可在單個 GPU 上執行的模型。
視覺 雲端 270m 1b 4b 12b 27b3530萬 次下載 29 個標籤 更新於 4個月前
-
mistral
Mistral AI 釋出,版本 0.3 的 7B 模型。
工具 7b2820萬 次下載 84 個標籤 更新於 9個月前
-
qwen2.5
Qwen2.5模型基於阿里巴巴最新的大規模資料集進行預訓練,包含高達18萬億個token。該模型支援高達128K的token數,並具有多語言支援。
工具 0.5b 1.5b 3b 7b 14b 32b 72b2740萬 次下載 133 個標籤 更新於 1年前
-
qwen3
Qwen3 是 Qwen 系列的最新一代大型語言模型,提供了一整套密集型和混合專家 (MoE) 模型。
工具 思考 0.6b 1.7b 4b 8b 14b 30b 32b 235b2650萬 次下載 58 個標籤 更新於 6個月前
-
llama3
Meta Llama 3:目前最強大的開源LLM
8b 70b2230萬 次下載 68 個標籤 更新於 1年前
-
gemma2
Google Gemma 2 是一種高效能且高效的模型,提供三種尺寸:2B、9B 和 27B。
2b 9b 27b2050萬 次下載 94 個標籤 更新於 1年前
-
phi3
Phi-3 是微軟推出的一系列輕量級、先進的開源模型,包括 3B(Mini)和 14B(Medium)版本。
3.8b 14b1720萬 次下載 72 個標籤 更新於 1年前
-
qwen2.5-coder
最新的程式碼專用 Qwen 模型系列,在程式碼生成、程式碼推理和程式碼修復方面有了顯著改進。
工具 0.5b 1.5b 3b 7b 14b 32b1400萬 次下載 199 個標籤 更新於 10個月前
-
llava
🌋 LLaVA 是一種新穎的端到端訓練的大型多模態模型,它結合了視覺編碼器和 Vicuna,用於通用的視覺和語言理解。已更新至版本 1.6。
視覺 7b 13b 34b1380萬 次下載 98 個標籤 更新於 2年前
-
mxbai-embed-large
來自 mixedbread.ai 的最先進的大型嵌入模型
嵌入 335m940萬 次下載 4 個標籤 更新於 1年前
-
gpt-oss
OpenAI 的開放權重模型,專為強大的推理、代理任務和多功能的開發者用例而設計。
工具 思考 雲端 20b 120b870萬 次下載 5 個標籤 更新於 6個月前
-
phi4
Phi-4 是微軟出品的 140 億引數、最先進的開源模型。
14b740萬 次下載 5 個標籤 更新於 1年前
-
gemma
Gemma 是由 Google DeepMind 構建的一系列輕量級、最先進的開放模型。已更新至版本 1.1
2b 7b670萬 次下載 102 個標籤 更新於 2年前
-
llama2
Llama 2 是一系列基礎語言模型,引數範圍從 7B 到 70B。
7b 13b 70b6.5M 次下載 102 個標籤 更新於 2 年前
-
qwen
Qwen 1.5 是阿里雲推出的一系列大型語言模型,引數量從0.5B到110B不等
0.5b 1.8b 4b 7b 14b 32b 72b 110b6.4M 次下載 379 個標籤 更新於 1 年前
-
qwen3.5
Qwen 3.5 是一個開源多模態模型系列,提供卓越的實用性和效能。
視覺 工具 推理 雲端 0.8b 2b 4b 9b 27b 35b 122b5.8M 次下載 58 個標籤 更新於 1 周前
-
qwen2
Qwen2 是阿里巴巴集團推出的一系列大型語言模型
工具 0.5b 1.5b 7b 72b5.7M 次下載 97 個標籤 更新於 1 年前
-
codellama
一種大型語言模型,可以使用文字提示生成和討論程式碼。
7b 13b 34b 70b5.1M 次下載 199 個標籤 更新於 1 年前
-
minicpm-v
一系列專為視覺-語言理解設計的多模態大語言模型 (MLLMs)。
視覺 8b5M 次下載 17 個標籤 更新於 1 年前
-
tinyllama
TinyLlama 專案是一個開放的嘗試,旨在用 3 萬億個 token 訓練一個緊湊的 1.1B Llama 模型。
1.1b4.6M 次下載 36 個標籤 更新於 2 年前
-
qwen3-coder
阿里巴巴高效能長上下文模型,適用於代理和編碼任務。
工具 雲端 30b 480b4.6M 次下載 10 個標籤 更新於 6 個月前
-
llama3.2-vision
Llama 3.2 Vision 是一個包含 11B 和 90B 尺寸的指令微調影像推理生成模型集合。
視覺 11b 90b4.3M 次下載 9 個標籤 更新於 10 個月前
-
deepseek-coder
DeepSeek Coder 是一個強大的編碼模型,基於 2 萬億個程式碼和自然語言標記進行訓練。
1.3b 6.7b 33b3.9M 次下載 102 個標籤 更新於 2 年前
-
mistral-nemo
由 Mistral AI 與 NVIDIA 合作構建的先進 12B 模型,具有 128k 上下文長度。
工具 12b3.9M 次下載 17 個標籤 更新於 8 個月前
-
bge-m3
BGE-M3 是 BAAI 的一個新模型,以其在多功能性、多語言性和多粒度方面的多功能性而著稱。
嵌入式 567m3.8M 次下載 3 個標籤 更新於 1 年前
-
deepseek-v3
一種強大的混合專家 (MoE) 語言模型,總引數量為 671B,每個 token 啟用 37B 引數。
671b3.8M 次下載 5 個標籤 更新於 1 年前
-
dolphin3
Dolphin 3.0 Llama 3.1 8B 🐬 是 Dolphin 系列指令微調模型的下一代產品,旨在成為終極通用本地模型,支援編碼、數學、代理、函式呼叫和通用用例。
8b3.8M 次下載 5 個標籤 更新於 1 年前
-
llama3.3
全新的最先進的70B模型。Llama 3.3 70B 提供的效能與 Llama 3.1 405B 模型相似。
工具 70b3.7M 次下載 14 個標籤 更新於 1 年前
-
olmo2
OLMo 2 是一系列使用高達 5T tokens 訓練的 7B 和 13B 模型。這些模型與同等大小的完全開源模型相當或更好,並且在英語學術基準測試中與 Llama 3.1 等開放權重模型具有競爭力。
7b 13b3.7M 次下載 9 個標籤 更新於 1 年前
-
smollm2
SmolLM2 是一系列緊湊型語言模型,提供三種尺寸:135M、360M 和 1.7B 引數。
工具 135m 360m 1.7b3.2M 次下載 49 個標籤 更新於 1 年前
-
qwen3-vl
迄今為止,Qwen模型系列中最強大的視覺-語言模型。
視覺 工具 推理 雲端 2b 4b 8b 30b 32b 235b3.1M 次下載 59 個標籤 更新於 5 個月前
-
snowflake-arctic-embed
Snowflake推出的一系列文字嵌入模型,針對性能進行了最佳化。
嵌入式 22m 33m 110m 137m 335m2.9M 次下載 16 個標籤 更新於 1 年前
-
all-minilm
在非常大的句子級別資料集上訓練的嵌入模型。
嵌入式 22m 33m2.9M 次下載 10 個標籤 更新於 1 年前
-
mistral-small
Mistral Small 3 在低於 70B 的“小型”大型語言模型類別中樹立了新的標杆。
工具 22b 24b290萬 次下載 21 個標籤 更新於 1年前
-
codegemma
CodeGemma 是一系列強大、輕量級的模型,可以執行各種編碼任務,例如程式碼補全、程式碼生成、自然語言理解、數學推理和指令遵循。
2b 7b290萬 次下載 85 個標籤 更新於 1年前
-
granite3.1-moe
IBM Granite 1B 和 3B 模型是 IBM 設計的具有長上下文的混合專家 (MoE) Granite 模型,專為低延遲使用而設計。
工具 1b 3b280萬 次下載 33 個標籤 更新於 1年前
-
starcoder2
StarCoder2 是新一代透明訓練的開原始碼 LLM,提供三種尺寸:3B、7B 和 15B 引數。
3b 7b 15b270萬 次下載 67 個標籤 更新於 1年前
-
orca-mini
一種通用模型,引數範圍從30億到700億,適用於入門級硬體。
3b 7b 13b 70b270萬 次下載 119 個標籤 更新於 2年前
-
mixtral
由Mistral AI提供的具有開放權重的專家混合 (MoE) 模型,引數大小為8x7b和8x22b。
tools 8x7b 8x22b250萬 次下載 70 個標籤 更新於 1年前
-
falcon3
一款引數量小於10B的高效AI模型,透過創新的訓練技術,在科學、數學和編碼方面表現出色。
1b 3b 7b 10b250萬 次下載 17 個標籤 更新於 1年前
-
llama2-uncensored
由 George Sung 和 Jarrad Hope 建立的無審查 Llama 2 模型。
7b 70b240萬 次下載 34 個標籤 更新於 2年前
-
gemma4
Gemma 4 系列模型旨在各個尺寸下均提供前沿水平的效能。它們非常適合處理推理、智慧體工作流、程式碼編寫和多模態理解任務。
vision tools thinking audio cloud e2b e4b 26b 31b240萬 次下載 17 個標籤 更新於 6天前
-
deepseek-coder-v2
一個開源的混合專家(Mixture-of-Experts)程式碼語言模型,在程式碼相關任務中實現了與GPT4-Turbo相當的效能。
16b 236b230萬 次下載 64 個標籤 更新於 1年前
-
llava-llama3
一個基於 Llama 3 Instruct 微調的 LLaVA 模型,在多個基準測試中獲得了更好的分數。
視覺 8b220萬 次下載 4 個標籤 更新於 1年前
-
qwq
QwQ 是 Qwen 系列的推理模型。
tools 32b220萬 次下載 8 個標籤 更新於 1年前
-
cogito
Cogito v1 預覽版是由 Deep Cogito 提供的混合推理模型系列,在大多數標準基準測試中,其效能優於同等規模的最佳開源模型,包括來自 LLaMA、DeepSeek 和 Qwen 的模型。
tools 3b 8b 14b 32b 70b190萬 次下載 20 個標籤 更新於 1年前
-
qwen2.5vl
Qwen的旗艦視覺語言模型,也是對上一代Qwen2-VL的重大飛躍。
vision 3b 7b 32b 72b170萬 次下載 17 個標籤 更新於 10個月前
-
dolphin-llama3
Dolphin 2.9 是 Eric Hartford 基於 Llama 3 構建的一個新模型,擁有 8B 和 70B 兩種尺寸,具備各種指令、對話和編碼能力。
8b 70b170萬 次下載 53 個標籤 更新於 1年前
-
qwen3-embedding
基於Qwen3系列的基礎模型,Qwen3 Embedding提供了各種尺寸的全面文字嵌入模型。
embedding 0.6b 4b 8b170萬 次下載 12 個標籤 更新於 6個月前
-
mistral-small3.2
對 Mistral Small 的更新,改進了函式呼叫、指令遵循以及減少重複錯誤。
vision tools 24b170萬 次下載 5 個標籤 更新於 9個月前
-
smollm
🪐 一個包含135M、360M和1.7B引數的小模型系列,基於新的高質量資料集進行訓練。
135m 360m 1.7b160萬 次下載 94 個標籤 更新於 1年前
-
dolphin-mixtral
無審查,基於Mixtral混合專家模型,在編碼任務中表現卓越的8x7b和8x22b微調模型。由Eric Hartford建立。
8x7b 8x22b160萬 次下載 70 個標籤 更新於 1年前
-
llama4
Meta最新的多模態模型系列。
vision tools 16x17b 128x17b160萬 次下載 11 個標籤 更新於 9個月前
-
gemma3n
Gemma 3n 模型專為在日常裝置(如筆記型電腦、平板電腦或手機)上高效執行而設計。
e2b e4b1.5M 次下載 9 個標籤 更新於 9個月前
-
dolphin-phi
由 Eric Hartford 基於微軟研究院的 Phi 語言模型建立的 2.7B 無審查 Dolphin 模型。
2.7b1.5M 次下載 15 個標籤 更新於 2年前
-
phi4-推理
Phi 4 推理和推理增強模型是具有140億引數的開放權重推理模型,在複雜的推理任務上可與更大的模型相媲美。
14b1.5M 次下載 9 個標籤 更新於 11個月前
-
phi
Phi-2:微軟研究院開發的 2.7B 引數語言模型,展現出卓越的推理和語言理解能力。
2.7b1.4M 次下載 18 個標籤 更新於 2年前
-
dolphin-mistral
基於 Mistral 的 Dolphin 模型,擅長編碼任務。已更新至 2.8 版本。
7b1.3M 次下載 120 個標籤 更新於 2年前
-
magistral
Magistral 是一個小型、高效的推理模型,擁有 24B 引數。
工具 思考 24b1.3M 次下載 5 個標籤 更新於 9個月前
-
command-r
Command R 是一個針對對話互動和長上下文任務最佳化的語言模型。
工具 35b1.3M 次下載 32 個標籤 更新於 1年前
-
granite-code
IBM為程式碼智慧打造的一系列開放基礎模型
3b 8b 20b 34b1.2M 次下載 162 個標籤 更新於 1年前
-
deepscaler
一個基於Deepseek-R1-Distilled-Qwen-1.5B微調的版本,在流行的數學評估中,僅使用1.5B引數就超越了OpenAI的o1-preview的效能。
1.5b1.2M 次下載 5 個標籤 更新於 1年前
-
hermes3
Hermes 3 是 Nous Research 旗艦 Hermes 系列 LLM 的最新版本
工具 3b 8b 70b 405b1.2M 次下載 65 個標籤 更新於 1年前
-
codestral
Codestral 是 Mistral AI 推出的首個程式碼模型,專為程式碼生成任務而設計。
22b1.2M 次下載 17 個標籤 更新於 1年前
-
glm-4.7-flash
作為 30B 級別中最強大的模型,GLM-4.7-Flash 提供了一種新的輕量級部署選項,在效能和效率之間取得平衡。
工具 思考1.1M 次下載 4 個標籤 更新於 2個月前
-
granite4
Granite 4 具有改進的指令遵循 (IF) 和工具呼叫能力,使其在企業應用中更有效。
工具 350m 1b 3b1.1M 次下載 17 個標籤 更新於 5個月前
-
yi
Yi 1.5 是一種高效能的雙語語言模型。
6b 9b 34b1.1M 次下載 174 個標籤 更新於 1年前
-
lfm2.5-thinking
LFM2.5 是一種新型混合模型系列,專為裝置端部署而設計。
工具 1.2b1.1M 次下載 5 個標籤 更新於 2個月前
-
zephyr
Zephyr 是一系列基於 Mistral 和 Mixtral 模型進行微調的版本,旨在充當有用的助手。
7b 141b1.1M 次下載 40 個標籤 更新於 1年前
-
mistral-large
Mistral Large 2 是 Mistral 的新款旗艦模型,在程式碼生成、數學和推理方面能力顯著提升,具有 128k 上下文視窗,並支援數十種語言。
工具 123b1.1M 次下載 32 個標籤 更新於 1年前
-
openthinker
一個完全開源的推理模型家族,使用從DeepSeek-R1提煉得出的資料集構建。
7b 32b1.1M 次下載 15 個標籤 更新於 1年前
-
wizard-vicuna-uncensored
Wizard Vicuna Uncensored 是一個基於 Llama 2 的 7B、13B 和 30B 引數模型,由 Eric Hartford 進行了解禁處理。
7b 13b 30b1.1M 次下載 49 個標籤 更新於 2年前
-
translategemma
基於 Gemma 3 構建的新型開放翻譯模型系列,幫助人們跨 55 種語言進行交流。
視覺 4b 12b 27b1.1M 次下載 13 個標籤 更新於 2個月前
-
phi4-mini
Phi-4-mini 在多語言支援、推理和數學方面有了顯著的增強,現在,期待已久的函式呼叫功能終於得到支援。
工具 3.8b1.1M 次下載 5 個標籤 更新於 1年前
-
moondream
moondream2 是一個小型視覺語言模型,旨在高效執行在邊緣裝置上。
視覺 1.8b1.1M 次拉取 18 標籤 更新於 1年前
-
lfm2
LFM2 是一系列專為端側部署設計的混合模型。LFM2-24B-A2B 是該系列中最大的模型,將架構擴充套件至 240 億引數,同時保持了高效的推理效能。
工具 24b1.1M 次拉取 6 標籤 更新於 1個月前
-
wizardlm2
來自微軟 AI 的最先進的大語言模型,在複雜的對話、多語言、推理和代理用例方面效能得到提升。
7b 8x22b1M 次拉取 22 標籤 更新於 1年前
-
qwen3-coder-next
Qwen3-Coder-Next 是阿里巴巴 Qwen 團隊訓練的一個專注於編碼的語言模型,針對代理編碼工作流程和本地開發進行了最佳化。
工具 雲端1M 次拉取 4 標籤 更新於 2個月前
-
starcoder
StarCoder 是一個程式碼生成模型,在 80 多種程式語言上進行訓練。
1b 3b 7b 15b1M 次拉取 100 標籤 更新於 2年前
-
nous-hermes
基於 Llama 和 Llama 2 的通用使用模型,來自 Nous Research。
7b 13b1M 次拉取 63 標籤 更新於 2年前
-
deepseek-v2
一種強大、經濟高效的混合專家語言模型。
16b 236b1M 次拉取 34 標籤 更新於 1年前
-
deepseek-llm
使用 2 萬億雙語詞元構建的先進語言模型。
7b 67b1M 次拉取 64 標籤 更新於 2年前
-
glm4
GLM4,由Cohere釋出,是一個新的、最先進的多語言模型系列,支援23種語言。
9b1M 次拉取 32 標籤 更新於 1年前
-
openchat
一個在各種資料上訓練的開源模型家族,在各種基準測試中超越了 ChatGPT。已更新至版本 3.5-0106。
7b995.2K 次拉取 50 標籤 更新於 2年前
-
falcon
由技術創新研究所 (TII) 構建的大型語言模型,用於摘要、文字生成和聊天機器人。
7b 40b 180b992.7K 次拉取 38 標籤 更新於 2年前
-
granite3.3
IBM Granite 2B 和 8B 模型是 128K 上下文長度的語言模型,經過微調,提高了推理和指令遵循能力。
工具 2b 8b987K 次拉取 3 標籤 更新於 12個月前
-
vicuna
基於 Llama 和 Llama 2 的通用聊天模型,上下文大小為 2K 到 16K。
7b 13b 33b984.4K 次拉取 111 標籤 更新於 2年前
-
embeddinggemma
EmbeddingGemma 是 Google 的一個 300M 引數嵌入模型。
嵌入 300m965K 次拉取 5 標籤 更新於 7個月前
-
codeqwen
CodeQwen1.5 是一個在大量程式碼資料上預訓練的大型語言模型。
7b963.2K 次拉取 30 標籤 更新於 1年前
-
openhermes
OpenHermes 2.5 是一個 7B 模型,由 Teknium 在 Mistral 上使用完全開放的資料集進行微調。
960.7K 次拉取 35 標籤 更新於 2年前
-
qwen2-math
Qwen2 Math 是一系列基於 Qwen2 LLM 構建的專業數學語言模型,在數學能力方面顯著優於開源模型,甚至優於閉源模型(例如 GPT4o)。
1.5b 7b 72b947K 次拉取 52 標籤 更新於 1年前
-
aya
Aya 23,由Cohere釋出,是一個全新的、最先進的、多語言模型系列,支援23種語言。
8b 35b939.2K 次拉取 33 標籤 更新於 1年前
-
llama2-chinese
基於 Llama 2 的模型,針對中文對話能力進行微調。
7b 13b929.2K 次拉取 35 標籤 更新於 2年前
-
neural-chat
基於 Mistral 的微調模型,在領域和語言覆蓋方面表現良好。
7b926.8K 次拉取 50 標籤 更新於 2年前
-
stable-code
Stable Code 3B 是一種編碼模型,其指令和程式碼補全變體與 Code Llama 7B 等 2.5 倍更大的模型相當。
3b923.2K 次拉取 36 標籤 更新於 2年前
-
ministral-3
Ministral 3 系列專為邊緣部署而設計,可在各種硬體上執行。
視覺 工具 雲端 3b 8b 14b918.7K 次拉取 16 標籤 更新於 4個月前
-
nous-hermes2
由 Nous Research 打造的強大模型系列,擅長科學討論和編碼任務。
10.7b 34b917.5K 次拉取 33 標籤 更新於 2年前
-
sqlcoder
SQLCoder 是一個在 StarCoder 上微調的程式碼補全模型,用於 SQL 生成任務
7b 15b910K 次拉取 48 標籤 更新於 2年前
-
devstral
Devstral:用於編碼代理的最佳開源模型
工具 24b908.7K 次下載 5 個標籤 更新於 9個月前
-
wizardcoder
最先進的程式碼生成模型
33b905.9K 次下載 67 個標籤 更新於 2年前
-
yi-coder
Yi-Coder 是一系列開原始碼語言模型,在引數少於 100 億的情況下,提供最先進的編碼效能。
1.5b 9b900.7K 次下載 67 個標籤 更新於 1年前
-
stablelm2
Stable LM 2 是一種最先進的 1.6B 和 12B 引數語言模型,它在英語、西班牙語、德語、義大利語、法語、葡萄牙語和荷蘭語的多語言資料上進行訓練。
1.6b 12b891.8K 次下載 84 個標籤 更新於 1年前
-
llama3-chatqa
基於 Llama 3 的 NVIDIA 模型,擅長對話式問答 (QA) 和檢索增強生成 (RAG)。
8b 70b888.4K 次下載 35 個標籤 更新於 1年前
-
granite3-dense
IBM Granite 2B 和 8B 模型旨在支援基於工具的使用場景,並支援檢索增強生成 (RAG),簡化程式碼生成、翻譯和錯誤修復。
工具 2b 8b888K 次下載 33 個標籤 更新於 1年前
-
granite3.1-dense
IBM Granite 2B 和 8B 模型是僅文字的密集 LLM,在超過 12 萬億個 token 的資料上進行訓練,在 IBM 的初步測試中,與它們的前身相比,效能和速度都得到了顯著提升。
工具 2b 8b886K 次下載 33 個標籤 更新於 1年前
-
granite3.2-vision
一款緊湊高效的視覺-語言模型,專為視覺文件理解而設計,能夠自動提取表格、圖表、資訊圖、繪圖、圖表等內容。
視覺 工具 2b882.2K 次下載 5 個標籤 更新於 1年前
-
dolphincoder
基於StarCoder2的,擅長編碼的Dolphin模型家族的7B和15B無審查變體。
7b 15b874.7K 次下載 35 個標籤 更新於 2年前
-
wizard-math
專注於數學和邏輯問題的模型
7b 13b 70b872.8K 次下載 64 個標籤 更新於 2年前
-
llama3-gradient
該模型將 LLama-3 8B 的上下文長度從 8k 擴充套件到超過 1m 個標記。
8b 70b872.5K 次下載 35 個標籤 更新於 1年前
-
phi3.5
一款輕量級AI模型,擁有38億引數,效能超越了同等規模甚至更大的模型。
3.8b870.4K 次下載 17 個標籤 更新於 1年前
-
samantha-mistral
一個在哲學、心理學和人際關係方面訓練的伴侶助手。基於 Mistral。
7b867.5K 次下載 49 個標籤 更新於 2年前
-
llama-guard3
Llama Guard 3 是一系列針對 LLM 輸入和響應的內容安全分類進行微調的模型。
1b 8b865.6K 次下載 33 個標籤 更新於 1年前
-
llama3-groq-tool-use
Groq推出的一系列模型,代表著開源人工智慧在工具使用/函式呼叫方面的重要進步。
工具 8b 70b863.3K 次下載 33 個標籤 更新於 1年前
-
internlm2
InternLM2.5 是一個 7B 引數模型,專為實際場景量身定製,具有出色的推理能力。
1m 1.8b 7b 20b861.7K 次下載 65 個標籤 更新於 1年前
-
starling-lm
Starling 是一個大型語言模型,由人工智慧反饋強化學習訓練而成,專注於提高聊天機器人的實用性。
7b851.9K 次下載 36 個標籤 更新於 2年前
-
solar
一款緊湊但功能強大的10.7B大型語言模型,專為單輪對話設計。
10.7b848.4K 次下載 32 個標籤 更新於 2年前
-
phind-codellama
基於 Code Llama 的程式碼生成模型。
34b847.5K 次下載 49 個標籤 更新於 2年前
-
aya-expanse
Cohere For AI 的語言模型,在 23 種不同語言上表現出色。
工具 8b 32b846.7K 次下載 33 個標籤 更新於 1年前
-
xwinlm
基於 Llama 2 的對話模型,在各種基準測試中表現具有競爭力。
7b 13b842.6K 次下載 80 個標籤 更新於 2年前
-
deepcoder
DeepCoder 是一個完全開源的 14B 編碼器模型,級別為 O3-mini,同時提供 1.5B 版本。
1.5b 14b840.2K 次下載 9 個標籤 更新於 1年前
-
granite3-moe
IBM Granite 1B 和 3B 模型是 IBM 設計的首批混合專家 (MoE) Granite 模型,專為低延遲使用而設計。
工具 1b 3b835.8K 次下載 33 個標籤 更新於 1年前
-
yarn-llama2
Llama 2 的一個擴充套件,支援高達 128k tokens 的上下文。
7b 13b834.7K 次下載 67 個標籤 更新於 2年前
-
orca2
Orca 2 由微軟研究構建,是 Meta 的 Llama 2 模型的微調版本。該模型旨在特別擅長推理。
7b 13b822.2K 次下載 33 個標籤 更新於 2年前
-
stable-beluga
基於 Llama 2 的模型,在 Orca 風格的資料集上進行微調。最初名為 Free Willy。
7b 13b 70b813.7K 次下載 49 個標籤 更新於 2年前
-
reader-lm
一系列將 HTML 內容轉換為 Markdown 內容的模型,適用於內容轉換任務。
0.5b 1.5b810.2K 次下載 33 個標籤 更新於 1年前
-
bakllava
BakLLaVA 是一個多模態模型,由 Mistral 7B 基礎模型和 LLaVA 架構增強而成。
視覺 7b805.9K 次下載 17 個標籤 更新於 2年前
-
shieldgemma
ShieldGemma 是一系列經過指令微調的模型,用於評估文字提示輸入和文字輸出響應相對於一組定義的安全策略的安全性。
2b 9b 27b805.4K 次下載 49 個標籤 更新於 1年前
-
llama-pro
Llama 2 的擴充套件,專注於整合通用的語言理解和特定領域的知識,尤其是在程式設計和數學方面。
798.7K 次下載 33 個標籤 更新於 2年前
-
yarn-mistral
Yarn-Mistral 是對 Mistral 的擴充套件,支援 64K 或 128K 的上下文視窗。
7b794.4K 次下載 33 個標籤 更新於 2年前
-
nexusraven
Nexus Raven 是一個用於函式呼叫任務的 13B 指令微調模型。
13b791.3K 次下載 32 個標籤 更新於 2年前
-
paraphrase-multilingual
一個句子轉換模型,可用於聚類或語義搜尋等任務。
嵌入 278m779.8K 次下載 3 個標籤 更新於 1年前
-
wizardlm
基於 Llama 2 的通用使用模型。
770.5K 次下載 73 個標籤 更新於 2年前
-
devstral-small-2
24B模型,擅長使用工具探索程式碼庫,編輯多個檔案和驅動軟體工程代理。
視覺 工具 雲端 24b767.9K 次下載 6 個標籤 更新於 3個月前
-
command-r-plus
Command R+ 是一款功能強大、可擴充套件的大型語言模型,專為在現實世界的企業用例中表現出色而設計。
工具 104b717.2K 次下載 21 個標籤 更新於 1年前
-
mistral-small3.1
在Mistral Small 3的基礎上,Mistral Small 3.1 (2503) 增加了最先進的視覺理解能力,並增強了長文字處理能力,最高可達128k個token,同時不影響文字效能。
vision tools 24b711.6K 次下載 5 個標籤 更新於 1年前
-
exaone-deep
EXAONE Deep 在各種推理任務中表現出卓越的能力,包括數學和編碼基準測試,引數範圍從 2.4B 到 32B,由 LG AI Research 開發和釋出。
2.4b 7.8b 32b709.6K 次下載 13 個標籤 更新於 1年前
-
meditron
基於Llama 2的開源醫療領域大型語言模型。
7b 70b647.9K 次下載 22 個標籤 更新於 2年前
-
tinydolphin
一個實驗性的 1.1B 引數模型,基於 Eric Hartford 的新的 Dolphin 2.8 資料集和 TinyLlama 訓練而成。
1.1b644.6K 次下載 18 個標籤 更新於 2年前
-
codegeex4
適用於人工智慧軟體開發場景的多功能模型,包括程式碼補全。
9b621.9K 次下載 17 個標籤 更新於 1年前
-
mistral-openorca
Mistral OpenOrca 是一個 70 億引數的模型,它基於 Mistral 7B 模型,使用 OpenOrca 資料集進行微調。
7b619.1K 次下載 17 個標籤 更新於 2年前
-
nemotron-mini
由 NVIDIA 提供的商業友好型小型語言模型,針對角色扮演、RAG問答和函式呼叫進行了最佳化。
工具 4b576.1K 次下載 17 個標籤 更新於 1年前
-
deepseek-v3.1
DeepSeek-V3.1-Terminus 是一個混合模型,支援思考模式和非思考模式。
工具 思考 雲端 671b573.5K 次下載 8 個標籤 更新於 6個月前
-
opencoder
OpenCoder 是一個開放且可復現的程式碼 LLM 系列,包括 1.5B 和 8B 模型,支援英語和中文聊天。
1.5b 8b571.3K 次下載 9 個標籤 更新於 1年前
-
wizardlm-uncensored
Wizard LM模型的非審查版本
13b569.2K 次下載 18 個標籤 更新於 2年前
-
reflection
一個高效能模型,使用一種名為Reflection-tuning的新技術進行訓練,該技術教會LLM檢測其推理中的錯誤並及時糾正。
70b553.7K 次下載 17 個標籤 更新於 1年前
-
nemotron
Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 定製的大型語言模型,旨在提高 LLM 生成的回覆對使用者查詢的幫助性。
工具 70b542.1K 次下載 17 個標籤 更新於 1年前
-
athene-v2
Athene-V2 是一個 72B 引數模型,擅長程式碼補全、數學和日誌提取任務。
工具 72b530.7K 次下載 17 個標籤 更新於 1年前
-
nous-hermes2-mixtral
Nous Research 的 Nous Hermes 2 模型,現在基於 Mixtral 訓練。
8x7b529.2K 次下載 18 個標籤 更新於 1年前
-
codeup
基於 Llama2 的優秀程式碼生成模型。
13b527.9K 次下載 19 個標籤 更新於 2年前
-
qwen3-next
Qwen3-Next 系列的第一個版本,在引數效率和推理速度方面都具有強大的效能。
工具 推理 雲端 80b513.7K 次下載 10 個標籤 更新於 4個月前
-
medllama2
基於開源醫學資料集微調的 Llama 2 模型,用於回答醫學問題。
7b508.4K 次下載 17 個標籤 更新於 2年前
-
megadolphin
MegaDolphin-2.2-120b 是透過將模型與其自身交錯建立的 Dolphin-2.2-70b 的轉換版本。
120b507.7K 次下載 19 個標籤 更新於 2年前
-
everythinglm
基於 Llama2 的無審查模型,支援 16K 的上下文視窗。
13b506.1K 次下載 18 個標籤 更新於 2年前
-
solar-pro
Solar Pro 預覽版:一種具有 220 億引數的高階大型語言模型 (LLM),旨在適應單個 GPU
22b499.3K 次下載 18 個標籤 更新於 1年前
-
magicoder
🎩 Magicoder 是一個由 75K 個合成指令資料訓練的 7B 引數模型,使用了 OSS-Instruct,這是一種透過開原始碼片段來啟發 LLM 的新方法。
7b496K 次下載 18 個標籤 更新於 2年前
-
mathstral
MathΣtral:由 Mistral AI 設計的用於數學推理和科學發現的 7B 模型。
7b488.3K 次下載 17 個標籤 更新於 1年前
-
notus
一個基於 Zephyr 的、使用高質量資料微調的 7B 聊天模型。
7b482.2K 次下載 18 個標籤 更新於 2年前
-
notux
一個性能優異的混合專家模型,使用高質量資料進行微調。
8x7b481.7K 次下載 18 個標籤 更新於 2年前
-
falcon2
Falcon2 是一個由TII構建的、僅包含因果解碼器的11B引數模型,並在5T tokens上進行訓練。
11b480K 次下載 17 個標籤 更新於 1年前
-
stablelm-zephyr
一款輕量級聊天模型,無需高階硬體即可實現準確且響應迅速的輸出。
3b477.7K 次下載 17 個標籤 更新於 2年前
-
nuextract
一個基於Phi-3,在私有高質量合成數據集上微調的3.8B模型,用於資訊提取。
3.8b474.7K 次下載 17 個標籤 更新於 1年前
-
exaone3.5
EXAONE 3.5 是由LG AI Research開發和釋出的一系列指令微調的雙語(英語和韓語)生成模型,引數範圍從2.4B到32B。
2.4b 7.8b 32b473.6K 次下載 13 個標籤 更新於 1年前
-
duckdb-nsql
由 MotherDuck 和 Numbers Station 製作的 7B 引數文字到 SQL 模型。
7b472.7K 次下載 17 個標籤 更新於 2年前
-
bespoke-minicheck
由Bespoke Labs開發的先進事實核查模型。
7b470.2K 次下載 17 個標籤 更新於 1年前
-
mistrallite
MistralLite 是基於 Mistral 進行微調的模型,具有增強的長上下文處理能力。
7b469.9K 次下載 17 個標籤 更新於 2年前
-
wizard-vicuna
Wizard Vicuna 是一個基於 Llama 2 的 13B 引數模型,由 MelodysDreamj 訓練。
13b464.5K 次下載 17 個標籤 更新於 2年前
-
firefunction-v2
基於 Llama 3 的開放權重函式呼叫模型,其功能呼叫能力與 GPT-4o 相當。
工具 70b464.2K 次下載 17 個標籤 更新於 1年前
-
open-orca-platypus2
Open Orca OpenChat 模型和 Garage-bAInd Platypus 2 模型的合併。專為聊天和程式碼生成設計。
13b457.3K 次下載 17 個標籤 更新於 2年前
-
codebooga
透過合併兩個現有的程式碼模型建立的高效能程式碼指令模型。
34b446.4K 次下載 16 個標籤 更新於 2年前
-
rnj-1
Rnj-1 是 Essential AI 訓練的一個 8B 引數開放權重密集模型系列,針對程式碼和 STEM 進行了最佳化,其能力與 SOTA 開放權重模型相當。
工具 雲端 8b440.5K 次下載 6 個標籤 更新於 4個月前
-
goliath
透過合併兩個微調的 Llama 2 70B 模型構建的語言模型。
430.8K 次下載 16 個標籤 更新於 2年前
-
granite3.2
Granite-3.2 是 IBM Granite 的一個長上下文 AI 模型系列,針對思維能力進行了微調。
工具 2b 8b414.6K 次下載 9 個標籤 更新於 1年前
-
olmo-3
Olmo 是一系列開放語言模型,旨在推動語言模型科學的發展。這些模型在 Dolma 3 資料集上進行預訓練,並在 Dolci 資料集上進行後訓練。
7b 32b397.9K 次下載 15 個標籤 更新於 3個月前
-
deepseek-ocr
DeepSeek-OCR 是一個視覺-語言模型,可以執行高效的 OCR。
視覺 (vision) 3b396K 次下載 3 個標籤 更新於 4個月前
-
r1-1776
由 Perplexity 對 DeepSeek-R1 模型進行後訓練的版本,旨在提供公正、準確和事實資訊。
70b 671b387.6K 次下載 9 個標籤 更新於 1年前
-
nemotron-3-nano
Nemotron-3-Nano 是高效、開放且智慧的智慧體模型新標準,現已更新為 4B 引數模型。
工具 (tools) 思考 (thinking) 雲端 (cloud) 4b 30b383.1K 次下載 9 個標籤 更新於 3周前
-
sailor2
Sailor2 是專為東南亞設計的多語言語言模型。提供 1B、8B 和 20B 引數規模的模型。
1b 8b 20b365.1K 次下載 13 個標籤 更新於 1年前
-
tulu3
Tülu 3 是一系列領先的指令遵循模型,由 Allen Institute for AI 提供完全開源的資料、程式碼和配方。
8b 70b347.1K 次下載 9 個標籤 更新於 1年前
-
snowflake-arctic-embed2
Snowflake的前沿嵌入模型。Arctic Embed 2.0 在不犧牲英語效能或可擴充套件性的前提下,增加了多語言支援。
嵌入 (embedding) 568m327.9K 次下載 3 個標籤 更新於 1年前
-
granite-embedding
IBM Granite Embedding 30M 和 278M 模型是僅包含文字的密集雙編碼器嵌入模型,30M 僅提供英文版本,而 278M 服務於多語言使用場景。
嵌入 (embedding) 30m 278m310.9K 次下載 6 個標籤 更新於 1年前
-
granite3-guardian
IBM Granite Guardian 3.0 2B 和 8B 模型旨在檢測提示和/或響應中的風險。
2b 8b299.2K 次下載 10 個標籤 更新於 1年前
-
dbrx
DBRX 是由 Databricks 建立的一個開放的、通用的 LLM。
132b297.9K 次下載 7 個標籤 更新於 1年前
-
llava-phi3
一個基於Phi 3 Mini微調的新型小型LLaVA模型。
視覺 (vision) 3.8b268.3K 次下載 4 個標籤 更新於 1年前
-
deepseek-v2.5
DeepSeek-V2的升級版本,集成了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的通用能力和編碼能力。
236b262K 次下載 7 個標籤 更新於 1年前
-
bge-large
來自BAAI的嵌入模型,將文字對映到向量。
嵌入 335m254.6K 次下載 3 個標籤 更新於 1年前
-
olmo-3.1
Olmo 是一系列開放語言模型,旨在推動語言模型科學的發展。這些模型在 Dolma 3 資料集上進行預訓練,並在 Dolci 資料集上進行後訓練。
tools 32b253.9K 次下載 10 個標籤 更新於 3個月前
-
phi4-mini-reasoning
Phi 4 mini reasoning 是一個輕量級的開源模型,在效率和高階推理能力之間取得了平衡。
3.8b248.6K 次下載 5 個標籤 更新於 11個月前
-
glm-ocr
GLM-OCR 是一個基於 GLM-V 編碼器-解碼器架構構建的,用於複雜文件理解的多模態 OCR 模型。
視覺 (vision) 工具 (tools)245.1K 次下載 3 個標籤 更新於 2個月前
-
command-r7b
Cohere R 系列中最小的模型,在速度、效率和質量方面表現出色,可用於在通用 GPU 和邊緣裝置上構建強大的 AI 應用程式。
工具 7b243.8K 次下載 5 個標籤 更新於 1年前
-
kimi-k2.5
Kimi K2.5 是一個開源的、原生多模態代理模型,它無縫整合視覺和語言理解,以及先進的代理能力、即時和思考模式,以及對話和代理正規化。
視覺 (vision) 工具 (tools) 思考 (thinking) 雲端 (cloud)235.8K 次下載 1 個標籤 更新於 2個月前
-
smallthinker
一個基於Qwen 2.5 3B Instruct模型微調的新型小型推理模型。
3b234K 次下載 5 個標籤 更新於 1年前
-
nemotron-3-super
NVIDIA Nemotron 3 Super 是一款 120B 開源 MoE 模型,僅需啟用 12B 引數,即可為複雜的多智慧體應用提供極致的計算效率和準確性。
工具 (tools) 思考 (thinking) 雲端 (cloud) 120b221.9K 次下載 7 個標籤 更新於 1個月前
-
alfred
一種強大的對話模型,專為聊天和指令使用場景設計。
40b216.7K 次下載 7 個標籤 更新於 2年前
-
command-a
針對需要快速、安全和高質量人工智慧的苛刻企業最佳化的 1110 億引數模型
工具 (tools) 111b206.8K 次下載 5 個標籤 更新於 1年前
-
devstral-2
一個 123B 模型,擅長使用工具探索程式碼庫、編輯多個檔案以及驅動軟體工程代理。
工具 雲端 123b195.1K 次下載 6 個標籤 更新於 4個月前
-
marco-o1
由阿里巴巴國際數字商業集團 (AIDC-AI) 開發的用於現實世界解決方案的開放式大型推理模型。
7b195.1K 次下載 5 個標籤 更新於 1年前
-
glm-5
來自 Z.ai 的強大推理和代理模型,總引數 744B(活躍 40B),專為複雜系統工程和長時效任務而構建。
工具 思維鏈 雲端180.7K 次下載 1 個標籤 更新於 1個月前
-
command-r7b-arabic
一款全新的、最先進的輕量級 Command R7B 模型,在先進的阿拉伯語能力方面表現出色,適用於中東和北非的企業。
工具 7b170.6K 次下載 5 個標籤 更新於 1年前
-
cogito-2.1
Cogito v2.1 LLM 是經過指令調優的生成模型。所有模型均以 MIT 許可釋出,可用於商業用途。
雲端 671b168.9K 次下載 6 個標籤 更新於 4個月前
-
nomic-embed-text-v2-moe
nomic-embed-text-v2-moe 是一種多語言 MoE 文字嵌入模型,在多語言檢索方面表現出色。
嵌入166.9K 次下載 1 個標籤 更新於 4個月前
-
minimax-m2.5
MiniMax-M2.5 是一款最先進的大型語言模型,專為現實世界的生產力和編碼任務而設計。
工具 思維鏈 雲端159.8K 次下載 1 個標籤 更新於 1個月前
-
functiongemma
FunctionGemma 是 Google 的 Gemma 3 270M 模型的一個專門版本,專門針對函式呼叫進行了微調。
工具 270m144.2K 次下載 4 個標籤 更新於 3個月前
-
gpt-oss-safeguard
gpt-oss-safeguard-20b 和 gpt-oss-safeguard-120b 是基於 gpt-oss 構建的安全推理模型
工具 思維鏈 20b 120b130.5K 次下載 3 個標籤 更新於 5個月前
-
gemini-3-flash-preview
Gemini 3 Flash 提供速度極快的尖端智慧,且成本僅為一小部分。
視覺 (vision) 工具 (tools) 思考 (thinking) 雲端 (cloud)129K 次下載 2 個標籤 更新於 3個月前
-
glm-4.6
高階代理、推理和編碼能力。
工具 思維鏈 雲端103.4K 次下載 1 個標籤 更新於 5個月前
-
minimax-m2
MiniMax M2 是一種高效的大型語言模型,專為編碼和智慧體工作流程而構建。
工具 思維鏈 雲端99.3K 次下載 1 個標籤 更新於 5個月前
-
nemotron-cascade-2
一款來自 NVIDIA 的開源 30B MoE 模型,具有 3B 啟用引數,可提供強大的推理和智慧體能力。
工具 思維鏈 30b88K 次下載 3 個標籤 更新於 3周前
-
glm-4.7
提升編碼能力
工具 思維鏈 雲端87.7K 次下載 1 個標籤 更新於 3個月前
-
deepseek-v3.2
DeepSeek-V3.2 是一款在計算效率、推理能力和智慧體效能方面實現和諧統一的模型。
工具 思維鏈 雲端76.2K 次下載 1 個標籤 更新於 3個月前
-
minimax-m2.7
MiniMax 的 M2 系列模型,適用於編碼、智慧體工作流和專業生產力場景。
工具 思維鏈 雲端64.9K 次下載 1 個標籤 更新於 3周前
-
kimi-k2
一種最先進的混合專家 (MoE) 語言模型。Kimi K2-Instruct-0905 在公共基準測試和實際編碼代理任務中表現出顯著的效能提升。
工具 雲端59.6K 次下載 1 個標籤 更新於 6個月前
-
kimi-k2-thinking
Kimi K2 Thinking,Moonshot AI 最好的開源思維模型。
工具 思維鏈 雲端53.9K 次下載 1 個標籤 更新於 5個月前
-
mistral-large-3
適用於生產級任務和企業級工作負載的多模態混合專家模型。
視覺 工具 雲端42K 次下載 1 個標籤 更新於 4個月前
-
minimax-m2.1
卓越的多語言能力,提升程式碼工程
工具 雲端38.7K 次下載 1 個標籤 更新於 3個月前
-
glm-5.1
GLM-5.1 是我們面向智慧體工程的下一代旗艦模型,其編碼能力較前代有顯著增強。它在 SWE-Bench Pro 上達到了業界領先水平,並以巨大優勢領先於 GLM-5。
工具 思維鏈 雲端23.6K 次下載 1 個標籤 更新於 4天前