← Blog
AI & LLM·2 TEMMUZ 2026JUL 2, 2026·6 DK OKUMA6 MIN READ

Küçük modeller, büyük iş: her problem frontier model istemezSmall models, big work: not every problem needs a frontier model

Cevap net: üretimdeki LLM işlerinin büyük bölümü — sınıflandırma, extraction, yönlendirme, özet — küçük bir modelin rahatça taşıdığı işlerdir. Frontier model, işin gerçekten zor olan küçük dilimine saklanmalı. Doğru kurgu her isteği en pahalı modele göndermek değil; küçükle başlayıp gerektiğinde yükseltmektir. Bu yazı o kurgunun pratiği: nerede yeter, nerede yetmez, nasıl ölçülür.

The answer is simple: most LLM work in production — classification, extraction, routing, summaries — is work a small model carries comfortably, at a fraction of the cost and latency. Frontier models belong to the genuinely hard slice. The right architecture doesn't send every request to the most expensive model; it starts small and escalates when needed. This post is that architecture in practice.

Naylalabs · MühendislikEngineering

01Ne değişti: küçük artık oyuncak değilWhat changed: small is no longer a toy

Birkaç yıl önce "küçük model" bir demo oyuncağıydı. Bugün tek haneli milyar parametreli modeller, iyi tanımlanmış görevlerde ciddi iş görüyor. Bunu iki teknik mümkün kıldı: distillation ile büyük bir modelin davranışı küçüğe öğretiliyor; quantization ile ağırlıklar küçülüp bir laptop'ta, telefonda ya da edge cihazda gerçek zamanlı çalışır hâle geliyor. Dün GPU cluster isteyen şey bugün cebe sığıyor.

A few years ago a "small model" was a demo toy. Today models with single-digit billions of parameters do serious work on well-defined tasks. Two techniques made this possible: distillation teaches a large model's behavior to a small one; quantization shrinks the weights until they run in real time on a laptop, a phone or an edge device. What needed a GPU cluster yesterday fits in a pocket today.

Bunun üç pratik sonucu var. Maliyet: API üzerinde küçük model token başına onlarca kat ucuzdur; kendi donanımınızda marjinal maliyet sıfıra yaklaşır. Gecikme: ilk token milisaniyelerle ölçülür; cihaz üstünde ağ gidiş-dönüşü tamamen ortadan kalkar. Gizlilik: veri cihazdan hiç çıkmaz — sağlık, finans ve kişisel veri senaryolarında bu bir tercih değil, çoğu zaman gerekliliktir. Bu üç eksen, yazının geri kalanındaki her kararın terazisi.

Three practical consequences. Cost: over an API, a small model is tens of times cheaper per token; on your own hardware the marginal cost approaches zero. Latency: first token is measured in milliseconds; on-device, the network round-trip disappears entirely. Privacy: data never leaves the device — in health, finance and personal-data scenarios that's not a preference, it's often a requirement. These three axes are the scale every decision in the rest of this post is weighed on.

Doğru soru "hangi model en iyi?" değil; "bu iş için yeterli olan en küçük model hangisi?"
The right question isn't "which model is best?" It's "what's the smallest model that is sufficient for this job?"

02Küçük modelin kesin kazandığı yerlerWhere small wins decisively

Ortak desen şu: görev dar, girdi sınırlı, çıktı doğrulanabilir. Bu üçü bir aradaysa küçük model "idare eder" değil, çoğu zaman doğru mühendislik tercihidir:

The common pattern: a narrow task, bounded input, verifiable output. Where those three meet, a small model isn't a compromise — it's usually the correct engineering choice:

Dikkat: bu listedeki hiçbir iş "önemsiz" değil. Hepsi, doğru kurulduğunda gerçek para ve gerçek milisaniye kazandıran işler. Küçük model ucuz olduğu için değil, bu işlerin şekline uyduğu için kazanıyor.

Note that nothing on this list is "trivial". Each one, done right, saves real money and real milliseconds. The small model wins not because it's cheap, but because it fits the shape of the work.

03Dürüst sınırlar: nerede yetmezHonest limits: where it isn't enough

Küçük modelin duvara çarptığı yerler de aynı netlikte. Üç başlık:

Where small models hit the wall is just as clear. Three areas:

Fine-tune bu tabloyu değiştirmez: dar bir görevde davranışı keskinleştirir ama akıl yürütme kapasitesi satın almaz. İş, modelin gerçekten "düşünmesini" gerektiriyorsa bedelini ödeyin.

Fine-tuning doesn't change this picture: it sharpens behavior on a narrow task but doesn't buy reasoning capacity. If the job genuinely requires the model to think, pay for it.

04Router deseni: önce küçük, gerekirse büyükThe router pattern: small first, big when needed

İkisinden birini seçmek zorunda değilsiniz; üretimde en iyi çalışan desen ikisini birlikte kullanır. Her istek önce küçük modele gider. Model emin değilse, çıktı doğrulanamıyorsa ya da iş karmaşıklık eşiğini aşıyorsa istek frontier modele yükseltilir. Trafiğin büyük bölümü ucuz ve hızlı yoldan akar; pahalı model yalnızca hak eden isteklere dokunur.

You don't have to pick one; the pattern that works best in production uses both. Every request goes to the small model first. If the model is uncertain, the output fails validation, or the job crosses a complexity threshold, the request escalates to a frontier model. Most traffic flows through the cheap, fast path; the expensive model only touches requests that earn it.

router.yaml — örnek / example
# önce küçük, belirsizlikte büyük / small first, escalate on uncertainty
route: "destek-triyaj / support-triage"
primary: "slm-8b"  # kendi donanımımızda / self-hosted
escalate_to: "frontier-api"
escalate_if:
  - confidence_below: 0.85
  - schema_invalid: true  # çıktı doğrulanamadı / output failed validation
  - tools_needed: "> 1"

Bu desenin bedeli disiplindir. Küçük modelin yeterli olduğunu hissetmek değil, bilmek zorundasınız — bunun tek yolu iki modeli de aynı eval setiyle ölçmektir. Sonra üretimde iki metriği izlersiniz: kalite skoru ve eskalasyon oranı. Eskalasyon oranı sessizce tırmanıyorsa değişen trafiğinizdir, modeliniz değil; bu drift'i bir dashboard'da görmüyorsanız maliyet avantajınız kimse fark etmeden erir.

The price of this pattern is discipline. You have to know the small model is good enough, not feel it — and the only way is measuring both models against the same eval set. Then in production you watch two metrics: quality score and escalation rate. If the escalation rate climbs quietly, it's your traffic that changed, not your model; unless that drift is on a dashboard, your cost advantage erodes before anyone notices.

Kısa liste. Küçük modele geçmeden: görev tanımı dar ve net ✓ · iki modeli de ölçen eval seti ✓ · belirsizlikte eskalasyon yolu ✓ · eskalasyon oranı dashboard'da ✓ · gizlilik gereksinimleri sınıflandı ✓. Bu beşi yoksa "ucuz", sadece bir his.Before switching to a small model: narrow, explicit task definition ✓ · an eval set that scores both models ✓ · an escalation path on uncertainty ✓ · escalation rate on a dashboard ✓ · privacy requirements classified ✓. Missing these five, "cheap" is just a feeling.
SLMOn-device AIModel RoutingLLM Cost