Botlar, sinir ağları ve RNG dürüstlüğü

Tavla, bir bilgisayarın en iyi insan oyuncuları kanıtlanabilir şekilde geride bıraktığı ilk karmaşık iki oyunculu oyundu. Kanıt 1992'de yayımlandı; Deep Blue'nun Kasparov'u yenmesinden dört yıl, AlphaGo'dan yirmi dört yıl önce. IBM Research'te kendi kendine oynayarak eğitilmiş tek bir sinir ağından geldi. O programdan başlayan zincir — Gerald Tesauro'nun TD-Gammon'u — Jellyfish, Snowie, GNU Backgammon, eXtreme Gammon (XG), BGBlitz ve modern açık kaynak motorlardan geçerek bilgisayar tavlasının teknik tarihini tanımlar.

Bu sayfa o zinciri izler, modern botların nasıl değerlendirildiğini açıklar, 1996-2008 dönemi orijinal GamesGrid bot ailesini belgeler ve platformun rastgele sayı üreteci dürüstlüğüne ilişkin duruşunu ortaya koyar — kullandığımız Mersenne Twister algoritması ve online tavla operatörlerinin tarihinden belgelenmiş bir karşı örnek.

Tamamlayıcı sayfa Performance Ratings (PR) ve ELO, tüm modern rekabet ekosisteminin kullandığı standart yetenek ölçüm çerçevesini kapsar.

1. Motor zaman çizelgesi

Tavlanın bot tarihi beş ayrı evreden geçer. Her evre pozisyon değerlendirmesine temelden farklı bir yaklaşıma karşılık gelir.

Evre	Yaklaşım	Temsilî motor	Yıl
Sinir ağı öncesi	Elle kodlanmış sezgisel kurallar ve rollout	BKG 9.8 (Berliner)	1979
Birinci kuşak NN	Az katmanlı ağlarda geçici-fark kendi kendine oynama	TD-Gammon	1992
Ticari NN	Cilalanmış ticari sinir ağı programları	Jellyfish, Snowie	1994-1998
Açık kaynak NN	Topluluk tarafından inşa edilmiş, ücretsiz kullanım	GNU Backgammon	2002+
Modern referans	Daha derin ağlar, daha büyük özellik kümeleri, daha hızlı rollout	eXtreme Gammon (XG), BGBlitz, Wildbg	2009+

1.1 Sinir ağı öncesi: BKG (Hans Berliner, 1979)

Karmaşık bir masa oyununda mevcut dünya şampiyonunu yenen ilk bilgisayar programı BKG 9.8 idi; Hans Berliner tarafından Carnegie Mellon'da yazıldı. 1979'da Monte Carlo'da yapılan 7 puanlık bir para maçında dönemin dünya tavla şampiyonu Luigi Villa'yı yendi. Galibiyet genel olarak (ve doğru biçimde) kısmen olağanüstü zarlara atfedildi — Berliner'in kendisi de daha büyük bir örneklemde programın muhtemelen Villa'dan zayıf oynadığını yazdı. Ama sonuç tartışılmazdı: "bilgisayarlar tavla oynayamaz" dönemi, bir sonraki evre başlamadan önce sona ermişti.

BKG pozisyonları elle kodlanmış sezgisel kurallarla değerlendiriyordu: prime uzunluğu, blot maruziyeti ve pip count gibi özellikler, Berliner'in temsilî test pozisyonlarına göre ayarladığı parametrelerle ağırlıklandırıldı. Öğrenme bileşeni yoktu. Bu oyun için inşa edilmiş en güçlü öğrenmeyen programdı.

1.2 TD-Gammon (Tesauro, IBM Research, 1992)

Çığır açıcı atılım başka bir paradigmadan geldi. IBM Research'teki Gerald Tesauro, tavlaya geçici-fark pekiştirmeli öğrenmeyi uyguladı. Programı TD-Gammon, tahtayı kodlayan 198 birimlik bir giriş katmanı olan bir feedforward sinir ağıydı (pul dağılımı için hane başına ve renk başına 4 birim, ayrıca bar, toplananlar ve sırası gelen taraf için 6 ek birim); bu, sürüme göre 40 ila 80 sigmoid birimten oluşan tek bir gizli katmana besleniyordu (TD-Gammon 2.1, 80 gizli birim kullanıyordu). Kendi kendine oynayarak eğitildi — program kendisine karşı yüz binlerce oyun oynadı ve her hamleden sonra ağırlıklarını, hamleden önceki pozisyon değerlendirmesini hamleden sonraki pozisyon değerlendirmesine yaklaştıracak şekilde ayarladı.

1992'de yayımlanan ve 1995'e kadar geliştirilen dikkat çekici sonuç, TD-Gammon'un on yıllarca süren insan teorisini çelen rekabetçi açılışlar keşfetmesiydi. TD-Gammon ile başlayıp sonraki yıllarda Jellyfish ve Snowie ile pekişen rollout analizi, çeşitli açılış atışlarında (özellikle 2-1, 4-1 ve 5-1) 1970'lerin slot ağırlıklı uzlaşısını split-builder hamleleri lehine devirdi. Bugün her ciddi turnuva oyuncusunun pek çok açılış atışında oynadığı standart, kısmen bu ilk sinir ağı analizi dalgasıyla belirlendi. Açılış atışları sayfasına bakın (İngilizce).

1.3 Jellyfish, Snowie, GNU Backgammon (1994 – 2000'lerin başı)

Sinir ağı tabanlı ilk ticari program, 1994'te Fredrik Dahl tarafından çıkarılan Jellyfish'ti. Jellyfish TD-Gammon mimarisini izledi (tek gizli katmanlı feedforward ağı) ve birkaç yıl boyunca herkese açık en güçlü programdı. 1998'de çıkan Snowie daha karmaşık bir ağ kullandı ve cilalanmış bir küp eylemi analizörü ekledi; 1990'ların sonunun baskın ticari motoru oldu.

GNU Backgammon (GNUbg ya da gnubg olarak da bilinir) bu zincirin açık kaynak halefidir. İlk geliştirme 1990'ların sonunda başladı; büyük sürümler 2000'lerin başında oturdu. GNUbg'nin değerlendirmesi, milyonlarca pozisyonun rollout'larıyla eğitilmiş çok katmanlı bir feedforward ağıdır; 0-ply, 1-ply, 2-ply ve 3-ply değerlendirme modları rekabetçi oyuncuların analiz için kullandığı hız/doğruluk dengesini sunar. GNU Backgammon ayrıca daha geniş topluluğun kullandığı standart referans Match Equity Tablosu (Rockwell-Kazaross MET) yayımlar.

1.4 eXtreme Gammon (XG) ve sonrası (2009+)

eXtreme Gammon, 2009'da Xavier Dufaure de Citres tarafından çıkarıldı ve mevcut dünya referans standardıdır. XG daha derin bir sinir ağını optimize edilmiş rollout'larla, entegre bir küp eylemi analizörüyle ve rekabet sahnesinde en çok kullanılan analitik arayüzle birleştirir. XG2 (büyük revizyon), modern PR derecelerinin raporlanmasında en sık atıfta bulunulan bottur. Turnuva düzeyinde Performance Rating'ler rutin olarak 4-ply kesme ile XG2 rollout'larına karşı kalibre edilir.

BGBlitz, Frank Berger tarafından bağımsız bir NN motorudur ve aktif geliştirme aşamasındadır. Wildbg, 2023'te çıkan Rust tabanlı açık kaynak bir motor, ham oyun gücünden çok eğitim şeffaflığıyla dikkat çeker — eğitim hattı kamuya açık olarak denetlenebilir ve motor farklı ağ mimarileri ile eğitim stratejilerini değerlendirmek için bir araştırma platformuna dönüştü. Şeffaflık felsefesi, aşağıda ele alınan kendi RNG ve analitik yığın belgelerimizle doğrudan örtüşür.

2. Botlar maçları nasıl analiz eder: FIBS / GamesGrid → GNUbg hattı

Rekabetçi tavlada — 1996'dan bugüne — standart iş akışı, maçları çevrimiçi oynamak, standartlaştırılmış bir metin biçiminde dışa aktarmak ve sonradan bir sinir ağı motorunda analiz etmektir. Orijinal hat:

Maçı FIBS, GamesGrid ya da benzer bir sunucuda oyna.
Maçı SGF ya da JF (Jellyfish) biçimindeki bir metin dosyasına dışa aktar. FIBS dışa aktarmayı oldboard komutuyla destekliyordu; GamesGrid kendi dışa aktarma işlevine sahipti.
Maçı Jellyfish, Snowie, GNU Backgammon ya da (daha sonra) XG'ye içe aktar.
Seçilen değerlendirme derinliğinde analiz et — günlük inceleme için tipik olarak 2-ply, ciddi çalışma için tam rollout.
Rapor: hamle başına hata oranları, küp kararı başına hata oranları ve maç için toplam Performance Rating.

GamesGrid platformu, 1996-2008 versiyonunda, maç dışa aktarmanın birinci sınıf desteklenen bir özellik olması nedeniyle ticari sunucular arasında alışılmadıktı. GamesGrid'de ününü inşa eden güçlü oyuncuların topluluğu — binlerce dereceli maç oynayıp her birini GNU Backgammon ve Snowie'ye karşı analiz eden — 2000'lerin başlarındaki rekabetçi elitin önemli bir bölümünü oluşturdu.

2026 platformu bunu sürdürüyor. GamesGrid'de oynanan her maç talep üzerine standart biçimlerde dışa aktarılır ve GNU Backgammon, eXtreme Gammon ya da BGBlitz'e bağımsız maç sonrası inceleme için içe aktarılabilir. Tescilli kilitlenme yoktur. Pozisyon değerlendirme orakülü oyuncunun kendi seçimidir.

3. Orijinal GamesGrid bot ailesi (1996-2008)

1996-2008 GamesGrid platformu, GamesGrid Engineering (ana şirket CyberArts Inc.'nin mühendislik kolu) tarafından GNU Backgammon'dan türetilmiş bir sürüm üzerine kurulu, dereceli bir bot ailesi sunuyordu. Motora yapılan değişiklikler — n-ply değerlendirme algoritmalarına yapılan iyileştirmeler dahil — ana GNU projesine geri aktarıldı; bu, GamesGrid'i açık kaynak tavla ekosistemini somut olarak ilerleten ender ticari operatörlerden biri yaptı.

Bot derecelendirmesi, sıfırdan daha zayıf ağlar eğitilerek değil, değişen büyüklükte hatalar tetiklenerek gerçekleştirildi. Tüm botlar aynı temel GNUbg türevi sinir ağını kullandı; daha zayıf botlar sadece kontrollü bir sıklıkta optimum altı hamleler yaptı. Yayımlanan orijinal dereceler:

Bot	Hedef derece	Yaklaşım	Orijinal derece aralığı (düşük / ort. / yüksek)
GG Forever	Yok (tam güç, sadece Life Members)	2-ply lookahead	1850 / 1920 / 2114
GG Raccoon	Yok (tam güç)	0-ply (lookahead yok)	1850 / 1920 / 2114
GG Otter	~1700 (orta)	Tetiklenen hatalar	1543 / 1701 / 1827
GG Weasel	~1500 (başlangıç)	Daha sık hata	1410 / 1516 / 1652
GG Chipmunk	~1300 (acemi)	Yüksek-sıklıkta hata modu	1171 / 1275 / 1487

Botlar platformda günde 2.000 ila 4.000 maç oynadı; maksimum maç uzunluğu 9 puandı. Hem standart tavla hem Nackgammon (Nack Ballard açılış pozisyonu varyantı) oynadılar. Maç davetleri oyuncunun derecesine göre sınırlandırıldı: GG Otter yalnızca 1800 altı, GG Weasel yalnızca 1600 altı ve GG Chipmunk yalnızca 1400 altı derecedeki oyuncuların davetlerini kabul ediyordu.

MrHyperBot — farklı bir mimari

Ayrı olarak MrHyperBot, Hypergammon varyantını oynuyordu — her oyuncunun hane 22, 23 ve 24'ten yalnızca üç pulla başladığı üç pullu hız varyantı. MrHyperBot bir sinir ağı kullanmıyordu. Bunun yerine, Hugh Sconyers (GamesGrid'de "hugh" rumuzlu) tarafından geliştirilmiş, mümkün her hypergammon pozisyonu için hesaplanmış en iyi hamleyi içeren bir kapsamlı pozisyon veritabanı kullanıyordu. Hypergammon'un daha küçük durum uzayı, tam oyun-teorisi çözümünü hesaplama açısından mümkün kıldı; Sconyers'ın veritabanı bu varyantın kanonik referansı olmaya devam ediyor.

Xbot — Paul Magriel'in botu

Bağımsız ayrı bir bot, Xbot, GamesGrid'de Paul Magriel (rumuzu "X22") tarafından işletiliyordu. Magriel — pozisyon teorisinin kanonik metni Backgammon'un (1976) yazarı ve 1977-1980 arasında New York Times tavla köşe yazarı — 9 puana kadar küçük bahisli para maçları için bir sinir ağı botu işletiyordu. Magriel'in GamesGrid'de aktif operatör olarak bulunması, platformun 1996-2008 döneminde rekabetçi tavla içindeki kültürel konumuna ilişkin önemli bir gösterge oldu.

Tüm bot ailesi — GG Forever, GG Raccoon, GG Otter, GG Weasel, GG Chipmunk, MrHyperBot ve Xbot'un ruhu — belgelenmiş oyun parmak izlerinden yeniden inşa edilerek ve adı bilinen yeni nesil bot rakiplerle birlikte 2026 platformuna dönüyor. Daha fazla ayrıntı yeniden açılışa yaklaştıkça paylaşılacak.

4. Rastgele sayı üretimi: neden önemli

Bir tavla sunucusu özünde zar üretir. Sunucunun rastgele atışları nasıl ürettiğine ilişkin teknik karar, rekabet dürüstlüğü açısından büyük sonuçlar doğurur — ve online tavlanın tarihi, bu kararı yanlış vermiş belgelenmiş operatör örneklerini içerir.

4.1 Mersenne Twister (MT19937)

GamesGrid 2026 platformu Mersenne Twister sözde rastgele sayı üreticisini, özellikle 1997'de Makoto Matsumoto ve Takuji Nishimura tarafından geliştirilen MT19937 varyantını kullanır. Algoritmanın özellikleri:

$2^{19937} - 1$ periyodu — herhangi bir platform yaşam süresinde atılan zar atışı sayısından astronomik olarak büyük.
32-bit doğrulukta 623 boyutlu eşit dağılım — yani 623 ardışık çıktının blokları yalnızca 1D'de değil, yüksek boyutta da istatistiksel olarak eşit dağılımlıdır.
Hız: standart donanımda saniyede ~ $10^7$ atış; RNG'nin hiçbir zaman darboğaz olmayacağı kadar hızlı.

MT19937, GNU Backgammon'da, Python'un random modülünde ve uzun bir bilimsel Monte Carlo simülatörü listesinde varsayılan RNG'dir. Açıkça belirtilmesi gereken iki teknik çekince var:

Kriptografik olarak güvenli değildir. 624 ardışık çıktıyı gözlemleyen bir saldırgan iç durumu yeniden kurabilir ve sonraki çıktıları tahmin edebilir. Ham durumunu açığa çıkarmayan kimliği doğrulanmış bir oyun sunucusunda zar üretimi için bu ilgili bir endişe değildir; ancak güvenliği kritik amaçlar için MT19937'yi tek entropi kaynağı olarak kullanmayı dışlar.
Doğrusallık testlerinde bilinen istatistiksel zayıflıkları vardır. Algoritma iki elemanlı alan $\mathbb{F}_2$ üzerinde doğrusal geri besleme üzerine kurulu olduğundan, TestU01 BigCrush paketindeki bazı doğrusal karmaşıklık testlerinden öngörülebilir biçimde geçemez. Diehard ve standart NIST rastgelelik bataryalarını geçer ve hata türleri iyi karakterize edilmiş olup buradaki kullanım örneğimizi (1-6 aralığında tek tip tamsayı atışları) etkilemez; ancak MT19937'nin dürüst bir tanımı, algoritmayı evrensel olarak test geçer şeklinde betimlemek yerine bunları kabul etmelidir.

Zar üretimi için periyot ve eşit dağılım özellikleri her tür doğrusallık endişesinin önüne kesinkes geçer. Kriptografik alternatifler de mevcuttur (örn. AES-CTR-DRBG) ve platformun denetim kaydı her maç için algoritmayı ve tohum kaynağını kaydeder.

4.2 Tohum denetim politikası

GamesGrid'deki her maç sunucu tarafından üretilen bir tohumla ilişkilendirilir. Tohum:

Maç başlangıcında yalnızca ekleme yapılan bir denetim günlüğüne kaydedilir.
Maç başlatma anında yüksek-entropili bir kaynaktan türetilir (donanım RNG'sinin sistem entropi havuzuyla birleşimi); önceki maçlardan tahmin edilebilir değildir.
Maç kaydıyla birlikte saklanır, böylece bağımsız bir denetçi zar dizisini sonradan yeniden üretebilir.

Uygulamada: GamesGrid maçındaki her zar atışının belirli bir anda belirli bir tohumdan MT19937 ile üretildiği bağımsız olarak doğrulanabilir. Zarlar belirli bir hesaba karşı "kurulu" değildir ve sonuçları belirli hesaplar lehine ya da aleyhine eğmek için algoritmik bir mekanizma yoktur.

4.3 Karşı örnek: SafeHarbor Games

Online tavla tarihi, tarafsız RNG politikasından sapmış operatörleri içerir. Belgelenmiş durum, "şanslı" atışlara kaybetmekten yakınan oyuncuları yatıştırmak için çeşitli noktalarda çift gelme sıklığını bilinçli olarak düşüren odalar işleten SafeHarbor Games'tir.

Niyet oyuncu elde tutmaktı. Etkisi istismar edilebilir bir RNG oldu: çift dağılımının çarpıtıldığını bilen her oyuncu, bilmeyenlere karşı beklenen değer üzerinden ölçülebilir bir üstünlük elde etti. Gerçek para bağlamında bu rekabet dürüstlüğünün ihlali sayılır — ve daha geniş online tavla sahnesi buna uygun tepki verdi. Bu vaka dönemin oyuncu forumlarında geçer ve 2026 platformunun tarafsız, şeffaf şekilde algoritmik zar üretimine dair belgelenmiş bağlılığının temelini oluşturan operatör tarihinin bir parçasıdır.

2026 platformunun duruşu nettir: tek tip dağılım, adı verilen algoritma, denetim için kaydedilmiş tohumlar. Zarlar her oyuncu için, her odada, her skorda aynıdır.

5. 2026 platformu: kamuoyuyla paylaşılan, gelecek olan

Yeni GamesGrid, 1996-2008 sunucusunu farklılaştıran mimari seçimleri korur — sunucu tarafı durumlu kapalı istemci oyunu, GNU Backgammon ve XG'ye şeffaf maç dışa aktarımı, orijinal GG bot kadrosundan gelen dereceli bir bot ailesi — ve bunları modern mühendislik üzerine yeniden kurar. Spesifik özellik seti, kariyer modu bot liglerinin yapısı ve yeni bot kadrosu dahil, yeniden açılışa yaklaştıkça yayımlanacak.

Bugün kamuoyuyla paylaşılanlar:

MT19937 üzerinden tek tip dağıtılan zarlar, denetim için kaydedilen tohumlarla.
Standart biçimlerde maç dışa aktarımı (SGF / JF), bağımsız analiz için.
Pozisyon değerlendirmesinde tescilli kilitlenme yok. Oyuncular kendi analitik motorunu seçer.
Belgelenmiş oyun parmak izlerinden yeniden inşa edilen klasik GG bot ailesinin dönüşü.
Acemiden dünya şampiyonası kalibresine kadar yetenek merdivenini kapsayan adı bilinen yeni nesil bot rakipler.

Bot ailesinin işlediği eksiksiz Performance Rating çerçevesi PR ve ELO sayfasında yer alır.

Ayrıca bakınız

Performance Ratings (PR) ve ELO — yetenek ölçüm metodolojisi.
Tarih — 1996-2008 GamesGrid dönemi ve 2020 sonrası yeniden ediniminin öyküsü.
Matematik — match equity, kabul noktaları, küp teorisi.
Sözlük — PR, ELO, sinir ağı, Mersenne Twister, Hypergammon, Nackgammon terimlerinin resmî tanımları.