Формальная модель Марковской цепи
Пусть Xt — дискретная случайная величина, представляющая токен в позиции t.
Для цепи порядка k (где k = sampleSize - 1) выполняется свойство:
P(Xt | Xt-1, Xt-2, ..., Xt-k) = P(Xt | St-1),
где St-1 = (Xt-1, ..., Xt-k) — состояние цепи.
Параметры генерации
Длина текста (wordsCount):
Определяет энтропию выходной последовательности H = -Σ P(x) log P(x).
Большие значения увеличивают вероятность попадания в поглощающее состояние, требующее рестарта цепи.
Размер выборки (sampleSize):
Задает длину k-грамм, формирующих ключи переходной матрицы T: S → P(X).
Оптимален при k ≈ log2(N), где N — размер корпуса.
Температура (temperature):
Модифицирует распределение выходных вероятностей через преобразование:
PT(x) = P(x)1/T / Z(T),
где Z(T) = Σ P(x)1/T — нормировочная константа.
При T → 0 реализуется жадный выбор (argmax), при T → ∞ — равномерное распределение.