Об игре
Новости
Войти
Регистрация
Рейтинг
Форум
20:58
4547
 online
Требуется авторизация
Вы не авторизованы
   Форумы-->Общий игровой форум-->
<<|<|3832|3833|3834|3835|3836|3837|3838|3839|3840|3841|3842|>|>>

Автор[Update 4] Гильдия Лидеров
для Воля Мертвых:
:)
я пишу определения модусов для GPt-5, в том числе по статистике
есть некоторое событие, из предыдущих оценок шанс его выпадения был 0.05%, у нас есть новые данные, 2 миллиона случаев, и мы знаем что было ещё 2 миллиона случаев, но не можем посмотреть их результат, является ли проверка известных нам случаев полноценной статистикой

Статистический анализ 2 миллионов известных случаев является полноценной статистической оценкой, но ее интерпретация и «сила» как доказательства зависят от того, как именно были отобраны эти данные.
Вот основные аспекты для 2026 года:
1. Репрезентативность выборки
Если известные 2 миллиона случаев были выбраны случайно, то этого объема данных более чем достаточно для получения сверхточного результата.
При вероятности 0,05% (1 на 2000) в 2 миллионах испытаний ожидается около 1000 наступлений события.
Такая выборка дает очень узкий доверительный интервал, что позволяет подтвердить или опровергнуть старую оценку в 0,05%.
2. Проблема «Смещения отбора» (Selection Bias)
Если неизвестные 2 миллиона случаев скрыты от вас не случайно (например, скрыты только те случаи, где событие произошло, или наоборот), то ваш анализ 2 миллионов «известных» случаев будет нести в себе систематическую ошибку. В этом случае статистика будет полноценной для вашей группы данных, но неверной для всего процесса в целом.
для Rote Gruetze:
Стоит проверить свою компетенцию
Мне вроде 0 раз Лега выпадала
Потому что ты лентяй
Потому что ты лентяй

почему это?
для Воля Мертвых:
Стоит проверить свою компетенцию
:) :) :)
===
GPT-5
===
Отвечу **строго статистически**, без шуток.

### Дано (формализуем)

* Событие с вероятностью **p = 0,2** («каждый 5-й бой»)
* Выборка:

* учитываются **3 из 5 типов боёв** (неполное покрытие пространства)
* **не все игроки** (неполная генеральная совокупность)

Вопрос: **какая статистическая точность оценки вероятности?**

---

## 1. Ключевая проблема — не дисперсия, а смещение

Здесь важно различать:

### &#10060; Статистическую погрешность (sampling error)

vs

### &#10060;&#10060; Систематическую ошибку (bias)

У тебя **вторая**, и она доминирует.

Если:

* исключены 2 типа боёв,
* исключена часть игроков,

то оценка **не является несмещённой**.

&#128073; **Статистическая точность в классическом смысле не определена**,
потому что выборка **не репрезентативна**.

---

## 2. Если всё же считать «как будто» выборка случайная

Только для ориентира.

Для биномиального события:
[
\sigma = \sqrt{\frac{p(1-p)}{n}}
]

Например:

* n = 100 боёв
&#963; &#8776; &#8730;(0,2·0,8 / 100) &#8776; **0,04** (±4%)
* n = 400 боёв
&#963; &#8776; **±2%**
* n = 2500 боёв
&#963; &#8776; **±0,8%**

&#9888;&#65039; **НО** это справедливо **только если**:

* все типы боёв включены,
* все игроки имеют равную вероятность попадания в выборку.

У тебя это условие **нарушено**.

---

## 3. Что реально можно сказать о точности

При текущих условиях:

* &#10060; нельзя гарантировать, что оценка сходится к истинной p
* &#10060; доверительный интервал формально считается, но **не имеет интерпретации**
* &#10060; ошибка может быть **сколь угодно большой**, даже при большом n

Формально:

> **точность ограничена неизвестным систематическим смещением**

---

## 4. Корректная формулировка вывода

Правильный статистический вывод звучит так:

> *Полученная оценка отражает вероятность события
> **в подмножестве из 3 типов боёв и части игроков**,
> и не может быть экстраполирована на все бои.*

Или жёстче:

> **Статистическая точность не определена из-за нерепрезентативной выборки.**

---

## 5. Когда точность появится

Минимальные условия:

1. Включены **все 5 типов боёв**
*или* введены **корректные веса**
2. Игроки отбираются **случайно**
3. Явно задан объём выборки n

Только после этого можно говорить:

* о доверительных интервалах
* о «каждый 5-й бой» с числом после ±

---

Если хочешь, дальше можем:

* оценить **верхнюю/нижнюю границу вероятности** при худшем bias
* или разобрать, **как взвесить 3 типа боёв**, чтобы спасти оценку
* или перевести это в **язык для отчёта / спора / форума**

Скажи, для чего именно тебе эта оценка.
для Воля Мертвых:
Стоит проверить свою компетенцию
:)
---
GPT-5
---
ок, разберем аккуратно и формально.

---

исходные данные (как я их интерпретирую):

* есть событие с малой вероятностью p (редкое событие)
* событие может произойти в каждом бою
* наблюдение ведется не по всем боям, а:

* учитываются только 3 типа боев из 5 возможных
* учитываются не все игроки
* дополнительно указано: событие наблюдается примерно «каждый 5 бой»
(важно: это либо предварительная оценка, либо гипотеза, а не доказанный факт)

цель:

* оценить статистическую точность такой оценки вероятности

---

1. ключевая проблема выборки

выборка является нерепрезентативной по двум причинам:

1. усеченное пространство событий

* наблюдаются только 3 из 5 типов боев
* если вероятность события зависит от типа боя, возникает систематическое смещение

2. неполный охват игроков

* если игроки различаются по стилю, уровню, стратегии и т.п.,
то вероятность события может различаться между группами игроков

следствие:
даже при большом числе наблюдений оценка может быть смещенной, а не просто шумной.

---

2. если временно игнорировать смещение и считать выборку условно однородной

допустим (гипотетически), что:

* вероятность события одинакова для всех типов боев
* вероятность одинакова для всех игроков

тогда задача сводится к биномиальной модели.

пусть:

* n — число наблюдаемых боев
* k — число раз, когда событие произошло
* оценка вероятности: p_hat = k / n

стандартная ошибка оценки:

se = sqrt( p_hat * (1 - p_hat) / n )

если «каждый 5 бой», то p_hat &#8776; 0.2

тогда:

se &#8776; sqrt( 0.2 * 0.8 / n ) &#8776; sqrt( 0.16 / n )

примеры:

* n = 25 -> se &#8776; 0.08 (очень грубо)
* n = 100 -> se &#8776; 0.04
* n = 400 -> se &#8776; 0.02
* n = 1600 -> se &#8776; 0.01

95% доверительный интервал примерно:
p_hat ± 2 * se

---

3. влияние того, что учитываются только 3 из 5 типов боев

даже при большом n возникает потенциальная ошибка смещения.

если реальные вероятности по типам боев различаются:

* p1, p2, p3, p4, p5

а наблюдаем только p1, p2, p3, то оценка сходится не к истинной общей вероятности, а к:

p_observed = (w1*p1 + w2*p2 + w3*p3) / (w1 + w2 + w3)

где w_i — доля этих типов боев в выборке.

ошибка здесь не уменьшается с ростом n.
это не статистическая погрешность, а методологическая.

---

4. влияние того, что учитываются не все игроки

аналогично типам боев:

* если вероятность события зависит от игрока или группы игроков,
* а выборка игроков неполная или смещенная,

то возникает дополнительное смещение, которое:

* не оценивается стандартной ошибкой
* не лечится увеличением объема выборки внутри этой же группы

---

5. итоговая оценка точности

корректно разделять два вида ошибки:

1. случайная ошибка (дисперсия оценки)

* уменьшается как 1 / sqrt(n)
* при n < 100 оценка крайне шумная
* при n ~ 1000 становится относительно стабильной

2. систематическая ошибка (смещение)

* вызвана:

* исключением 2 типов боев из 5
* неполным охватом игроков
* может быть больше случайной ошибки
* не уменьшается при росте n

---

6. аккуратный вывод

* при текущих условиях нельзя говорить о высокой статистической точности
* даже если событие наблюдается «каждый 5 бой», это:

* либо локальная оценка для подмножества условий
* либо предварительная гипотеза, а не подтвержденная вероятность
* без учета всех типов боев и всех игроков оценка:

* потенциально смещена
* формально неприменима ко всей совокупности боев

если хочешь, в следующем шаге можем:

* посчитать минимальный n для заданной точности
* разобрать, как корректно взвешивать 3 из 5 типов
* или оформить это в виде короткого строгого ответа «для спора в чате»
для Жеррри2:
для Воля Мертвых:
есть большая разница между

1)я взял и опросил 1000 человек

2)я взял 1000 человек, но решил не опрашивать людей с 80 по 120, с 340 по 410 и с 817 по 912, но это база статистики, вот вам вероятность

а спор в котором аргументы "хха кто тебе сказал" и "собери информацию вместо меня" считаю спором с морально не очень хорошими людьми
для Korvin Fikys:
В твоём случае тоже будет все статистически верно, ведь ты не знаешь что ответят люди которых ты не опросил
для Rote Gruetze:
Ты тоже допустил ошибку указав неверный промпт, если ты не видишь её то ты типичный котик
не буду смотреть Найта с "контент = события", вот
Liat [17]
https://mirror.heroeswm.ru/pl_info.php?id=20477

За 17 уровень:
Тип боя Победы Поражения Процент побед Итого
Прочие 1 0 100.00% 1
Задания наемников 275 3 98.92% 278
Охоты 131 6 95.62% 137
Задания стражей 433 29 93.72% 462
Неизвестные типы 280 21 93.02% 301
Гильдия лидеров 4687 648 87.85% 5335
Постоянные ивенты 57 9 86.36% 66
*** Ивенты 2027 365 84.74% 2392
ПВП-бои 8 35 18.60% 43
Все бои 7899 1116 87.62% 9015

За 16 уровень:
Тип боя Победы Поражения Процент побед Итого
Задания рейнджеров 2 0 100.00% 2
Прочие 1 0 100.00% 1
Задания наемников 257 7 97.35% 264
Задания стражей 406 17 95.98% 423
Охоты 125 9 93.28% 134
Гильдия лидеров 5824 794 88.00% 6618
*** Ивенты 3526 823 81.08% 4349
Постоянные ивенты 200 48 80.65% 248
Задания воров 255 127 66.75% 382
ПВП-бои 43 23 65.15% 66
Все бои 10639 1848 85.20% 12487
бедняку Косте всего пару раз выпадали легендарки в день присоединения)

warid=1325999256 легендарка в бою на 31к в день присоединения
warid=1371327882 легендарка в бою на 30к в день присоединения
ну так записано в архиве, ну по номерам боёв видно что бои очень старые)
для Воля Мертвых:
Ты тоже допустил ошибку указав неверный промпт
ой, не начинай искать соринку, троллить я тоже умею :)
для Rote Gruetze:
Ладно, подскажу, у тебя не 2 миллиона боёв, а 2 миллиона выпадений, а значит строчку про 3/5 можешь убирать
для Korvin Fikys:
Я считаю, что вероятность выпадения в боях го/гв/гн и в иных боях легендарных существ ОДИНАКОВАЯ (иной информации я никогда не слышал)
С учетом этого я не вижу НИКАКОГО смысла в ваших выборках
Если у тебя на тысячу боёв в которых не происходило выпадения есть 200 в которых произошло 2 выпадения, но эти 200 вне статы, то какой смысл от такой статистики? ну смысл в том, что при увеличении чисел процент такой погрешности будет уменьшаться, если шанс выпадения равен во всех боях (а он вроде как равен)
Так-то можно привести аргумент, например если посчитать в, е бои за последний год — а что если кому-то упала лега за день до нашего "начала". Не обязательно считать все чтобы выборка была репрезентативной
для Жеррри2:
речь не о том что она разная, а о том что у тебя бои го/гв/гн перемешаны со скрытами боями ГИ, и боями с ивентов
есть большая разница между

1)я взял и опросил 1000 человек

2)я взял 1000 человек, но решил не опрашивать людей с 80 по 120, с 340 по 410 и с 817 по 912, но это база статистики, вот вам вероятность
никакой разницы нет, если неопрашиваемые люди отобраны случайным образом. Это не даст точной картины в духе "во всех боях за всю жизнь выпала легв 1763829 раз", но задача статистики не в этом
для Воля Мертвых:
давай, попередёргивай цифры
--
постановка вопроса для Ь
дано крайне маловероятное событие каждый 5 бой выборка по 3 из 5 типов боёв не все игроки -- ? статистическая точность оценки ==== ответ детально, без капслока, только печатными символами, для копирования в чат
--
как видишь даже такого определения более чем достаточно для выводов:

"возникает дополнительное смещение, которое:
- не оценивается стандартной ошибкой
- не лечится увеличением объема выборки внутри этой же группы"

"Неполная выборка непрезентабельна"

Стоит проверить свою компетенцию (c) :)
для Kinematic:
Не обязательно считать все чтобы выборка была репрезентативной
я и не говорю что тебе надо считать все бои, я говорю что тебе надо посчитать все бои в срезе,т.е. тебе надо взять объемный срез в котором точно не будет скрытых боев и его считать
<<|<|3832|3833|3834|3835|3836|3837|3838|3839|3840|3841|3842|>|>>
К списку тем
2007-2026, онлайн игры HeroesWM