|
1450 | 1450 | "outputs_hidden": false |
1451 | 1451 | } |
1452 | 1452 | }, |
1453 | | - "source": "Zgodnie z minimalizacją pierwiastka ze średniego błędu kwadratowego (RMSE) najlepszym modelem jest liniowy. Takie wnioski można wysnuć przeglądając po kolei tabele, ale w poniższej komórce przedstawiono kod, który robi wypisuje tylko typ modelu i jego RMSE." |
| 1453 | + "source": "Zgodnie z minimalizacją pierwiastka ze średniego błędu kwadratowego (RMSE) między teoretyczną krzywą a eksperymentalnymi punktami najlepszym modelem jest liniowy. Takie wnioski można wysnuć przeglądając wykresy, ale można też automatycznie porównać RMSE między modelami jak w komórce poniżej." |
1454 | 1454 | }, |
1455 | 1455 | { |
1456 | 1456 | "cell_type": "code", |
|
1538 | 1538 | " - `'power'`\n", |
1539 | 1539 | " - `'spherical'`\n", |
1540 | 1540 | "- `nugget` - nugget (bias) semiwariogramu\n", |
1541 | | - "- `min_nugget` - domyślnie = 0.0 - the minimal fraction of the nugget at distance 0 to search for the optimal nugget\n", |
1542 | | - "- `max_nugget` - domyślnie = 0.5 - the maximum fraction of the nugget at distance 0 to search for the optimal nugget\n", |
1543 | | - "- `number_of_nuggets` - domyślnie = 16 - how many equally spaced steps between `min_nugget` and `max_nugget` to check\n", |
1544 | | - "- `rang` - if given, then the range is fixed to this value\n", |
1545 | | - "- `min_range` - domyślnie = 0.1 - the minimal fraction of a variogram range, `0 < min_range <= max_range`\n", |
1546 | | - "- `max_range` - domyślnie = 0.5 - the maximum fraction of a variogram range, `min_range <= max_range <= 1`. Parameter `max_range` greater than **0.5** raises warning\n", |
1547 | | - "- `number_of_ranges` - domyślnie = 16 - how many equally spaced ranges are tested between `min_range` and `max_range`.\n", |
1548 | | - "- `sill` - if given, it is fixed to this value\n", |
1549 | | - "- `min_sill` - domyślnie = 0 - the minimal fraction of the variogram variance at lag 0 to find a sill, `0 <= min_sill <= max_sill`\n", |
1550 | | - "- `max_sill` - domyślnie = 1 - the maximum fraction of the variogram variance at lag 0 to find a sill. It *should be* lower or equal to 1. It is possible to set it above 1, but then warning is printed\n", |
1551 | | - "- `number_of_sills` - domyślnie = 16 - how many equally spaced sill values are tested between `min_sill` and `max_sill`\n", |
1552 | | - "- `error_estimator` - domyślnie = `'rmse'` - Error estimation to choose the best model. Available options are:\n", |
1553 | | - " - `rmse`: Root Mean Squared Error\n", |
1554 | | - " - `mae`: Mean Absolute Error\n", |
1555 | | - " - `bias`: Forecast Bias\n", |
1556 | | - " - `smape`: Symmetric Mean Absolute Percentage Error\n", |
| 1541 | + "- `min_nugget` - domyślnie = 0.0 - czynnik skalujący bazowy nugget i określający dolną granicę poszukiwania tego wskaźnika\n", |
| 1542 | + "- `max_nugget` - domyślnie = 0.5 - czynnik skalujący bazowy nugget i określający górną granicę poszukiwania tego wskaźnika\n", |
| 1543 | + "- `number_of_nuggets` - domyślnie = 16 - liczba przedziałów między `min_nugget` a `max_nugget` do sprawdzenia\n", |
| 1544 | + "- `rang` - zasięg (*range*) semiwariogramu, jeśli podany, to jest ustawiony sztywno na tę wartość\n", |
| 1545 | + "- `min_range` - domyślnie = 0.1 - minimalny zasięg od którego zaczyna się poszukiwania optymalnego zasięgu `0 < min_range <= max_range`; obliczany jako część z całkowitego (największego) dystansu\n", |
| 1546 | + "- `max_range` - domyślnie = 0.5 - maksymalny zasięg na którym kończą się poszukiwania optymalnego zasięgu `min_range <= max_range <= 1`. Parameter `max_range` większy niż **0.5** wywołuje ostrzeżenie, ponieważ w literaturze pisze się, że efektywny zasięg rzadko przekracza połowę maksymalnego dystansu między parami punktów; obliczany jako część z całkowitego (największego) dystansu\n", |
| 1547 | + "- `number_of_ranges` - domyślnie = 16 - jak wiele przedziałów zasięgu między `min_range` a `max_range` ma zostać przetestowana.\n", |
| 1548 | + "- `sill` - jeśli dane, wtedy ustawione na sztywno\n", |
| 1549 | + "- `min_sill` - domyślnie = 0 - czynnik obliczany jako część całkowitej wariancji zbioru danych wejściowych `0 <= min_sill <= max_sill`\n", |
| 1550 | + "- `max_sill` - domyślnie = 1 - czynnik obliczany jako część całkowitej wariancji zbioru danych wejściowych. Powinien być mniejszy niż 1, wypłaszczenie krzywej semiwariogramu w optymalnych warunkach powinno nie docierać do granicy wariancji danych, jednak możliwe jest ustawienie tego parametru powyżej 1 dla niektórych typów funkcji\n", |
| 1551 | + "- `number_of_sills` - domyślnie = 16 - jak wiele przedziałów do sprawdzenia między `min_sill` a `max_sill`\n", |
| 1552 | + "- `error_estimator` - domyślnie = `'rmse'` - sposób estymacji błędu i wyboru modelu (wybór modelu na podstawie minimalizacji błędu).\n", |
| 1553 | + " - `rmse`: Root Mean Squared Error (Pierwiastek ze średniego błędu kwadratowego)\n", |
| 1554 | + " - `mae`: Mean Absolute Error (Średni Błąd Absolutny)\n", |
| 1555 | + " - `bias`: Forecast Bias (Średni błąd)\n", |
| 1556 | + " - `smape`: Symmetric Mean Absolute Percentage Error (Symetryczny Procentowy Średni Absolutny Błąd)\n", |
1557 | 1557 | "\n", |
1558 | | - "In the first run, we will set nugget, sill, and range as fixed values, and we will see which model type (name) algorithm chooses from the `all` possible models.\n", |
| 1558 | + "W pierwszym przykładzie nugget, sill i range ustawione będą na sztywno. Eksperyment ma na celu pokazanie sposób wyboru konkretnej funkcji teoretycznej, ponieważ każda z nich cechuje się innymi własnościami i opisana jest innym równaniem, więc te same parametry na wejściu wygenerują różne krzywe.\n", |
1559 | 1559 | "\n" |
1560 | 1560 | ] |
1561 | 1561 | }, |
|
1653 | 1653 | } |
1654 | 1654 | }, |
1655 | 1655 | "source": [ |
1656 | | - "The chosen model is (most likely) **linear**, automatically set as the class parameter. The algorithm performs the same steps as we did before. It has selected a model based on the RMSE. All other parameters were untouched.\n", |
| 1656 | + "Najbardziej prawdopodobny scenariusz to wybór modelu liniowego **linear**. Algorytm dokonuje w tle te same kroki co przy pracy manualnej, porównując błędy dopasowania między modelami.\n", |
1657 | 1657 | "\n", |
1658 | | - "Now, we let the algorithm find the optimal parameters (model type, nugget, sill, range).\n", |
| 1658 | + "W drugim eksperymencie algorytm sam dobierze wszystkie parametry (`model type, nugget, sill, range`).\n", |
1659 | 1659 | "\n" |
1660 | 1660 | ] |
1661 | 1661 | }, |
|
1746 | 1746 | "outputs_hidden": false |
1747 | 1747 | } |
1748 | 1748 | }, |
1749 | | - "source": [ |
1750 | | - "As you see, the model is better, but parameters are different than we have set. Still, the best model is **linear**. Let's compare both those models on a single plot." |
1751 | | - ] |
| 1749 | + "source": "Modele są lepsze, ale parametery również się zmieniły. Model liniowy **linear** powinien być wciąż najlepszy. Porównajmy teraz liniowe modele stworzone \"ręcznie\" i automatycznie na jednym wykresie." |
1752 | 1750 | }, |
1753 | 1751 | { |
1754 | 1752 | "cell_type": "code", |
|
1806 | 1804 | } |
1807 | 1805 | }, |
1808 | 1806 | "source": [ |
1809 | | - "## Chapter 5: Exporting model\n", |
| 1807 | + "## Eksport Modelu\n", |
1810 | 1808 | "\n", |
1811 | 1809 | "Models could be exported and used for other purposes. It is vital for the semivariogram regularization. Those calculations are computationally intensive, and in production, it is not a good idea to regularize semivariogram every time when you run the Poisson Kriging pipeline. Moreover, theoretical model parameters should be traced and stored for reproducibility and explainability purposes.\n", |
1812 | 1810 | "\n", |
|
0 commit comments