Преобразование журнала - это обратная функция | перспективная, непрерывная функция | непрерывная и монотонная функция | Монотонная. Преобразование обычно применяется к набору сопоставимых измерений. Например, если мы работаем с данными о доходах людей в какой -то валютной единице, было бы общепринято преобразование значения дохода каждого человека с помощью функции логарифма.
== Мотивация ==
Руководство о том, как данные должны быть преобразованы или должны быть применены преобразование вообще, должно быть получено из конкретного статистического анализа, который должен быть выполнен. Например, простой способ построить приблизительный 95% доверительный интервал для среднего значения популяции - это принять среднее арифметику | Среднее среднее значение плюс плюс или два стандартных единица ошибок. Тем не менее, постоянный коэффициент 2, используемый здесь, является особенно для нормального распределения и применимо только в том случае, если среднее значение выборки варьируется приблизительно обычно. Теорема центрального предела гласит, что во многих ситуациях среднее значение выборки нормально различается, если размер выборки достаточно большой. Однако, если статистическая популяция в значительной степени искажается, а размер выборки наиболее умеренный, приближение, предоставляемое теоремой центрального предела, может быть плохим, и полученный доверительный интервал, вероятно, будет иметь неверную вероятность охвата. Таким образом, когда есть доказательства существенного перекоса в данных, обычно трансформировать данные в симметрию | Симметричное распределение вероятности | Распределение
Данные также могут быть преобразованы, чтобы облегчить их визуализацию. Например, предположим, что у нас есть график рассеяния, в котором пункты являются страны мира, а настроенные значения данных - это земельная площадь и население каждой страны. Если участок будет выполнен с использованием нетрансформированных данных (например, квадратных километров для области и числа людей для населения), большинство стран будут построены в жестком кластере точек в левом нижнем углу графика. Несколько стран с очень большими областями и/или популяциями будут тонко распространяться по большей части области графика. Простое изменение единиц (например, на тысячу квадратных километров или миллионы людей) не изменит это. Однако после логарифмических преобразований как области, так и населения точки будут распределены более равномерно на графике.
Другая причина применения преобразования данных THR Log заключается в улучшении интерпретации, даже если не будет выполнено формальный статистический анализ или визуализация.
== в регрессии ==
Изображение: Население против области. SVG | Thumb | 325px | Диаграмм рассеяния, в котором список стран по районам | Район суверенных государств и зависимых территорий в мире, нанесен на вертикальную ось против их списка стран по населению | популяции на горизонтальной оси. Верхний график использует необработанные данные. На нижнем участке как области площади, так и популяции были преобразованы с использованием функции логарифма.
Преобразование данных может использоваться в качестве корректирующей меры, чтобы сделать данные, подходящими для моделирования с линейной регрессией, если исходные данные нарушают одно или несколько предположений о линейной регрессии.
Другим предположением о линейной регрессии является гомоскедастичность, то есть дисперсия ошибок и остатков | ошибки должны быть одинаковыми независимо от значений предикторов. Если это предположение нарушено (то есть, если данные являются гетероскедастичностью | гетероскедастическая), может быть возможно найти трансформацию только «y» или преобразования обоих «x» (зависимые и независимые переменные#Статистические синонимы | переменные и поэтому линейная регрессия может быть применена на них.
Еще одно применение преобразования данных - решить проблему отсутствия нормального распределения | Нормальность в терминах ошибок. Однофакторная нормальность не требуется для оценки наименьших квадратов параметров регрессии, чтобы быть значимыми (см. Теорема Гаусс -Маркова). Однако доверительные интервалы и проверки гипотез будут иметь лучшие статистические свойства, если переменные демонстрируют многомерное нормальное распределение | многомерную нормальность. Преобразования, которые стабилизируют дисперсию ошибочных членов (т. е. те, которые устраняют гетероскедичность), часто также помогают сделать ошибочные члены примерно нормальными.
===Примеры===
'''Уравнение:'''
Y = a + bX
:'''Значение:''' Увеличение X на единицу связано со средним увеличением Y на b единиц.
'''Уравнение:'''
\log(Y) = a + bX
:'''Значение:''' Увеличение X на единицу связано со средним увеличением на b единиц в \log(Y), или, что эквивалентно, Y увеличивается в среднем на мультипликативный коэффициент e^{b}\!. В иллюстративных целях: если бы вместо натурального логарифма в приведенном выше преобразовании использовался десятичный логарифм|логарифм по основанию 10 и те же символы («a» и «b») использовались для обозначения коэффициентов регрессии, то увеличение X на единицу привело бы к увеличению Y в среднем в 10^{b раз. Если бы b было равно 1, то это подразумевает 10-кратное увеличение Y при единичном увеличении X
'''Уравнение:'''
Y = a + b \log(X)
:'''Значение:''' Увеличение X в k раз связано со средним увеличением Y на b \times \log(k)единиц. Для иллюстративных целей, если в приведенном выше преобразовании вместо натурального логарифма использовался десятичный логарифм и те же символы («a» и «b») используются для обозначения коэффициентов регрессии, то X увеличивается в десять раз. бы приведет к среднему увеличению на b \times \log_{10}(10) = b единиц в Y
'''Уравнение:'''
\log(Y) = a + b \log(X)
:'''Значение:''' Увеличение X в k раз связано с k^{b}мультипликативным увеличением Y в среднем. Таким образом, если X удвоится, это приведет к изменению Y на мультипликативный коэффициент 2^{b}\!.
==Распространенные случаи==
«Преобразование логарифма» обычно используется для положительных данных. «Степеньевое преобразование (статистика)|степенное преобразование» — это семейство преобразований, параметризованное неотрицательным значением λ, которое включает в себя логарифм, квадратный корень и мультипликативные обратные преобразования в качестве особых случаев. Чтобы систематически подходить к преобразованию данных, можно использовать теорию оценки | методы статистического оценивания для оценки параметра λ в степенном преобразовании, тем самым определяя преобразование, которое является примерно наиболее подходящим в данной ситуации. Поскольку семейство степенных преобразований также включает в себя преобразование идентичности, этот подход также может указать, будет ли лучше анализировать данные без преобразования. В регрессионном анализе этот подход известен как «преобразование Бокса-Кокса».
Обычная ситуация, когда применяется преобразование данных, — это когда интересующее значение варьируется в пределах нескольких порядков | порядков величины. Многие физические и социальные явления демонстрируют такое поведение – доходы, популяция видов, размеры галактик и объемы осадков, и это лишь некоторые из них. Степенные преобразования и, в частности, логарифмирование часто можно использовать для обеспечения симметрии таких данных. Часто предпочитают логарифм, поскольку его результат легко интерпретировать с точки зрения «кратности изменений».
Логарифм также оказывает полезное влияние на отношения. Если мы сравниваем положительные величины ''X'' и ''Y'', используя соотношение ''X'' / ''Y'', то если ''X'' ''Y'', отношение находится на полупрямой (1,∞), где отношение 1 соответствует равенству. В анализе, где ''X'' и ''Y'' рассматриваются симметрично, логарифмическое отношение log(''X'' / ''Y'') равно нулю в случае равенства, и оно обладает тем свойством, что если ''X'' в ''K'' раз больше, чем ''Y'', логарифмическое отношение равно удалению от нуля, как в ситуации, когда ''Y'' ''K'' раз больше, чем ''X'' (логарифмические отношения в этих двух ситуациях равны log(''K'') и −log(''K'').
==Происхождение и применение==
Логнормальное распределение важно при описании природных явлений. Многие процессы естественного роста обусловлены накоплением множества небольших процентных изменений, которые становятся аддитивными в логарифмическом масштабе. При соответствующих условиях регулярности распределение результирующих накопленных изменений будет все лучше аппроксимироваться логарифмически нормальным, как отмечено в разделе выше «#Мультипликативная центральная предельная теорема|Мультипликативная центральная предельная теорема». Это также известно как закон Гибрата, в честь Роберта Гибрата (1904–1980), который сформулировал его для компаний.
Второе обоснование основано на наблюдении, что фундаментальные законы природы предполагают умножение и деление положительных переменных. Примерами могут служить простой закон гравитации, связывающий массы и расстояния с результирующей силой, или формула равновесных концентраций химических веществ в растворе, связывающая концентрации продуктов и продуктов. Предположение о логнормальном распределении задействованных переменных приводит в этих случаях к непротиворечивым моделям.
Конкретные примеры приведены в следующих подразделах.
=== Поведение человека ===
* Длина комментариев, публикуемых на дискуссионных форумах в Интернете, имеет логарифмически нормальное распределение. * Время пребывания пользователей на онлайн-статьях (шутки, новости и т. д.) подчиняется логарифмически нормальному распределению. * Продолжительность шахматных партий имеет тенденцию подчиняться логарифмически нормальному распределению. * Продолжительность начала акустических стимулов сравнения, соответствующих стандартному стимулу, имеет логарифмически нормальное распределение.
=== Биология и медицина ===
* Меры размера живой ткани (длина, площадь кожи, вес).
* Инкубационный период заболеваний.Сартвелл, Филип Э. «Распределение инкубационных периодов инфекционных заболеваний». «Американский журнал гигиены» 51 (1950): 310–318.
* Диаметры пятен банановых листьев, мучнистой росы на ячмене.
* Для высокозаразных эпидемий, таких как атипичная пневмония в 2003 году, если применяется политика государственного вмешательства, число госпитализированных случаев, как показано, удовлетворяет логарифмически нормальному распределению без свободных параметров, если предполагается энтропия, а стандартное отклонение определяется по принципу максимальной скорости производства энтропии. * Длина инертных придатков (волос, когтей, ногтей, зубов) биологических особей в направлении роста. * Нормализованное количество считываний РНК-Seq для любой области генома может быть хорошо аппроксимировано логарифмически нормальным распределением.
* Длина считывания секвенирования Pacific Biosciences|PacBio соответствует логарифмически нормальному распределению. * Определенные физиологические измерения, такие как артериальное давление взрослых людей (после разделения на мужские и женские субпопуляции). *Несколько фармакокинетики|фармакокинетические переменные, такие как Cmax (фармакология)|Cmax, биологический период полувыведения|период полувыведения и константа скорости выведения. * В нейробиологии распределение частоты срабатывания по популяции нейронов часто примерно логарифмически нормальное. Это впервые наблюдалось в коре и стриатуме *Плотность нейронов в коре головного мозга из -за процесса шумного деления клеток во время развития нервной системы. < /ref>
*В управлении операционными комнатами распределение прогнозирующих методов для хирургии | Продолжительность хирургии.
*В размере лавины переломов в цитоскелете живых клеток, показывая нормальные распределения, со значительно более высоким размером в раковых клетках, чем у здоровых.
=== Химия ===
* Распределения частиц и распределения молярной массы.
* Концентрация редких элементов в минералах. * Диаметры кристаллов в мороженое, капля масла в майонезе, поры в пироге Cocoa Press.
=== Гидрология ===
*В гидрологии, нормы, нормы, используется для анализа чрезвычайных значений таких переменных, как ежемесячные и годовые максимальные значения суточных осадков и объемов реки.
:: изображение справа, сделанное с CumfReq, иллюстрирует пример установки логарифмического распределения для ранжирования ежегодно максимально однодневные осадки, показывающие также 90% доверительный ремень на основе биномиального распределения.
:: Данные о количестве осадков представлены путем построения позиций как часть совокупного частотного анализа.
=== Социальные науки и демография ===
* В экономике есть доказательства того, что доход 97-99% населения распределен в нормально. Клементи, Фабио; Mauro Gallegati | Gallegati, Mauro (2005) [http://ideas.repec.org/p/wpa/wuwpmi/0505006.html «Закон Парето о распределении доходов: свидетельством Германии, Соединенного Королевства и Соединенных Штатов»], Econwpa (Distribution income incomome incomome incomome incomome incomome econwpa. Распределение). * Если распределение доходов следует за логическим нормальным распределением со стандартным отклонением \ sigma , то коэффициент GINI, обычно используемый для оценки неравенства доходов, может быть рассчитан как g = \ operatornam Функция ошибки, поскольку g = 2 \ phi \ left (\ frac {\ sigma} {\ sqrt {2 \ right) -1 , где \ phi (x) -функция совокупного распределения стандартного нормального распределения.
* В финансах, в частности модель чернокожих, изменение в «логарифме» обменных курсов, индексов цен и индексов фондового рынка предполагается нормальным * В Scientometrics количество цитат на журнальные статьи и патенты следует за дискретным норм-нормальным распределением. * Исторические размеры городских сообществ | Размеры города (население) удовлетворяют закону Гибрата. * Количество сексуальных партнеров, по-видимому, лучше всего описать в норму.
=== Технология ===
* В надежности (Статистика) | Анализ надежности, нормно-нормное распределение часто используется для моделирования времени для восстановления поддерживаемой системы. < /ref>
* В беспроводной связи, «локальная сила, выраженная в логарифмических значениях, таких как DB или Neper, имеет нормальное (то есть гауссовое) распределение». * Распределения частиц по размерам, полученные в результате случайных воздействий, например, в фрезеровании шариков. * Распределение размеров файла общедоступных файлов аудио и видеодантеров (типов MIME) следует за нормым распределением в течение пяти порядков.
* Размеры файлов 140 миллионов файлов на персональных компьютерах, запускающих ОС Windows, собранные в 1999 году. * Размеры текстовых электронных писем (1990-е годы) и мультимедийных электронных писем (2000-е годы).
* В компьютерных сетях и анализе интернет-трафика Log-Normal показана как хорошая статистическая модель для представления количества трафика за единицу времени. Это было показано путем применения надежного статистического подхода к большим группам реальных интернет -следов. В этом контексте распределение логарифмического нормы показало хорошую производительность в двух основных случаях использования: (1) прогнозирование доли времени трафика превысит заданный уровень (для соглашения уровня обслуживания или оценки емкости ссылки), т. Е. Размеры ссылки на основе обеспечения пропускной способности и (2) прогнозирования 95 -го процентиля. < /ref>
* В физическом тестировании, когда тест создает время на обстоятельство элемента, в указанных условиях данные часто лучше всего анализируются с использованием логнормального распределения.
== См. Также ==
* Преобразование данных (статистика)
* Нормальное распределение * Log - log сюжет
* Дисперсия, стабилизирующая преобразование
* Box - Cox Distribution
* Power Transform
* Logarithm
* Логарифмическая шкала
* Delta Method (для Exp приблизительно нормальных распределений)
* Средний тест
* Приближение Лапласа
* Arcsin
* Функция инженерия
* Logit
* * Коэффициент корреляции Пирсона
* Power Transform (Box - Cox)
* Преобразование Уилсона - Хилферти
* Отбеливающее преобразование
*[http://www.r-statistics.com/2013/05/log ... ифмические преобразования для искаженных и широких распределений]-Обсуждение журнала и «Основной логарифм» («Практические науки» с R-наукой с r »).
Подробнее: https://en.wikipedia.org/wiki/Log_trans ... tatistics)
Мобильная версия