Шкала определения степени однородности совокупности. Статистическая совокупность. Однородность совокупности Основные узловые моменты разведочного анализа

Шкала определения степени однородности совокупности. Статистическая совокупность. Однородность совокупности Основные узловые моменты разведочного анализа

  • Эконометрика – отрасль науки, цель которой состоит в том, чтобы придать количественные меры экономическим отношениям.
  • Статистические методы являются существенным элементом в социальных науках, и в основном именно с помощью этих методов социальные учения могут подняться до уровня наук.
  • Ставя цель дать количественное описание взаимосвязей между экономическими переменными, эконометрика прежде всего связана с методами регрессии и корреляции.
  • Любое эконометрическое исследование начинается со спецификации модели, т.Е. С формулировки вида модели исходя из соответствующей теории связи между переменными.
  • Из всего круга факторов, влияющих на результативный признак (у), прежде всего необходимо выделить наиболее существенно влияющие факторы.
  • Уравнение простой регрессии характеризует связь между двумя переменными, которая проявляется как некоторая закономерность лишь в среднем по совокупности наблюдений.
  • В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией.
  • Случайная величина ε, или возмущение, включает влияние не учтенных в модели факторов, случайных ошибок и особенностей измерения.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции: равносторонняя гипербола, полиномы разных степеней.
  • К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная, показательная, экспоненциальная.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции: равносторонняя гипербола, полиномы разных степеней.
  • К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная, показательная, экспоненциальная.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Примером нелинейной регрессии по включенным в нее объясняющим переменным могут служить следующие функции: равносторонняя гипербола, полиномы разных степеней.
  • К нелинейным регрессиям по оцениваемым параметрам относятся функции: степенная, показательная, экспоненциальная.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический, линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.
  • Предполагая, что ошибки измерения сведены к минимуму, основное внимание в экономических исследованиях уделяется ошибкам спецификации модели.
  • При изучении зависимости между двумя признаками графический метод подбора вида уравнения регрессии достаточно нагляден. Он базируется на поле корреляции.
  • Основные типы трендов, используемые при количественной оценке связей между двумя переменными: логарифмический,линейный, степенной, полиномиальный, экспоненциальный.
  • Аналитический метод выбора типа уравнения регрессии основан на изучении материальной природы связи исследуемых признаков.
  • Чем ближе коэффициент детерминации к единице, тем в большей степени уравнение регрессии пригодно для прогнозирования на следующий год.
  • Полином любого порядка сводится к линейной регрессии с ее методами оценивания параметров и проверки гипотез.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Среди нелинейной полиномиальной регрессии чаще всего используется парабола второй степени; в отдельных случаях – полином третьего порядка.
  • Поскольку в расчете индекса ковариации используется соотношение факторной и общей суммы квадратов отклонений, то r2 имеет тот же смысл, что и коэффициент детерминации.
  • Ошибки аппроксимации не для каждого наблюдения принято определять в процентах по модулю.
  • Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь.
  • Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах.
  • Теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель.
  • Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.
  • Случайная величина ε, или возмущение, включает влияние учтенных в модели факторов, случайных ошибок и особенностей измерения.

    Случайная величина ε, или возмущение, включает влияние не учтенных в модели факторов, не случайных ошибок и особенностей измерения.

    9.Какими источниками обусловлено присутствие в модели регрессионного уравнения случайной величины ε?

    Ее присутствие в модели обусловлено двумя источниками: спецификацией модели, выборочным характером исходных данных.

    Ее присутствие в модели обусловлено двумя источниками: выборочным характером исходных данных, особенностями измерения переменных.

    Ее присутствие в модели обусловлено двумя источниками: спецификацией модели, особенностями измерения переменных.

  1. Ее присутствие в модели обусловлено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

  2. Ее присутствие в модели не обусловлено тремя источниками: спецификацией модели, выборочным характером исходных данных, особенностями измерения переменных.

10.Относится ли недоучет в уравнении регрессии какого-либо существенного фактора к ошибкам спецификации?

    К ошибкам спецификации не будет относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции, но и обязательный учет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например использование парной регрессии вместо множественной.

    К ошибкам спецификации будет относиться не только неправильный выбор той или иной математической функции, но и недоучет в уравнении регрессии какого-либо существенного фактора, например неиспользование парной регрессии вместо множественной.

11.Когда уравнение регрессии не имеет практического смысла и что делают, чтобы получить практический смысл от уравнения регрессии?

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии имеет практический смысл. Для получения хорошего результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения плохого результата обычно исключают из совокупности данные с аномальными значениями исследуемых признаков.

    Если совокупность данных неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результата обычно не исключают из совокупности данные с аномальными значениями исследуемых признаков.

12.Какую опасность в практическом использовании методов регрессии представляют ошибки измерения?

"

Объектами статистических исследований являются статистические совокупности, состоящие из отдельных единиц, характеризуемых различными признаками. В результате исследований выявляются статистические закономерности, на основе использования моделей социально-экономических явлений и методов обработки и анализа экономико-статистической информации.

Статистическая совокупность - множество объектов, явлений, объединенных какими-либо общими свойствами (признаками) и подвергающихся статистическому исследованию. Например, совокупность промышленных предприятий страны. Отдельные объекты явления, составляющие статистическую совокупность и называемые единицами совокупности, обладая некоторыми общими признаками, могут различаться между собой по другим признакам. Поэтому совокупности могут быть однородными (качественно однородными) и неоднородными (качественно неоднородными).

В однородной совокупности объекты (единицы совокупности) сходны между собой по существенным для данного исследования признакам и относятся к одному и тому же типу явления. Однородная совокупность, будучи однородной по одним признакам, может быть разнородной по другим.

Элементы (единицы) неоднородной совокупности относятся к различным типам изучаемых явлений. Для неоднородной совокупности исчисление обобщающих характеристик, в особенности в виде средней величины, неправомерно. С помощью метода группировок и метода таксономии в неоднородной совокупности могут быть образованы однородные группы.

Вся совокупность реально существующих объектов, характеризующих какое-либо явление, называется генеральной. Для статистического исследования из генеральной совокупности по определенным правилам может быть отобрана совокупность единиц, которые образуют выборочную совокупностью.

Каждая единица совокупности характеризуется различными признаками - отличительными чертами, свойствами, качеством.

Варьирующий признак - признак, принимающий в пределах статистической совокупности разные значения у единиц статистической совокупности. Это, однако, не исключает повторений отдельных значений (вариантов) признака, у нескольких единиц совокупности значения признака могут быть одинаковыми. Примером варьирующего признака может служить размер месячной заработной платы рабочих предприятия.

Качественный признак (атрибутивный) - признак, отдельные значения которого выражаются в виде понятий, наименований. Например, профессия рабочего (слесарь, сборщик), уровень образования (начальное, среднее, высшее).

Количественный признак - признак, отдельные значения которого имеют количественное выражение (например, себестоимость продукции по различным предприятиям одной отрасли).

Результативный признак - зависимый признак, то есть изменяющий свое значение под влиянием другого, связанного с ним факторного признака.

Факторный признак (фактор) - признак, оказывающий влияние на другой, связанный с ним результативный признак, и обусловливающий его изменение (вариацию). Роль этих признаков в различных задачах может меняться, в одной задача он выступает как факторный, в другой - как результативный. Например, производительность труда выступает фактором изменения (снижения) себестоимости единицы продукции, и в то же время, производительность труда в связи с квалификацией рабочего является результативным признаком.

В результате статистического исследования устанавливается статистическая закономерность, которая рассматривается как количественная закономерность изменения в пространстве и во времени массовых явлений и процессов общественной жизни, состоящих из множества элементов (единиц совокупности). Она свойственна не отдельным единицам совокупности, а всей совокупности в целом. В силу этого закономерность, присущая данному явлению (процессу), проявляется только при достаточно большом числе наблюдений и только в среднем. Таким образом, это средняя закономерность массовых явлений и процессов. В большом числе наблюдений происходит взаимопогашение индивидуальных отклонений от средней в ту и другую стороны, вызванных случайными причинами, и проявляется закономерность. Это связывает статистическую закономерность с законом больших чисел, По мере увеличения пространственно-временных интервалов развития явления его закономерность становится все более устойчивой.

Таким образом, зная статистическую закономерность конкретного массового явления, можно с определенной вероятностью предвидеть его дальнейшее развитие, определить величину изучаемого признака (показателя). Однако необходимо учитывать, что значительные изменения условий существования этого явления могут привести к существенным изменениям силы этой зависимости.

В социально-экономической статистике закон больших чисел представляет собой общий принцип, в силу которого количественные закономерности, присущие массовым общественным явлениям, отчетливо проявляются лишь в достаточно большом числе наблюдений. Закон больших чисел порожден особыми свойствами массовых социальных явлений. Последние в силу своей индивидуальности, с одной стороны, отличаются друг от друга, а с другой - имеют нечто общее, обусловленное их принадлежностью к определенному виду, классу, к определенным группам. Единичные явления в большей степени подвержены воздействию случайных и несущественных факторов, чем масса в целом. В большом числе наблюдений взаимно погашаются случайные отклонения в противоположные стороны от закономерностей. В результате взаимопогашения случайных отклонений средние, вычисленные для величин одного и того же вида, становятся типичными, отражающими действие постоянных и существенных факторов в данных условиях места и времени. Тенденции и закономерности, вскрытые с помощью закона больших чисел - это массовые статистические тенденции.

Статистическое исследование социально-экономических явлений осуществляется различными методами с использованием моделей этих явлений.

Моделью называется отображение, аналог явления или процесса в основных, существенных для целей исследования чертах. Процесс создания модели называется моделированием. Модель должна учитывать все важные взаимосвязи, закономерности и условия развития таким образом, чтобы на ее основе можно было выполнить эксперименты, цель которых - определение “поведения” объекта моделирования в различных возможных (часто ненаблюдаемых в действительности) условиях. Экономические явления и процессы моделируются с помощью экономико-математических моделей.

Экономико-математическая модель - описание экономического явления или процесса с помощью одного или нескольких математических выражений (уравнений, функций, неравенств, тождеств). Математические выражения характеризуют важнейшие взаимосвязи явлений и процессов, условия и закономерности их развития, ограничения, требования и т.д. Экономико-математическая модель представляет собой обобщение существенной качественной и количественной информации об объекте анализа и служит базой для проведения расчетных экспериментов, которые позволяют получить различные характеристики и параметры изучаемого объекта для заданных условий его развития. Разработка и применение экономико-математических моделей существенно расширяют возможности экономического анализа. Основные преимущества использования экономико-математических моделей заключаются в следующем:

Одновременный учет в модели большого числа требований, условий и предположений, а также достаточная свобода в пересмотре этих условий в ходе работы с моделью;

Непротиворечивость (совместность) получаемых по модели системы показателей;

Возможность получения вариантов поведения изучаемого явления для широкого диапазона и сочетания исходных условий и предположений (например, вариантов прогноза экономического развития).

Экономико-математические модели по назначению делятся на теоретико-экономические и прикладные модели. Многие прикладные модели являются экономико-статистическими моделями или включают последние в качестве составных частей.

Теоретико-экономические - это экономико-математические модели, предназначенные для качественного анализа экономических систем, процессов и явлений, Значения параметров и даже функциональный вид входящих в теоретико-экономическую модель соотношений обычно не конкретизируется. Выводы, которые получаются с помощью этих моделей, как правило, носят общий характер. Типичным примером является вывод об устойчивости (неустойчивости) изучаемой экономической системы, если ее параметры удовлетворяют определенным требованиям, о существовании (отсутствии) сбалансированных или оптимальных решений. Теоретико-экономические модели широко используются в теоретических экономических исследованиях. В настоящее время построение и исследование теоретико-экономических моделей является предметом математической экономики. Для их исследования применяется развитый математический аппарат (теория дифференциальных уравнений, теория матриц, оптимизационные и теоретико-игровые методы и т.д.).

Экономико-статистическая модель - это система математических соотношений, описывающая некоторый экономический объект, процесс или явление, параметры которой определяются (оцениваются) на основе фактических данных с помощью статистических данных (в отличие от теоретико-экономической модели). Структура и конкретный вид экономико-статистической модели определяются спецификой моделируемого объекта, теоретическими представлениями исследователя, целями исследования, доступностью информации, используемыми методами обработки данных. Процесс построения модели распадается на два взаимосвязанных этапа: определение общего вида соотношений модели и входящих в них переменных и статистическое оценивание значений параметров на основе данных наблюдений. К наиболее часто используемым экономико-статистическим моделям относятся тренды, модели временных рядов, изолированные уравнения регрессии, эконометрические модели. Экономико-статистические модели широко применяются при планировании и анализе экономических систем, исследовании их реакции на изменение внешних и внутренних условий функционирования, а также при прогнозировании и определении различных вариантов будущего развития.

Для оценивания параметров эконометрической модели необходимы специальные методы одновременного оценивания (доказано, что обычный метод наименьших квадратов, примененный к каждому уравнению эконометрической модели изолированно, приводит к несостоятельным оценкам). Наиболее употребительными методами одновременного оценивания эконометрической модели являются двухшаговый и трехшаговый метод наименьших квадратов.

Для которой характерны принадлежность составных ее элементов к одному и тому же типу явления и сходство между элементами по существенным для данного исследования признакам.

Словарь бизнес-терминов. Академик.ру . 2001 .

Смотреть что такое "Совокупность Однородная" в других словарях:

    СОВОКУПНОСТЬ, ОДНОРОДНАЯ - статистическая совокупность, для которой характерно принадлежность составных ее элементов к одному и тому же типу явления и сходство между элементами по существенным для данного исследования признакам. Статистическая совокупность может быть по… … Большой экономический словарь

    Совокупность объектов или явлений общественной жизни, объединённых общей связью, но различающихся по ряду варьирующих признаков. Эти объекты или явления представляют собой элементы (единицы) С. с. Так, С. с. будет население, элементами… … Большая советская энциклопедия

    однородная совокупность - (напр. ядерных энергетических установок) [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN homogeneous population … Справочник технического переводчика

    Относительно однородная группа объектов или явлений, характеризующаяся наличием некоторых общих признаков и подвергающаяся изучению путем сбора количественных данных, их обработки и анализа … Большой медицинский словарь

    множество - ▲ , совокупность однородный множество совокупность объектов, имеющих к л. общую характеристику; однородная совокупность; совокупность видов; неупорядоченная совокупность однородных попарно различных элементов; оно включает все такие элементы;… … Идеографический словарь русского языка

Статистика – это общественная наука, изучающая количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной.

Статистика изучает количественно определенные качества массовых социально-экономических явлений . Существует несколько точек зрения на статистику как на науку:

(1) Статистика – это универсальная наука, изучающая массовые явления природы и общества.

(2) Статистика – это методологическая наука, разрабатывающая методы исследования для других наук.

(3) Статистика – это общественная наука.

Явления общественной жизни – это сложное сочетание различных элементов.

– Общественные явления обладают вполне конкретными размерами.

– Общественным явлениям присущи определенные количественные соотношения, и существуют они независимо от того, изучает ли их статистика или нет.

1. Статистическая совокупность – это множество единиц изучаемого явления, объединенных единой качественной основой, общей связью, но отличающихся друг от друга отдельными признаками. Таковы, например, совокупность домохозяйств, совокупность семей, совокупность предприятий, фирм, объединений и т.п.

Совокупность называется однородной, если один или несколько изучаемых существенных признаков ее объектов являются общими для всех единиц.

Совокупность, в которую входят явления разного типа, считается разнородной. Совокупность может быть однородна в одном отношении и разнородна в другом. В каждом отдельном случае однородность совокупности устанавливается путем проведения качественного анализа, выяснения содержания изучаемого общественного явления.

2. Признак – это качественная особенность единицы совокупности.

По характеру выражения различают атрибутивные и

количественные признаки:

Атрибутивные (описательные) – выражаются словесно, например, пол, национальность, образование и др. По ним можно получить итоговые сведения о количестве статистических единиц, обладающих данным значением признака;

количественные – выражаются числовой мерой (возраст, стаж работы, объем продаж, размер дохода и т.д.) По ним можно получить итоговые данные о количестве единиц, обладающих конкретным значением признака, и суммарное или среднее значение признака по совокупности.

По характеру вариации признаки делятся на:

альтернативные - могут принимать только одно из двух возможных значений признака. Это признаки обладания или не обладания чем-либо. Например, пол, семейное положение, в маркетинговых или политологических исследованиях - ответ на вопрос в форме «да или нет»;

дискретные – количественные признаки принимающие только отдельные значения, без промежуточных между ними - как правило целочисленные, например, разряд рабочего, число детей в семье и т.д.);

непрерывные – количественные признаки, принимающие любые значения. На практике они, как правило, округляются в соответствии с принятой точностью (например: бухгалтерская прибыль по балансу в рублях, налоговая по налоговым регистрам – в тыс. руб.

По отношению ко времени различают:

моментные признаки, характеризующие единицы совокупности на критический момент времени например, стоимость основных производственных фондов (ОПФ) определяется на 01.01. и 31.12 соответствующего года как стоимость ОПФ на начало и конец отчётного года;

интервальные признаки, характеризующие явление за определённый временной период ((год, квартал, месяц и т.д.), например, сменная выработка, дневная выручка, годовой объём продаж и т.д.

По характеру взаимосвязи признаки делятся на:

факторные , вызывающие изменения других признаков, либо создающие возможности для изменений значений других признаков. Факторные признаки подразделяются соответственно на признаки причины и признаки условия;

результативные (признаки следствия), зависящие от вариации других признаков. Например, стоимостной объём выпуска продукции является результативным признаком, величина которого зависит от факторных признаков - численности работников и производительности труда.

3. Статистический показатель – это количественная оценка свойства изучаемого явления. Статистические показатели можно подразделить на два основных вида: учетно-оценочные показатели (размеры, объемы, уровни изучаемого явления) и аналитические показатели (относительные и средние величины, показатели вариации и т.д.).

Массовый характер общественных законов и своеобразие их действий предопределяет необходимость исследования совокупных данных.

Закон больших чисел порожден особыми свойствами массовых явлений. Последние в силу своей индивидуальности, с одной стороны, отличаются друг от друга, а с другой – имеют нечто общее, обусловленное их принадлежностью к определенному классу, виду. Причем единичные явления в большей степени подвержены воздействию случайных факторов, нежели их совокупность.

Закон больших чисел в наиболее простой форме гласит, что количественные закономерности массовых явлений отчетливо проявляются лишь в достаточно большом их числе.

Таким образом, сущность его заключается в том, что в числах, получающихся в результате массового наблюдения, выступают определенные правильности, которые не могут быть обнаружены в небольшом числе фактов.

Закон больших чисел выражает диалектику случайного и необходимого. В результате взаимопогашения случайных отклонений средние величины, исчисленные для величины одного и того же вида, становятся типичными, отражающими действия постоянных и существенных фактов в данных условиях места и времени.

Тенденции и закономерности, вскрытые с помощью закона больших чисел, имеют силу лишь как массовые тенденции, но не как законы для каждого отдельного случая.

Статистические закономерности изучают распределение единиц статистического множества по отдельным признакам под воздействием всей совокупности факторов.

Статистическая закономерность выступает как объективная закономерность сложного массового процесса и является формой причинной связи. Она обнаруживается в итоге массового статистического наблюдения. Этим обуславливается ее связь с законом больших чисел.

Статистическая закономерность с определенной вероятностью гарантирует устойчивость средних величин при сохранении постоянного комплекса условий, порождающих данное явление.

Лекция 1.3

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ

Основные узловые моменты разведочного анализа

Слайд 2

Цель разведочного анализа – представить наблюдаемые данные компактной и простой форме, позволяющей выявить имеющиеся в них закономерности и связи. Разведочный анализ включает преобразование данных и способы наглядного их представления, выявление аномальных значений, грубую оценку типа распределения, сглаживание.

Термин разведочный анализ применяется также в более широком смысле, чем предварительная обработка данных. Например, в многомерных процедурах, таких как факторный анализ, многомерное шкалирование данных, цель разведочного анализа, кроме анализа первичных данных, заключается в определении минимального числа факторов, которые удовлетворительно воспроизводят ковариационную (корреляционную) матрицу или матрицу близостей наблюдаемых переменных

Слайд 3

Согласно предыдущей лекции считаем, что у исследователя имеются наблюдения в виде матрицы «объект-признак» или вектора признака и частичное или полное отсутствие априорной информации о причинно-следственном механизме этих данных. При анализе обычно возникают следующие вопросы

1. Какой обработке подвергнуть наблюдения?

2. Какую модель выбрать?

3. Какие заключения можно сделать?

Для выбора способа обработки необходима модель наблюдаемых данных. Прежде чем произвести наблюдение необходимо указать природу и свойства измеряемой величины, т.е. использовать априорную информацию. Чем полнее априорная информация, тем точнее и с меньшими затратами можно получить необходимые результаты. Поэтому большое значение имеет формализация методов сбора, обработки и использования априорной информации. На основе анализа этой информации строится модель исследуемого явления, выбирается аппаратура, разрабатывается методика проведения эксперимента.

Слайд 4

Для получения более полной информации об изучаемом явлении проводится первичный анализ данных, получивший название разведочного анализа (Exploratory data analysis). Разведочный анализ необходим во всех случаях, за исключением лишь очень простых задач. Например, выбору семейства моделей исследуемого явления в большинстве случаев должен предшествовать предварительный и графический анализ данных. Для иллюстрации сказанного рассмотрим модель простой одномерной линейной регрессии. В соответствии с этой моделью предполагается, что наблюдения n пар (x 1 ,Y 1), …, (x n ,Y n ) можно описать уравнением



В качестве минимального предварительного анализа можно рассматривать график рассеяния точек (x j ,Y j ). В результате анализа графиков можно сделать заключение о постоянстве дисперсии Y i , о целесообразности преобразования переменных, выявить наличие аномальных наблюдений, для исключения которых необходимы специальные исследования. После такой обработки данных, предполагая, что верна модель (1), необходимо оценить параметры b 0 , b 1 и провести графический анализ остатков между наблюдаемыми и оцененными значениями Y i . На основе этого анализа можно подтвердить или предложить другую модель.

Слайд 5

Рассмотрим простейшие процедуры разведочного анализа, относящиеся к предварительной обработке данных . Они дополняют методы, изложенные в первой лекции при рассмотрении конкретных форм представления данных. Поясним необходимость проведения разведочного анализа на конкретных вопросах оценивания.

Оценка среднего . Рассмотрим простейший пример оценки истинного среднего m независимой случайной величины x по выборкеобъема n . Если вычислена оценка среднего, то возникает вопрос: «насколько сильно отличается оценка от ненаблюдаемого истинного значения?» Так как истинное значение m недоступно, то определяется доверительный интервал , который с заданной вероятностью накрывает истинное значение.

Отношение имеет t- распределение Стьюдента. Очень часто строят 95%-е доверительные интервалы, считая, что величина t распределена нормально. Для нормального распределения величина t будет равна 1,96, тогда как для t- распределения при числе степеней свободы v (v = n – 1), равных 1; 3 и 12, величина t , соответственно, равна 12,7; 4,3 и 2,18. Поэтому при малых объемах выборок использование нормального распределения вместо t- распределения приводит к большим ошибкам в интервальной оценке. Большое различие интервальных оценок связано с различием t- распределения от нормального в хвостах распределения.

Слайд 6

Хвосты реальных распределений имеют, как правило, больший разброс, чем у нормального распределения. Природа отличия реального распределения от нормального может быть различной:

1. Большинство измерений проводится в конкретных единицах, например, в миллиграммах, микронах, и их значения ограничены. Для нормального же закона распределения значения изменяются от – ¥ до + ¥.

2. Резкая асимметрия некоторых распределений (например,c 2 , F ) при малых выборках, обрывистые края у равномерного распределения.

3. Поведение на «хвостах» распределения. Одно или несколько резко выделяющихся значений от основной массы наблюдений могут существенно изменить среднее и катастрофически дисперсию. Неправдоподобные значения почти неизбежны в экспериментальных данных. Количество таких значений в медицинских данных достигает до 30%, а в специально поставленных экспериментах оно составляет около 1% от всех данных.

Оценка среднего среднеарифметическим имеет большие достоинства: несмещенность для генеральных совокупностей, имеющих математическое ожидание, достаточность, полнота и, соответственно, полная эффективность для нормального, пуассоновского, гамма-распределений и при достаточно широких условиях удобное асимптотически нормальное распределение, которое во многих случаях приближенно достигается уже при средних объемах выборок n . Имеются и недостатки такой оценки: эффективность ее равна нулю для равномерного распределения, а для некоторых выборок уже одно неправдоподобно большое наблюдение может сделать среднеарифметическую оценку бесполезной.

Слайд 7

Если нормальность распределения нарушается резко выделяющимися данными, то желательно применять робастные (robust – крепкий, здоровый, дюжий) оценки . Примером робастной оценки среднего, терпимой к отклонению хвостов распределения от нормального является медиана распределения. Она, как срединное значение наблюдений, не зависит от одного или нескольких неправдоподобно больших измерений.

Медиана, как робастная, не является эффективной оценкой относительно среднеарифметической оценки для нормального распределения.

Слайд 8

Мера разброса . На практике для характеристики величины разброса данных используются следующие меры: среднеквадратическое отклонение s или его квадрат – дисперсия s 2 , а также размах R. Оценки этих величин обозначают соответственно S , S 2 , R . Оценка разброса по S широко применяется, и оно полезно при линейных преобразованиях типа Y = b + aX. Для некоторых распределений s 2 = ∞, а размах применим; неправдоподобно большие отклонения в наблюдениях также могут сделать оценку дисперсии очень большой, что приводит к типу распределения, отличному от истинного.

Оценка разброса по выборочному размаху относится к быстрым процедурам. В связи с появлением быстродействующих ЭВМ вычислительные преимущества R по сравнению с S становятся все менее важными, но остаются преимущества, связанные с простотой вычисления R и возможностью для неспециалистов применять эту статистику. Так, размах практически совсем вытеснил S из систем контроля качества, в которых выборки малых объемов берутся через короткие интервалы времени и по средним значениям и размахам строятся контрольные карты.

Следует отметить, что размах можно использовать для распознавания больших неправдоподобных ошибок в вычислениях S для выборок из любой генеральной совокупности. Это следует из ограниченности отношения S/R .

Слайд 9

Подводя итог рассмотренным оценкам, необходимо сделать вывод, что имеются причины, чтобы не обрабатывать все данные одинаково. Прежде чем приступить к обработке наблюдений, необходимо проверить однородность выборки и, если она неоднородна, то разделить на слои. Наличие резко выделяющихся наблюдений также нарушает однородность выборки. В этом случае один из подходов базируется на обнаружении и удалении этих выделяющихся данных.

Удаление резко выделяющихся наблюдений обеспечивает безопасность оценки, однако обеспечивает эффективность только в случае определения четкой границы между удаленными и не удаленными данными. К явным резко выделяющимся данным примыкает зона «сомнительных» данных (рис. 1), которые не всегда можно распознать. Здесь легко допустить неправильные удаления и необоснованные сохранения, полной эффективности ожидать не приходится даже в идеале после удаления. Эти трудности можно преодолеть, применяя робастные методы оценивания. Робастные алгоритмы обеспечивают безопасность и эффективность оценивания при наличии резко выделяющихся и сомнительных данных.

Рис. 1. Плотность распределения. Разбиение данных на три группы.

Слайд 10

О качестве результатов Цель исследования – дать ответ на вопрос: можно полученные результаты применять на практике. Пригодность полученных результатов можно оценить методами перепроверок. Наиболее часто используются методики простой и двойной перепроверок.

Простая перепроверка. Проверка полученной модели проводится на данных, отличных от тех, по которым рассчитаны параметры модели. В этом случае можно выборку наблюдений делить на две (или больше) части. Одну часть используют для обработки, а другую – для проверки. После этого части можно менять местами, что может дать несколько больше информации, хотя здесь имеются определенные трудности, вытекающие из-за связи между двумя оценками качества модели.

Такую перепроверку можно осуществить и для многократного деления данных, например, можно выборку разделить на 10 равных частей. На любых 9 из них провести оценку модели, а на оставшейся одной части осуществить проверку. После этого повторить процедуру 9 раз, беря каждый раз новые 9 частей. В ряде случаев процедуру усложняют. Расчет осуществляют по всем данным без одного наблюдения, а проверку – на отброшенном значении. Расчеты повторяют для каждого из наблюдений выборки. Не следует обольщаться результатами простой проверки, так как контрольная выборка всегда будет больше похожа на рабочую, чем на выборку объектов, для которой будут использоваться результаты исследований.

Двойная перепроверка. Производится проверка на данных отличных, как от тех, по которым строилась модель, так и от тех, которые были использованы для расчета параметров модели. Медики такой метод проверки называют «дважды слепым». «Свежие данные» для перепроверки можно собирать после выбора модели и расчета параметров. Если получение таких данных невозможно, то можно обратиться к архивным данным при условии, что они оставались неизвестными, пока строилась модель и рассчитывались параметры этой модели. При двойной перепроверке важно, чтобы данные, используемые для проверки, являлись отличными от тех, по которым проводились оценки. Можно использовать данные разных лет, если они могут быть отнесены к одному времени, или данные других исследователей.

Слайд 11

Неоднородные выборки

Стандартные методы оценивания любой статистики выборочных данных построены на предположении, что выборка взята из однородной совокупности с простой структурой закона распределения. Между тем на практике выборки часто формируются под влиянием различных причин и условий, и они могут быть представлены в виде объединения некоторого множества однородных выборок, каждая из которых имеет простую структуру. Например, нельзя считать однородными доходы богатых и других граждан государства, так как они имеют различную экономическую основу; объекты различной стоимости, отличающиеся по народнохозяйственным последствиям . Примерами могут служить неоднородные последовательности динамических моделей в задачах анализа вибраций в машиностроении; сейсмограмм в геофизике; кардиограмм с нарушениями частоты биения сердца.

Природа неоднородности может быть различной. Например, возможны объединения из совокупностей с различными средними и дисперсиями или с одинаковыми средними, но с различными дисперсиями. Важный класс неоднородных выборок образуют также выборки, содержащие одно или несколько неправдоподобно больших или малых измерений . Обработка неоднородных

Пусть наблюдения состоят из трех однородных слоев, каждый из которых можно описать простой одномерной регрессией. Эти зависимости показаны на рис. 2, где прямые – линии регрессий каждой совокупности. Если обработать объединенную выборку этих совокупностей, то получим регрессионную зависимость, изображенную на рис. 2 пунктирной прямой. Очевидно, что регрессия по объединенным данным лишена всякого смысла.

Для определения однородности выборки необходим подробный содержательный анализ исследуемой совокупности. Этот анализ должен базироваться на существенном не случайном признаке, по которому исходная совокупность может быть представлена в виде объединения нескольких однородных совокупностей. Например, налоговые декларации можно разбить на группы по объемам доходов; учреждения – по числу служащих; фермы – по общей площади земель и валовым доходам. При разделении выборки на слои требуется ответить на вопросы, по какому признаку лучше производить расслоение, как определить границы между слоями, сколько должно быть слоев.

Слайд 12

Разделение неоднородной совокупности на однородные

Пусть выборка изучаемой совокупности x 1 , …, x n , содержит элементы двух независимых случайных величин с плотностями распределений f(x,q 1) и f(x,q 2). Обозначим через А – множество элементов выборки, принадлежащих к первой случайной величине, В – множество элементов выборки из второй совокупности. Требуется найти оценки 1 , 2 неизвестных параметров q 1 , q 2 и множества А и В. Для оценки этих четырех неизвестных используем метод максимума правдоподобия. Неизвестные q 1 , q 2 и А и В найдем из условия покоординатной максимизации функции правдоподобия

На каждом шаге максимизируется величина функции правдоподобия по одному из неизвестных . 1) < f(x i , 2),. Если f(x i , 1) = f(x i , 2), то оба варианта одинаково правдоподобны, что для непрерывных распределений является маловероятным событием. Далее берем следующий элемент и относим его в то или иное множество. Полученные множества сравниваем с множествами на предыдущем шаге. Если они отличаются, то переходим к шагу 2, в противном случае алгоритм останавливается, и задача считается решенной.

Недостатком алгоритма является то, что он останавливается на первом локальном максимуме функции правдоподобия. Частично этого недостаток можно избежать, решая задачу при различных начальных разбиениях на подмножества А и В. Если конечные результаты для нескольких начальных условий различны, то берется то решение, для которого значение функции правдоподобия больше. Отсюда следует, что приведенный алгоритм применим и для выборок, содержащих более двух слоев.