VI. Guía de Estudios UNIDAD I SIGNIFICADO Y ALCANCE DE LA ESTADÍSTICA 1. La Estadística como disciplina científica En el lenguaje cotidiano se utiliza la palabra "estadística" como un conjunto de cifras referido a alguna actividad, por ejemplo: número de accidentes de tránsito durante un año, cifras de producción de cereales; índices mensuales de precios al consumidor, etc. Sin embargo, por "estadística" debe entenderse algo más elaborado y más susceptible de tratamiento científico. En la actualidad, todas las disciplinas utilizan la información estadística con el objeto de planificar cursos de acción, y aún cuando se trabaja en condiciones de incertidumbre, deben tomarse las decisiones correspondientes. La Estadística, precisamente, proporciona un conjunto de métodos para la preparación de decisiones acertadas frente a la incertidumbre. Trata de la resolución de problemas, y en consecuencia, se encuentra dentro de los límites del método científico. Queda claro, entonces, que hoy en día los métodos estadísticos no se aplican únicamente para reunir cifras históricas, sino que deben permitir el tratamiento de la información numérica con fines de obtener conclusiones útiles y elaborar pronósticos. Por ejemplo, en el nuevo escenario económico, un gerente utiliza los datos de ventas no sólo para conocer los resultados económicos, sino con el propósito de hacer estimaciones y analizar tendencias. De todo lo expuesto, se puede resumir el concepto de Estadística como sigue: “Es la disciplina que comprende un conjunto de teorías, métodos y técnicas para obtener, describir e interpretar datos e informaciones con el objeto de tomar decisiones y predecir fenómenos que pueden expresarse en forma cuantitativa”.
21
2. Aplicaciones de la estadística 2.1. Aplicación en distintas disciplinas Existen dos tipos extremos respecto a la Estadística: una aceptación indiscriminada, donde se pretende tomar decisiones basándose solamente en métodos estadísticos; o bien, una desconfianza sistemática en ella, lo que lleva a ignorar muchos hechos de la realidad. Es por ello que debe adoptarse una actitud intermedia, es decir utilizar los métodos y técnicas estadísticas como herramientas para el logro de objetivos buscados. Ningún procedimiento estadístico, en sí mismo, puede conducir directamente a resultados buscados. La utilización adecuada depende de la habilidad y exigencias de quienes los emplee(1) . Como en todas las disciplinas se realizan trabajos de investigación, los métodos estadísticos son instrumentos fundamentales de aplicación. Se pueden citar los siguientes ejemplos: - En Agricultura, un área relacionada con las Ciencias Biológicas, se utilizan para determinar los efectos de fertilizantes en la producción de cereales. - En Medicina, se emplean para determinar los posibles efectos de un nuevo tratamiento para una determinada enfermedad. - En Ingeniería Industrial, es fundamental el conocimiento sobre las técnicas estadísticas de control de calidad. De la misma manera se puede afirmar que la Estadística es de gran utilidad en Psicología, Educación, Sociología, Antropología, Geografía, Turismo, Química, etc.
2.2. Aplicación en la Economía y los Negocios La creciente complejidad de la Economía provoca cada vez mayor incertidumbre para las operaciones de cualquier empresa, pero como ya se dijo, los administradores deben igualmente resolver problemas y tomar decisiones. Particularmente, en el campo de la Administración, la Estadística ha demostrado ser una importante herramienta en áreas tales como 1. D'Ottone, Horacio. Op. cit. en la bibliografía.
22
investigación de mercados, evaluación de proyectos, pronósticos de ventas, etc. En la actualidad, se trata de incluir todos los métodos relacionados con las decisiones estadísticas en una teoría que las abarque por completo denominada "teoría de las decisiones". Se debe puntualizar la importancia de los métodos estadísticos para cualquier gobierno. Por ejemplo, la obtención de diferentes indicadores como ser el PBI, índices de precios, tasas de interés, y otros, sirven no sólo para describir el estado actual de la economía, sino que proporcionan ideas de la tendencias, lo que permite evaluar las medidas de un plan económico. Estos indicadores también son utilizados por los distintos sectores económicos que llevarán a decisiones respecto a las operaciones y políticas de cada uno.
3. La Falsedad estadística La mala utilización de los métodos estadísticos llevan a resultados erróneos que destruyen el valor de cualquier investigación. Obtención de datos insuficientes, construcciones inadecuadas de gráficos, datos muestrales no representativos, son algunas de las situaciones que llevan a interpretaciones engañosas y conclusiones equivocadas. Por lo expresado, se requiere de cuidado y prudencia en el manejo de datos estadísticos. Los errores cometidos son involuntarios en muchos casos, pero también puede mentirse con estadísticas debido a intereses creados. El primer ministro británico del siglo XIX, Benjamín Disraeli expresó burlonamente que "existen tres tipos de falsedades: las mentiras, las mentiras detestables y las estadísticas". A medida que se avance en el desarrollo de los temas se irán haciendo referencias al mal uso de la estadística en distintos métodos, técnicas y procedimientos.
23
Actividad Nº 1 1. a. Busque en el diccionario las distintas acepciones del vocablo "estadística". b. De acuerdo a los conceptos desarrollados en el punto 1 de este módulo y a las acepciones expuestas en (a), construya su propia definición de estadística y explíquela. 2. Realice un listado de por los menos 5 actividades o ámbitos empresariales donde la estadística resulte esencial. 3. Ilustre con un ejemplo la aplicación de la estadística en cada una de las siguientes disciplinas. a) Geografía b) Turismo c) Educación d) Psicología 4) En los procesos decisorios se utilizan también los modelos proporcionados por la Investigación operativa y la Econometría. Investigue cuál es la finalidad de cada una y establezca la relación con la Estadística. 5) Consulte la bibliografía y elabore un resumen sobre la historia de la Estadística.
24
UNIDAD II LA INVESTIGACIÓN ESTADÍSTICA 1. Etapas de un trabajo estadístico Toda investigación estadística es un procedimiento sistemático que tiene las siguientes etapas: 1.Formulación del problema: Debe determinarse en forma precisa el objeto de la investigación, es decir "el qué" y "el para qué" se investiga. Deben indicarse los sujetos del estudio (unidades de observación) y las características de interés (variables). 2.Diseño del experimento: Se denomina "experimento" a la observación planeada de un fenómeno de cualquier índole con la finalidad de describir su comportamiento y/o tomar una decisión. Formulado el problema, el investigador debe decidir si estudia toda la población (universo) o sólo una parte de ella (muestra). En el Primer caso deberá realizar un censo (enumeración completa de la población). Si elige una muestra, deberá diseñar el procedimiento adecuado para obtener una muestra representativa de la población. 3.Relevamiento de datos: Se procede a recopilar los datos de las distintas fuentes disponibles utilizando los distintos métodos de recolección. 4.Organización y presentación de datos: Los datos organizados y presentados en cuadros (tablas) y/o gráficos se convierten en información útil para facilitar la lectura y el análisis de la misma. 5.Análisis: Según sea el objetivo de la investigación, el análisis puede ser descriptivo o inferencial. (Ver tema 5). 6.Interpretación: Los resultados obtenidos, que están expresados en lenguaje estadístico, deben ser "traducidos" al lenguaje de la disciplina científica en la cual se investiga. La interpretación permite la elaboración de conclusiones y la toma de decisiones.
25
2. Variables Cualquier objeto o evento cuyas características son observables constituye un "fenómeno". En un sentido más amplio se puede decir que un "fenómeno" indica qué aspectos de la realidad está bajo observación o estudio. Sea la siguiente información sobre el personal de una universidad. ANTIGÜEDAD
CARGO Y SEXO
(en años)
Docentes
Administrativos
V
M
V
M
0-5 5 - 10 10 y más
3 18 45
5 16 60
2 19 22
4 11 24
TOTAL
66
81
43
39
En la información del cuadro hay 3 características observables: antigüedad, cargo y sexo. Cada una de ellas constituye una variable. Una variable es una propiedad o característica de un objeto de estudio que puede asumir distintos valores. También puede definirse como una característica observable de un objeto de estudio que se puede describir según un esquema de clasificación y medición bien definida. VARIABLE
VALORES O CATEGORIA DE VARIABLES
Antigüedad Cargo Sexo
0-5 5 - 10 10 y más Docente - Administrativo Varón - Mujer
Las variables se clasifican: en a) cualitativas y b) cuantitativas. a) Las variables cualitativas, llamadas también "atributos", expresa propiedades de los fenómenos que se pueden describir cualitativamente
26
y, desde luego, no están representadas numéricamente. Ej.: Cargo y Sexo. Otros ejemplos: nacionalidad, nivel instrucción, estado civil, etc. b) Las variables cuantitativas son las expresiones numéricas de algunas propiedades de los fenómenos. En la información sobre el personal, la antigüedad es una variable continua. Otros ejemplos: edad, peso, estatura, etc. Las variables cuantitativas pueden ser: "discretas" o "continuas". - Las variables discretas son aquellas que pueden tomar sólo ciertos valores es el intervalo considerado y no admiten valores intermedios. Generalmente son valores enteros. Ej.: el número de hijos. Una familia puede tener 0,1, 2... hijos, pero no algún valor intermedio. - Las variables continuas son las que pueden tomar cualquier valor en el intervalo considerado. Ej.: el peso. Una persona que pesa 65 kgs., redondeando a enteras se puede tener la certeza que su peso es un valor entre 64,5 y 65,5 kgs. Puede pesar 65 a 65,385 kgs., o cualquier valor entre 64,5 y 65,5 kgs. Hay muchas variables continuas cuyos valores parecen ser discretos. Por ejemplo, la edad de una persona. Si alguien dice que cumplió 25 años, en realidad tiene 25 años más una fracción de año. Ahora bien, el empleo de fracciones o decimales no significa que necesariamente las variables sean continuas. En algunas competencias deportivas participantes pueden recibir calificaciones como 7; 7,5; 8; 8,5. Estos valores son discretos ya que no se puede calificar entre 7 y 7,5. En resumen: - Las observaciones para una variable discreta se obtienen por el proceso de "conteo": número de acciones vendidas en la Bolsa, unidades de un producto en un inventario, etc. - Las observaciones para una variable continua se obtienen por el proceso de "medición": peso, estatura, temperatura, etc.
27
3. Datos estadísticos Un dato es el valor de la variable. Si una persona es "varón", "docente" y tiene una antigüedad de "6 años" en la universidad, cada uno de estos valores individuales constituye un dato para cada variable de interés. De hecho, los datos se presentan con algún tipo de "medición", es decir que los registros de observaciones deben expresarse en números (o símbolos) de manera que puedan aplicarse los métodos estadísticos. Las características cuantitativas pueden transformarse en datos numéricos, simplemente por medición directa en unidades tales como metro, kilogramos, pesos, dólares, etc. Si las características son cualitativas, las observaciones pueden clasificarse como poseedoras o no de una cualidad o propiedad determinada. Un artículo puede considerarse como "defectuoso" o "bueno". Pero los atributos pueden expresarse numéricamente a los efectos de un tratamiento estadístico, por ejemplo, asignar el valor 0 a los artículos defectuosos y el valor 1 a los artículos buenos. En muchos casos, los datos cuantitativos también pueden ser tratados cualitativamente según la naturaleza del problema bajo estudio. La calificación de exámenes es cuantitativa, pero puede ser tratada como atributo, categorizando la calificación o resultado como "aprobado" o "desaprobado". Lo más importante para destacar es que no toda información numérica es considerada como dato estadístico. La información apropiada para un análisis estadístico debe ser un conjunto de números que muestren "relaciones significativas", es decir deben ser cifras que puedan ser comparadas, analizadas e interpretadas. Un número aislado que no muestre relación significativa no es un dato estadístico (2).
(2) Shao, Stephen, op. cit. en la bibliografía
28
Actividad Nº 2 1. Indique si el siguiente enunciado es correcto o incorrecto y fundamentar la respuesta: "Las variables discretas son las que asumen valores enteros" 2. Clasifique las siguientes variables: a) Indices de desocupación de las provincias argentinas. b) Número de asignaturas aprobadas por alumnos de una carrera universitaria. c) Causa de los accidentes de trabajo. d) Densidad de población de los departamentos de la provincia de Salta. e) País de destino de las exportaciones argentinas. f) Número de ambientes de las viviendas de un barrio. 3. ¿Por qué no cualquier número es un dato estadístico? 4. En diarios o revistas, identifique secciones que incluyan datos estadísticos
29
4. Población y Muestra 4.1. Población En la investigación estadística es fundamental definir el marco de referencia de estudio, esto lleva a definir la Población o Universo. Población es la totalidad de posibles mediciones y observaciones bajo consideración en una situación dada de un problema. Cada situación en particular implica definir una población diferente. Si el problema consiste en analizar las evaluaciones del desempeño de todos los empleados de una empresa comercial, entonces la población está constituida por las evaluaciones de todos los empleados de esa empresa. Si el problema consiste solamente en el análisis del desempeño de los vendedores de la empresa, entonces la población está formada por las evaluaciones de todos los vendedores de la organización. Es fundamental que la población quede claramente especificada a fin de identificar los integrantes de la misma. Cada elemento de la población se denomina "unidad elemental de observación". Sobre cada una de ellas se efectuarán las mediciones de las características o propiedades que pueden ser cuantitativas o cualitativas. Ejemplo: Durante una auditoría en una librería se revisan las cuentas corrientes de los clientes a efectos de determinar el saldo promedio. - La población consiste en todas las cuentas corrientes de los clientes del negocio. - La variable bajo estudio es el saldo. Es cuantitativa. - La unidad de observación es cada cuenta individual. Es fundamental definir cuidadosamente la unidad elemental y su característica observada. En un estudio sobre viviendas puede interesar el número de habitaciones de cada una. Pero, qué es una habitación? ¿Un dormitorio, un cuarto de baño, una cocina? ¿Se incluirán todas las dependencia de la vivienda o sólo algunas? Otro ejemplo puede ser un análisis sobre la rentabilidad de las pequeñas empresas. En este caso habrá que precisar qué es una pequeña empresa y qué características se tendrán en cuenta para considerarla como tal. 30
Puede ocurrir que distintos investigadores se opongan en las definiciones sobre una misma cuestión básica. Por ejemplo, si se toma en consideración al “turista” como unidad de observación para un análisis cualquiera, puede ocurrir que para un economista, un turista sea la persona que se desplaza de su residencia habitual, ya que tal desplazamiento lo obliga a realizar gastos de hotelería, transporte, comida, etc. cualquiera sea la “motivación” del viaje; sin embargo un sociólogo puede considerar que un “viajante de comercio” o “un director de una S.A." que asiste a una reunión de trabajo, no es un turista, puesto que la motivación de su viaje es consecuencia de la actividad laboral. En resumen, la definición de la población y las características de sus unidades elementales dependen de la naturaleza del problema que se estudia, lo que importa es que esa definición sea lo más precisa posible.
4.2. Población finita y población infinita Se denomina población “finita” a la que incluye un número limitado de observaciones. Por ejemplo, el conjunto de salarios de los operarios en una compañía. Algunas poblaciones finitas incluyen solamente unos cuantos datos, mientras que otras, consisten en miles o millones de datos. Siempre que sea posible alcanzar el número total de observaciones, se considera como finita la población. Población “infinita” es aquella que incluye una gran cantidad de medidas u observaciones que no pueden alcanzarse por conteo. Una población de este tipo podría ser todas las baterías posibles que fabricaría un industrial si continuara trabajando indefinidamente, bajo determinadas condiciones de operación. Otra población infinita sería todos los resultados posibles al lanzar un dado en forma continua e indefinida. En las poblaciones infinitas, no puede obtenerse información completa, por lo que para poder estudiarla se deberá trabajar con una muestra.
31
4.3. Muestra Si las poblaciones que se investigan son infinitas, se dijo que el único procedimiento posible es el de muestreo; como no puede contarse con todos los elementos de la población, se toma de la misma una parte. En el caso de poblaciones finitas, el muestreo sigue siendo el único procedimiento práctico, sobre todo si éstas son muy grandes y su enumeración completa es prácticamente imposible. Por ejemplo, si se desea investigar las preferencias de las amas de casa de la ciudad de Salta sobre una marca de jabón, no será posible entrar en contacto con todas ellas, más bien se encuestará a una parte de ella, o sea, se obtendrá una muestra. Una muestra es un conjunto de observaciones tomadas a partir de una población dada. Es un subconjunto de la población o universo. Fundamentalmente, una muestra se elige por las siguientes razones: a) MENOR COSTO. Cuando los datos se obtienen mediante una muestra, los gastos son menores que si se trabaja con un censo completo. b) MAYOR RAPIDEZ. Los datos se pueden recopilar y procesar más rápidamente. Esto es importante si la información se requiere con urgencia. c) MAYOR ALCANCE. Como se trabaja con una parte de la población, es posible obtener información más completa y precisa que si se trabaja con un censo. d) En otros casos, el examen de los elementos requiere de la destrucción de los mismos, como por ejemplo cuando se desea determinar la calidad de los fósforos; aquí, el control se debe hacer con una muestra porque si se trabajara con el censo esto implicaría la destrucción de toda la producción y no quedarían productos después del examen. De hecho, toda muestra debe ser representativa del universo que se estudia, para permitirle al investigador extraer conclusiones en cuanto a las relaciones entre sus variables y establecer generalizaciones, es decir inferencias válidas a la población.
32
Existen varios tipos de diseños de muestras, pero todos ellos producen dos categorías de muestras. Las probabilísticas y las no probabilísticas. En las muestras probabilísticas todos los elementos de la población tienen una probabilidad conocida de ser incluidos en la muestra. Las muestras no probabilísticas son muestras de "juicio" donde el investigador elige los elementos que, en su opinión, son representativas de la población.
4.4. Parámetro y Estadígrafo Las características medibles de una población se denominan parámetros. Por ejemplo, se desea realizar un análisis sobre los resultados de una prueba de ingreso a todos los aspirantes a las carreras universitarias de Ciencias Económicas en la provincia de Salta. Suponiendo que se trabaje con la población, se puede obtener un promedio de todas las calificaciones de los aspirantes en la prueba. Ese promedio describe una característica del universo, por lo tanto constituye un parámetro. Si se decide trabajar con una muestra, se selecciona un grupo de aspirantes, se registran sus calificaciones en la prueba y se obtiene un promedio. En este caso, ese promedio está calculado sobre una muestra y se denomina estadígrafo o estadístico. Los estadígrafos son las características medibles de una muestra.
33
Actividad Nº 3 1) Se ha hecho un estudio para determinar la preferencia de una marca especial de detergente por parte de las amas de casa de la ciudad de Salta. Entre las 200 amas de casas entrevistadas, 120 respondieron que preferían esa marca. a) ¿Cuál es la población? b) ¿Cuál es la unidad de observación? c) ¿Qué constituye la muestra? 2) Se lanza una moneda 100 veces y se obtienen 60 caras. a) ¿Qué constituye la muestra? b) ¿Qué constituye la población? 3) Durante una semana, en un cine asistieron 1000 espectadores. Explique las circunstancias bajo las cuales estos 1000 espectadores pueden considerarse. a) como muestra, b) como una población. 4) La Municipalidad de Salta está efectuando una encuesta domiciliaria de opinión sobre el servicio de recolección de residuos. Con ese objetivo se ha ideado un esquema para realizar un muestreo aleatorio de las casas en distintos puntos de la ciudad y planea efectuar encuestas durante los días hábiles de 9 a 14 horas. ¿Producirá este esquema una muestra aleatoria? 5) En cada uno de los siguientes casos, identifique: 1) 2) 3) 4) 5)
el objetivo del trabajo, la variable de interés, la población, la muestra, la unidad de observación.
34
a) Varias veces durante el día un ingeniero de control de calidad, en una fábrica textil, selecciona diferentes muestras de metros cuadrados de tela, las examina y registra el número de imperfecciones que encuentra. b) El Ministerio de Trabajo investiga la seguridad de las empresas industriales de la provincia de Salta. A tal efecto registra los índices de accidentes de trabajo a 50 establecimientos elegidos al azar. c) A partir del registro de volantes en un distrito electoral, se toma una muestra de 60 electores y encuentra que 30 están afiliados a algún partido político.
35
5. Objetivos del Análisis Estadístico Los datos estadísticos se pueden recopilar para fines prácticos (descriptivos) y de conocimiento científico (inductivos). Según el objetivo, la Estadística puede dividirse en Estadística Descriptiva y Estadística Inferencial.
5.1. Estadística Descriptiva La estadística Descriptiva se refiere a aquella parte del estudio que incluye la obtención, organización, presentación y descripción de información numérica. El análisis se limita a los datos obtenidos en un caso particular y no implica ningún tipo de inferencia o generalización. Por ejemplo, un gerente de ventas desea conocer las aptitudes de cinco vendedores. Obtiene las ventas realizadas por los mismos durante una semana y las presenta en el siguiente cuadro: Vendedor
A
B
C
D
E
Monto (en miles de $)
18
25
20
15
22
Una medida estadística para describir esta información puede ser la venta media o media aritmética.
18 +
25 +
20 +
Media =
15 +
22 = $ 20
5 En este caso, se utilizan métodos descriptivos, ya que el promedio resume y describe la información obtenida y no hay ninguna generalización hacia las aptitudes de los otros vendedores de la compañía.
36
Los datos pueden presentarse en diversos gráficos, como por ejemplo, un gráfico de barras. $ 30 25 20 15 10 5 A
B
C
D
E
Vendedor
5.2. Estadística Inferencial Si el interés del gerente de ventas es conocer las aptitudes de todos los vendedores de la compañía, deberá recurrir a otros métodos estadísticos. Si carece de tiempo y de recursos para trabajar con todos los datos, utilizará una muestra como base para realizar una inferencia o estimación acerca de la venta media de todos los vendedores. Para ello, deberá aplicar los métodos de la Estadística Inferencial o Inferencia Estadística. La Inferencia Estadística es un método mediante el cual se obtienen generalizaciones o se toman decisiones acerca de una población basadas en información de una muestra. Se debe observar que la inferencia estadística se relaciona con la estadística descriptiva, ya que la información parcial de la muestra es obtenida por métodos descriptivos. La venta media de $ 20 que es el estadígrafo, podría utilizarse para estimar la venta media de todos los vendedores de la empresa, es decir obtener una estimación del parámetro. Como la Estadística Inferencial trabaja sobre una muestra, también se denomina Estadística Muestral.
37
En el ámbito de la administración de empresas, los métodos de inferencias son fundamentales para la toma de decisiones. Se tomarán a modo de ejemplos dos casos típicos. - Un comerciante mayorista recibe un embarque de artículos comprados. Para determinar la calidad de los mismos, inspecciona 50 unidades y encuentra que 5 son defectuosas. Rechaza el embarque y lo devuelve al proveedor?. - Se emplean dos programas de capacitación para operarios de una empresa industrial. Se aplican a dos grupos semejantes y al finalizar el período de capacitación, se toma una prueba a ambos grupos. En base a la calificación promedio de cada grupo, ¿podrá evaluarse la efectividad de los dos programas de capacitación? Visto los conceptos de ambas ramas de la Estadística, se puede dar una definición más específica de esta disciplina: La Estadística se refiere a un conjunto de métodos para manejar la obtención, presentación y análisis de observaciones numéricas. Sus fines son describir al conjunto de datos obtenidos (muestra) y tomar decisiones o realizar generalizaciones acerca de las características de todas las posibles observaciones bajo consideración. (población)
38
Actividad Nº 4 1) Cinco baterías marca "Alfa" y cinco baterías marca "Beta" se prueban para determinar su duración. Las duraciones para Alfa son: 27, 38, 37, 35 y 33 meses; para la marca Beta, las duraciones son : 25, 35, 28, 32 y 30 meses. A partir de las siguientes conclusiones, identifique las que provienen de métodos descriptivos y las que provienen de métodos inferenciales: a) La duración promedio de las 5 baterías Alfa es de 34 meses y la duración promedio de las 5 baterías marca Beta es de 30 meses. b) La duración promedio de Alfa es mayor que la de Beta. c) Probablemente, la duración promedio de todas las baterías Alfa sea mayor que la duración promedio de todas las baterías Beta. d) Si el precio de Alfa es igual al precio de Beta, es preferible comprar Alfa. 2) Un candidato a ocupar un cargo público asegura que ganará la elección. Un sondeo de opinión indica que sobre 200 electores 40 votarán por él, 100 favorecerán a su oponente y 15 están indecisos. a) ¿Cuál es el parámetro poblacional de interés? b) ¿Cuál de los estadígrafos debe utilizar para estimar el parámetro? 3) Proporcione un ejemplo de utilización de Estadística Descriptiva e Inferencia Estadística aplicada a la Economía y los Negocios.
39
6. Relevamiento de datos estadísticos 6.1. Concepto El relevamiento consiste en la recopilación de datos de diversas fuentes.
6.2. Clases de fuentes a.Fuentes internas y fuentes externas - Las fuentes internas son las que se encuentran dentro de la organización. Los datos obtenidos de estas fuentes, denominados internos, son los relacionados directamente con las actividades de la empresa. Estos datos están registrados en comprobantes (facturas, recibos, etc.), fichas, registros contables, informes, o bien, en forma codificada en discos, disquetes o memoria de una computadora. Por ejemplo: la información que proporciona el departamento de ventas sobre el monto de ventas de una compañía en un período determinado o los datos sobre la asistencia de los empleados obtenidos de la Oficina de Personal. - Las organizaciones necesitan también datos ajenos al funcionamiento y, por lo tanto, deben recurrir a fuentes externas. Los datos externos pueden obtenerse de distintas revistas o publicaciones; por ejemplo: una empresa agrícola requiere información sobre exportaciones de granos puede recurrir a publicaciones de la Sociedad Rural Argentina. En otras ocasiones, deben prepararse encuestas para recopilar datos no disponibles en fuentes internas u otras por ejemplo, opiniones de los consumidores de un nuevo producto. b. Fuentes primarias y fuentes secundarias - Las fuentes primarias son fuentes originarias de datos. Se denominan primarias porque los datos son obtenidos de una publicación editada por el recopilador original. Como los datos se recopilan por primera vez, se pueden utilizar experimentos estadísticos y encuestas como métodos de recolección. En el ejemplo sobre las opiniones de los consumidores de un nuevo producto, la encuesta diseñada por la empresa constituye una fuente primaria.
40
- Las fuentes secundarias son aquellas que proporcionan toda la información existente sobre el tema bajo estudio. Se denominan secundarias porque los datos son obtenidos de una reimpresión, que es publicada por una persona u organización distinta al recopilador original. La utilización de fuentes primarias o secundarias depende de la necesidad y disponibilidad de datos, como así también del costo y la confiabilidad. Las fuentes primarias son más costosas, pero pueden ser más confiables. Si se utiliza una encuesta, ésta debe ser cuidadosamente planteada ya que hay que establecer objetivos, diseñar la muestra, preparar a los encuestadores, realizar pruebas pilotos; todo esto lleva tiempo y dinero. Las fuentes secundarias tienen costos de búsqueda más bajos, pero se debe evaluar la confiabilidad de las mismas, ya que los datos pueden estar desactualizados, parcialmente publicados o pueden contener errores de impresión. Con respecto a publicaciones y revistas, existen una gran variedad de las mismas confeccionadas por organismos gubernamentales (Ejemplo: publicaciones del INDEC, del Banco Central, etc.). También se encuentran las estadísticas elaboradas por Naciones Unidas (a través de sus organismos: FAO, OMS, UNESCO, UNICEF), Organización de los Estados Americanos y otros organismos internacionales. Se pueden consultar revistas especializadas de cámaras sectoriales, fundaciones, institutos de investigaciones y otras entidades que compilan y publican datos sobre las actividades que les conciernen.
6.3. Experimentos y Encuestas. Métodos de recolección de datos Un experimento estadístico es un proceso de recolección de datos donde se ejerce un control sobre algunos o todos los factores que pueden influir sobre la variable bajo estudio. Por ejemplo, la administración de una compañía industrial desea conocer si el nuevo plan de capacitación preparado por el departamento de personal conduce a un aumento en la productividad. Un experimento para averiguar este problema podría consistir en seleccionar a un grupo de operarios y hacerlo participar en el nuevo plan de capacitación, dejando al otro grupo trabajando en las mismas condiciones. Luego, se compararán las productividades de dos grupos y se evaluará si el plan es o no efectivo. 41
Una encuesta estadística es el proceso de recopilación de datos relacionados con las características de elementos, sin un control especial que influya sobre la variable de interés. Considerando el estudio de la productividad (variable bajo estudio) de los operarios, se pueden obtener datos sobre la productividad durante los últimos meses y además se puede obtener información sobre el nivel de instrucción, éste es un datos de encuesta. Se puede analizar la relación entre el nivel de instrucción y la productividad, pero debe observarse que no se ejerce ningún control sobre el factor "instrucción".
6.4. El proceso de obtener datos En las encuestas o experimentos se pueden utilizar distintos métodos. Algunos de ellos son: a) Observación directa: Es muy apropiado y eficiente para recopilar ciertos tipos de datos. Un ejemplo clásico es el estudio sobre el tráfico de vehículos con el objeto de organizar el tráfico de una ciudad. Los observadores se ubican en un determinado punto de la ciudad para contar y registrar el número de vehículos que pasan por el lugar. La cantidad y el tipo de datos que pueden ser recopilados por este método son limitados. Una limitación puede ser los prejuicios del observador, quien registra algunos hechos, pasando por alto otros que pueden ser importantes. Los observadores deben ser entrenados de manera tal que puedan registrar con precisión los datos relevantes de los fenómenos que se investigan. Por otro lado, la observación debe ser de suficiente duración para que pueda obtenerse la cantidad necesaria de datos. b) Respuestas individuales: Los datos mediante respuestas individuales pueden obtenerse por entrevistas personales, entrevistas telefónicas o cuestionarios escritos. El cuestionario está especialmente indicado cuando los datos buscados requieren respuestas muy concretas, o bien cuando las muestras son muy grandes. Los datos para el Censo Nacional de Población y Vivienda, por ejemplo, se relevan mediante un cuestionario. En otras ocasiones, los cuestionarios se envían por correo, como sería el caso de una revista que desea conocer opinio-
42
nes de sus suscriptores acerca de la misma, de esta manera puede recabar los datos en distintos lugares de un área geográfica determinada. Si los datos requieren respuestas más matizadas, y mayor número de respuestas por parte de las personas seleccionadas en la muestra, la entrevista personal sería el método adecuado. La decisión de utilizar experimentos o encuestas y alguno de los métodos mencionados depende de la naturaleza del problema, del costo y el tiempo disponible. Cualquier encuesta o experimento debe planearse y conducirse con cuidado a efectos de conseguir datos relevantes, es decir precisos y útiles. Existe la posibilidad de emplear un método en particular o bien una combinación de dos o más, lo importante es disponer de datos precisos y útiles.
7. Organización de los Datos 7.1. Corrección Antes de la presentación, será necesario efectuar una corrección de los datos relevados para evaluar la confiabilidad de los mismos. En las entrevistas y cuestionarios, son muy comunes errores cometidos por los entrevistadores o por los respondientes. Puede haber omisiones, respuestas inconsistentes, respuestas incompletas. Si se han utilizado fuentes secundarias, es necesario verificar que los datos sean completos y/o actualizados. Si no se revisan los datos, se corre el riesgo de continuar con una investigación que no llevará a los resultados deseados y se habrá perdido tiempo y dinero.
7.2. Clasificación La clasificación implica el establecimiento de grupos o clases para los resultados de una variable. El criterio de clasificación depende de los objetivos y el método de estudio. La clasificación es importante para el análisis de relaciones entre variables.
43
El monto de ventas, por ejemplo, puede clasificarse por año o por sucursal de una compañía. Los empleados de una empresa pueden clasificarse por categorías o por nivel de instrucción. Cuando los datos se tabulan conjuntamente en dos o más sistemas de clasificación se denominan datos en clasificación cruzada. Por ejemplo, el monto de ventas de las compañías puede clasificarse por año y sucursal. Los empleados pueden clasificarse por categoría, sexo y nivel de instrucción.
7.3. Tabulación La tabulación implica la determinación del número de casos o el valor de los elementos que se incluyen en cada clase o categoría determinada. En otras palabras, la tabulación es el proceso que permite un arreglo de los datos en forma resumida de acuerdo a las clasificaciones. El siguiente, es un ejemplo de tabulación manual con una tabla de conteo por medio de marcas. Edad de los empleados 20 - 25 25 - 30 30 - 35 35 y más
Conteo
/// //// /// //// //
Número de empleados 3 8 5 2 18
Los sistemas de computación permiten tabulaciones más extensas en un menor tiempo.
44
Actividad Nº 5 1) Nombre publicaciones que proporcionan información estadística. 2) Consulte la bibliografía y confeccione un resumen sobre aspectos básicos para la confección de cuestionarios. 3) Identifique, al menos, una falla principal en cada una de las siguientes preguntas diseñadas para obtener información y redacte nuevamente la pregunta para eliminar la falla. a) "¿Cuántas veces visitó el Shopping en los últimos 6 meses?" b) "¿Le viene a la cabeza el nombre de "Pepsi" o de otras marca cuando escucha la palabra "gaseosa"?" c) "Indique qué marca de yerba prefiere Ud. y dé 3 razones para su preferencia". 4) Una compañía elaboró recientemente una nueva bebida sin alcohol, distribuyéndola embotellada a los supermercados y en latas a negocios minoristas. Actualmetne está examinando los datos de ventas para observar qué tipo de envase es preferido por los clientes. a) ¿Por qué estos datos de ventas son encuesta? b) ¿Cómo podría Ud. establecer un experimento para estudiar la preferencia con resepcto al envase? Explique. 5) En cada una de las siguientes situaciones, indique si sería preferible un censo o una muestra para obtener la información deseada; explique además si serían preferibles cuestionarios o entrevistas. a) Un noticiero de TV desea conocer la opinión de los ciudadanos sobre la reforma de la Constitución. b) El Consejo Profesional de Ciencias Económoicas desea actualizar los datos de sus matriculados. c) Una compañía con 500 empleados desea determinar las actitudes de los empleados hacia las políticas de la empresa.
45
8. Presentación de los datos estadísticos 8.1. Introducción La presentación de los datos es la disposición de los mismos de manera tal que se conviertan en información significativa que permitan su análisis e interpretación. Las dos técnicas básicas de presentación son los cuadros o tablas y los gráficos.
8.2. Cuadros estadísticos 8.2.1. Concepto La técnica de los cuadros consiste en arreglos de los datos, divididos por uno o más sistemas de clasificación, en columnas e hileras. Cuando el cuadro tiene una sola clasificación se denomina de clasificación simple, cuando se confecciona con dos o más clasificaciones se llama cuadro de clasificación cruzada o de doble entrada. La construcción de una tabla depende de la utilización y del tipo de análisis que se realice. Para que una tabla sea efectiva debe ser clara y precisa para posibilitar su lectura. Se deben evitar tablas complicadas y largas. Cuando se desean hacer comparaciones, las tablas deben ser diseñadas para facilitar las mismas. En los cuadros de doble entrada debe tenerse especial cuidado en el orden y disposición de las clasificaciones. Demasiadas divisiones y subdivisiones pueden tornar confusa la información, siendo preferibles varios cuadros simples en lugar de uno con clasificación cruzada.
8.2.2. Elementos estructurales Una tabla completa debe contener los siguientes elementos estructurales o partes:
46
PRODUCCION ARGENTINA DE PAPEL POR PRINCIPALES TIPOS (En miles de toneladas)
(a) Título (b) Nota de encabezado (c) Encabezado
P E R I O D O S TIPOS
(d) Columna Matriz
1991
1992
1993 (1)
Diario Impresión Industrial Doméstico
221 179 510 38
208 170 508 36
198 176 504 50
TOTALES
948
922
922
(1) Datos estimados
(e) Cuerpo
(f) Notas al pie
Fuente: Unión Industrial Argentina (UIA)
(g) Fuente
a) Título: El título describe el contenido de la tabla. Debe ser completo y preciso. b) Nota del encabezado: Es una aclaración o amplitud del título ya sea para detallar algún elemento importante o para expresar la unidad de medida de los datos. Se coloca debajo del título y entre paréntesis. c) Encabezado: Contiene los títulos de las clasificaciones ubicadas en las columnas. d) Columna Matriz: Contiene los títulos de las clasificaciones ubicadas en las filas. e) Cuerpo: Es el contenido de los datos estadísticos arreglados de acuerdo a las descripciones de los encabezados. Cada dato se consigna en una celda que es la intersección entre una fila y una columna. f) Notas al pie: Se utiliza para explicar o aclarar algunos elementos del cuadro. Ayudan al análisis e interpretación. g) Fuente: Indica la procedencia de los datos. Permite conocer quién recopiló la información y evaluar la confiabilidad de la fuente. Además, saber donde recurrir si se necesita información adicional sobre el tema.
8.2.3. Consideraciones adicionales sobre los cuadros 1) Es importante que en cada celda se registre algo. Si el dato es cero, este cero debe ser anotado en la celda. Si la información no está disponible, debe indicarse con ND o bien con una aclaración al pie. Si 47
la celda se deja en blanco, no se sabe si el dato es cero, no está disponible o hubo alguna omisión. 2) Cuando en un informe o texto se presentan varias tablas, se hace necesario numerar las mismas por orden de aparición a fin de facilitar la referencia de las mismas. El número se coloca antes del título. 3) Cuando se quieren analizar relaciones estadísticas entre variabledependiente e independiente, es conveniente ubicar la primera en la columna matriz. La variable de interés fundamental en una investigación es una variable dependiente. Otras variables, las cuales se cree que afectan las mediciones de las variables dependientes, son las variables independientes. Se puede decir que la variable dependiente está determinada o influenciada por la variable independiente. Por ejemplo: se desea analizar el desempeño de un grupo de empleados; en este caso el desempeño es la variable de interés. Además se quiere conocer qué factores pueden influir sobre el desempeño, pudiéndose considerar la instrucción y el sexo que serían en este caso las variables independientes. 4) Presentación en porcentajes: Cuando se presentan datos en porcentajes, se pueden utilizar distintas bases que dependerán del análisis y/o comparación que se desee realizar sobre los datos. Ejemplo: Número de empleados por sexo y categoría-Cifras absolutas Categoría
Varones
Mujeres
Total
Vendedores Administrativos
60 40
50 20
100 60
Maestranza
20
10
30
120
80
200
Mujeres
Total
Total Porcentajes conjuntos Categoría
Varones
Vendedores Administrativos
30 20
25 10
55 30
Maestranza
10
5
15
Total
60%
40%
100%
48
Porcentajes verticales Categoría
Varones
Mujeres
Total
Vendedores Administrativos Maestranza
50 33 17
62.5 25 12.5
55 30 15
Total
100%
100%
100%
Porcentajes horizontales Categoría
Varones
Mujeres
Total
Vendedores Administrativos Maestranza
55 67 67
45 33 33
100% 100% 100%
Total
60%
40%
100%
49
Actividad Nº 6 1) El Centro de Industriales Siderúrgicos presentó el siguiente informe sobre la producción siderúrgica comparando los meses de enero y febrero de 1997 y 1998. Los productos considerados son hierro primario y acero crudo. Los datos indican que la producción de hierro primario en enero de 1997 fue de 229.000 toneladas y en enero de 1998 a 256.000 toneladas; para el mes de febrero de cada año fue de 262.000 y 275.000 toneladas respectivamente. Para el acero crudo la producción total para los meses de enero y febrero de 1997 fue de 500.000 toneladas, correspondiendo el 45% al mes de enero y el 55% al mes de febrero; en el mes de enero de 1998 la producción aumentó un 15% respecto del mismo mes en 1997, mientras que en el mes de frebrero de 1998 disminuyó un 10% con respecto a febrero de 1997. La institución aclaró que los datos de 1998 son provisorios. Presente todos datos del informe en cuadro con todos los elementos estructurales asegurando una lectura comprensiva de las cifras. 2) La compañía Aguila estudió los factores que afectaban el ausentismo de los trabajadores de producción en una de sus plantas. Se obtuvieron los siguientes resultados clasificados; los datos se clasificaron por el sexo y record de asistencia. Records satisfactorios Hombres: 1920 Mujeres: 925
Records no satisfactorios Hombres: 989 Mujeres: 475
a) Convierta estos datos en porcentajes y preséntelos en una tabla en forma que pueda estudiarse la relación entre las variables. ¿Qué base utilizó para el cálculo de porcentajes? b) ¿Existe alguna indicación de relación estadística entre las variables de la tabla? Explique. c) Luego se agregó al análisis la variable "estado civil" y se obtienen los siguientes resultados.
50
-
Hombres casados 1730 satisfactorios y 630 insatisfactorios. Hombres en otro estado civil 190 satisfactorio y 350 insatisfactorio. Mujeres casadas 304 satisfactorios y 430 insatisfactorios. Mujeres en otro estado civil 621 satisfactorios y 45 insatisfactorio.
Convierta estos datos en porcentajes y preséntelos en una tabla para estudiar las relaciones causa-efecto entre las variables dependiente e independiente. ¿Existe una relación estadística entre las tres variables? Fundamente su respuesta.
51
8.3. Gráficos Estadísticos 8.3.1. Concepto En los gráficos, la información se presenta en magnitudes que puedan interpretarse visualmente. Deben dibujarse en forma sencilla y atractiva que permitan una rápida comprensión de su contenido. 3.2. Partes de un gráfico Ventas mensuales de la empresa xx (en miles de $)
Título Nota del encabezado
$ 60 50 Diagramas
40 Escala de y
30 20 10 Mes Enero
Febrero Escala de x
Fuente:
Dpto. de Vtas.
Fuentes
- Titulo: Describe le contenido del gráfico. - Diagrama: Son los distintos trazos con que se presentan los datos. Pueden ser líneas, barras, etc. - Escala: En el eje de ordenadas (y) generalmente se miden las magnitudes de los datos. El eje de las abscisas (x) es frecuentemente usada para colocar la clasificación. - Fuente: Indica la procedencia de los datos. Al igual que los cuadros, en los gráficos se consignan las notas del encabezado y notas al pie cuando fuese necesario.
52
8.3.3. Tipos de gráficos Existen muchos tipos de gráficos. Aquí se considerarán los gráficos más sencillos y de uso corriente.
I.
GRAFICOS
a)
Simples
b)
Múltiples
a) b) c) d)
Simples Múltiples Compuestas Bidireccionales
Lineales
II. De Barras
III. Circulares
Se desarrollarán algunas características de los gráficos en base a los datos hipotéticos presentados en los siguientes cuadros: Cuadro Nº 1 Ventas diarias de la Empresa "Llave" S.R.L. (en miles de $) Día Lunes Martes Miércoles Jueves Viernes Sábado
Crédito
Contado
Total
5 2 5 11 7 8
3 2 2 4 3 5
8 4 7 15 10 13
38
19
57
Cuadro Nº 2 Número de ingresantes a 3 carreras en la U.C.S. en los años 19971998. 53
CARRERA Abogacía Adm. de Empresas Ingeniería Civil
1997
1998
90 40 70
108 80 35
I. Gráficos Lineales Los gráficos lineales vienen representados en los ejes de coordenadas cartesianas mediante líneas rectas o quebradas. Son útiles para representar series cronológicas, es decir cuando la observación de un fenómeno se hace a través de tiempo (años, meses, días, etc.). Cuando hay un gran número de períodos y existen marcadas fluctuaciones en los datos, este tipo de gráfico es el adecuado. a)Gráfico lineal simple. Representa una sola serie de datos $ 16 14
Ventas totales diarias de la empresa Llave
12 10 8 6
El tiempo siempre se coloca en el eje de la x.
4 2
Día L
M
M
J
V
S
b)Gráfico lineal múltiple Se utiliza para representar dos o más serie de datos. Se deben diferenciar las líneas con distintos trazos o colores para individualizar cada serie.
54
GRAFICO Nº 2 $ 16 14 12
Ventas diarias al contado y a crédito de la empresa LLave
10 8 6 4 2 Día L
M
M
J
V
Si se pretende representar más de 3 series, el gráfico puede resultar confuso.
S
II.Gráfico de barras Los gráficos de barras son de fácil interpretación. Los datos se representan mediante barras o rectángulos cuya amplitud es constante y la longitud proporcional al número de observaciones. Las barras pueden disponerse en forma vertical u horizontal. Dentro de este tipo de gráfico, se encuentran las siguientes variantes: a) Gráfico de barras simples: Representa una sola serie de datos. Las ventas totales por día se grafican dibujando una barra para cada día de la semana con una altura igual al volumen de ventas. (Gráfico Nº 3). b) Gráfico de barras múltiples: Representan dos o más series de datos. Son adecuados para efectuar comparaciones. Las ventas al contado y a crédito de la semana se muestran en el gráfico Nº 4. c) Gráficos de barras compuestas: Este procedimiento de representar dos o más series en el mismo gráfico consiste en dibujar el diagrama de barras dibujadas con otras de distinto fondo que representarán la segunda (o tercera) serie. Cada barra tendrá una longitud igual a la suma de los datos de las dos series. En el gráfico Nº 5, cada barra representa el total de las ventas por día y está en dos: la parte rayada corresponde a las ventas a crédito y la parte de arriba (sin rayar) las ventas al contado.
55
GRAFICO Nº 3 (Barras Simples) $ 16 14 12 10 8 6 4 2 L
M
M
J
V
S
Día
GRAFICO Nº 4 (Barras Múltiples)
d) Gráfico de barras bidireccionales. Se utiliza para indicar cambios porcentuales, para ilustrar ganancias o pérdidas, producción y ventas sobre lo normal o bajo lo normal de un período a otro, saldos positivos y negativos, etc. Las barras bidireccionales pueden disponerse en forma vertical u horizontal.
56
Se representarán los cambios porcentuales en el número de ingresantes en 1998 con respecto a 1997. Carrera:
Abogacía
Variación porcentual
Adm. de Empresas
+20%
Ing. Civil
+100%
-50%
Gráfico Nº 6 - Ingresantes a las 3 Carreras de la U.C.S. en 1998 (cuadro 2) Carrera
Abogacía
Ing. Civil Adm. De Empresa Nº de Alumnos 25
75
50
100
GRAFICO Nº 7 -100 -80 -60 -40 -20 0
-20 -40
-60
-80 -100
Adm. De Empresas Abogacía
Ing. Civil
57
GRAFICO Nº 5 (Barras Compuestas)
Las barras, como se dijo anteriormente, se pueden disponer en forma horizontal. Esta disposición es utilizada habitualmente para graficar en series de datos que se presentan en un solo período de tiempo. Al igual que las verticales, pueden ser simples, múltiples y compuestas. Una técnica comúnmente usada es disponer los aumentos porcentuales en orden descendente y las disminuciones en orden ascendente.
III. Gráficos circulares Los gráficos circulares son adecuados para recalcar la magnitud relativa de los componentes del total. Consiste en dividir un circuito en sectores cuyas superficies sean proporcionales a las cantidades correspondientes a cada categoría. Dado que los sectores circulares dependen de su ángulo central, éstos se determinan estableciendo la proporcionalidad respecto a 360º, que es el ángulo de la circunferencia. El método corriente para dibujar este tipo de gráfico es reducir los datos a porcentajes del total. Utilizando los datos del cuadro Nº 2 respecto a los ingresantes en 1997, se construirá un gráfico de sectores.
58
Carrera Abogacía Adm. de Empresas Ing. Civil
Ingresante
%
90 40 70
45 20 35
200
100
100% le corresponde 360º Abogacía 100 45
360 x
45 x 360 X=
= 162º 100
Adm. de Empresas 100 20
360 x
20 x 360 x=
= 72º 100
Ing. Civil 100 35
360 x
35 x 360 x=
126º =
100
360º
Abogacía 45%
Ing. Civil Adm. De Emp. 35% 20%
Actualmente la construcción de gráficos se facilita utilizando programas de computación que poseen una gran variedad de los mismos. Lo importante es determinar el gráfico adecuado según el tipo de información.
59
Además de los gráficos desarrollados, los datos pueden presentarse en mapas estadísticos, pictogramas, gráficos de volúmenes, etc.
8.3.4. La falsedad estadística a través de gráficos Una de las formas de mentir con la estadística es dibujando gráficos engañosos. Considérese la siguiente información sobre las ventas de 3 vendedores de una compañía para ilustrar un ejemplo.
GRÁFICO (a)
GRAFICO (b)
El eje vertical debe comenzar en cero para que se tenga una adecuada representación de la situación. Los gráficos cuyas escalas de los ejes verticales comienzan en cero tienden a enfatizar la magnitud de las cifras consideradas, mientras que en los gráficos que omiten el cero tienden a enfatizar la variación en el número sin considerar la verdadera magnitud. Al observar el gráfico (a) puede concluirse erróneamente que el vendedor B tuvo ventas que apenas superaron la mitad de lo que vendió C. En cambio en el gráfico (b) muestra la información real ya que destaca que las tres cifras son relativamente grandes, lo cual resta el énfasis puesto a la variabilidad que muestra el gráfico. (a)
60
Actividad Nº 7 1) Identificar en diarios y/o revistas gráficos estadísticos distintos a los desarrollados en el módulo. 2) Cuadro de Ingresos y Egresos de Caja de un Negocio (en miles de $) Mes
Enero
Febrero
Marzo
Abril
Mayo
Junio
Ingresos
50
45
70
40
80
100
Egresos
20
30
120
60
100
130
a) Representar en un gráfico lineal los ingresos y egresos b) Representar gráficamente la comparación de ingresos y egresos en un diagrama de barras. c) Obtener los saldos para cada mes y representarlos gráficamente.
3)Relación egresados por cada 100 ingresantes en la Universidad Facultad Agronomía Arquitectura Ingeniería
Egresados 22 24 19
Facultad Cs. Exactas y Naturales Farmacia y Bioquímica Ciencias Económicas
Egresados 12 27 12
Representar la información en un gráfico adecuado. 4)Un informe sobre turismo consigna lo siguiente: - En enero y febrero de 1998 ingresaron a la provinica 15.450 y 12.750 turistas mostrando un aumento del 18% y 12 % con respecto a los mismos meses delaño anterior. - De los totales de la temporada 1998, el 48% fueron visitantes extranjeros, el 30% de la región próxima a Salta y el resto de otros puntos del país.
61
a) Obtener el número de turistas que ingresaron en enero y febrero de 1997. Construir un gráfico comparativo. b) Construir un gráfico para mostrar las cifras referentes a la procedencia de los turistas.
62
Actividad Obligatoria 1) Explique la importancia que tiene el análisis estadístico en la organización donde Ud. trabaja. 2) Describa una aplicación de la estadística en el área donde Ud. desempeña su trabajo. Especifique a) Objetivo de la investigación. b) La población bajo estudio y las variables de interés. c) Tipos de fuentes de datos disponibles y métodos de recolección a utilizar. 3) Con referencia al punto 2: a) Recopile los datos necesarios b) Organice y presente la información en cuadros y gráficos. c) Elabore un informe sobre los resultados y conclusiones de su investigación. d) Si fuera necesario, indique las dificultades que tuvo para realizar este trabajo de aplicación.
NOTA: En el caso de que Ud. no trabaje, concurra a cualquier empresa u organización y realice allí esta actividad de investigación integradora.
63
64
UNIDAD III DISTRIBUCIÓN DE FRECUENCIAS 1. Introducción Una de las etapas de la investigación estadística es el análisis de los datos que puede ser descriptivo o inferencial. Pero también en la investigación puede interesar el estudio de una, dos o tres, o más variables. Cuando se trabaja con una sola variable, el análisis es univariado (distribución de empleados por ingreso); si se trabaja con dos variables, el análisis es bivariado (distribución de empleados por ingreso y por antigüedad) y el análisis es multivariado cuando se trabaja con tres o más variables (distribución de empleados por ingreso, por antigüedad y nivel de instrucción). Este módulo trataría específicamente el análisis descriptivo para distribuciones univariadas.
2. Series estadísticas Una serie estadística es un conjunto de datos numéricos, ordenados y clasificados según un determinado criterio. Las series pueden clasificarse de la siguiente manera: Temporales o cronológicas Series estadísticas Espaciales Intemporales De Frecuencia
Cualitativas Cuantitativas
Discretas Continuas
Las series "temporales" son aquellas cuyos valores de la variable se observan en períodos de tiempos. Por ejemplo, las ventas mensuales de una compañía o la producción anual de cereales de un país. 65
En las series intemporales los valores se observan en un período fijo o en un momento determinado. Si los valores se estudian en función de un espacio geográfico; las series se denominan "espaciales"; por ejemplo población (número de habitantes) de las provincias argentinas en 1997. Las series intemporales de frecuencias son aquellas que se confeccionan cuando se estudia o analiza la repetición de los valores de una variable. Según sea el tipo de la variable, estas series pueden ser cualitativas o cuantitativas. Estas series son el objetivo de estudio de esta unidad.
3. Distribución de frecuencias Cuando el número de valores que toma la variable es grande, se hace necesario resumir la información para posibilitar la lectura y la interpretación. Una manera efectiva de reducir el tamaño de la serie y facilitar su tratamiento es mediante la confección de distribuciones de frecuencias. Una distribución de frecuencias es una tabla donde los datos se agrupan en clases o categorías con sus respectivas frecuencias. Con estas tablas se puede apreciar mejor la configuración de la información a la vez que se facilitan los cálculos y el análisis de los datos.
4. Distribución de frecuencias para variables continuas Supóngase que se analizan los índices mensuales de accidentes de las empresas industriales de una ciudad determinada. Para el estudio se seleccionan 25 establecimientos y se registra para cada una el número de accidentes por mil horas-hombre del último mes. Los datos son los siguientes. 2,7 3.8 3.1 5.3 3.4
1.8 4.8 3.3 3.3 2.1
1.0 2.5 3.6 3.0 5.6
2.2 1.4 3.0 5.8 3.9
4.1 4.5 2.5 4.4 3.4
Estos valores constituyen una "serie simple" de datos. Son datos brutos porque todavía no han sido procesados por métodos estadísticos. 66
4.1. Organización de los datos Una primera técnica sencilla de organización es la "ordenación" que consiste en una disposición de los valores en forma ascendente o descendente. 1.0 1.4 1.8 2.1 2.2
2.5 2.5 2.7 3.0 3.0
3.1 3.3 3.3 3.4 3.4
3.6 3.8 3.9 4.1 4.4
4.5 4.8 5.3 5.6 5.8
Una de las ventajas de este arreglo es la identificación rápida de valores máximos y mínimos. Sin embargo, la ordenación no resulta práctica para el análisis y pierde importancia cuando es grande el número de datos. Otra técnica de organizar los datos para la evaluación del investigador con el objeto de seleccionar extremos, valores típicos y concentración de valores, es el "arreglo de tallos y hojas". Se ordenan el (o los) primero(s) dígitos de cada valor, se forman los tallos, y con los dígitos siguientes se forman las hojas. Para los datos del ejemplo los dígitos iniciales 1 - 2 - 3 4 y 5 son los tallos y los dígitos sucesivos (decimales) son las hojas.
Indices de accidentes
Tallos 1 2 3 4 5
Hojas 8 7 8 8 3
0 1 1 1 6
4 5 4 5 8
2 3 4
5 3
6
0
0
9
4
Al igual que la ordenación, la representación de tallos y hojas tiene una utilidad limitada cuando es grande el número de datos.
67
4.2. Construcción de las tablas de frecuencias La ordenación y el diagrama de tallos y hojas son técnicas que ayudan a la organización pero no puede reconocerse la configuración de los índices de accidentes con sólo volcar los registros proporcionados por cada empresa. Para resumir estos datos en una tabla, primero se deben determinar los intervalos de clase. Un intervalo para el conjunto de índices puede ser:
2
-
3
intervalo de clase o clase
Definido el intervalo se determina su frecuencia, o sea la cantidad de observaciones incluida en esa clase. La frecuencia para este intervalo es 3, es decir que en 3 empresas ocurrieron entre 2 y 3 accidentes mensuales. La confección de las distribuciones depende de la naturaleza y del número de datos. Los intervalos deben seleccionarse adecuadamente para que la configuración de la distribución no resulte confusa. Al construir las tablas de frecuencias se pierde un poco de información, pero las mismas ofrecen ventajas al momento del análisis y la interpretación. Entre las pautas para la confección se deben considerar las siguientes: a) El número de clases no debe ser ni muy grande ni muy pequeño. Cuando hay muchos intervalos, la amplitud de los mismos es pequeña, por lo tanto cada uno tendría pocos datos o ninguno. Si hay pocas clases con intervalos amplios, puede resultar que queden cifras relativamente significativas concentradas en unas cuantas clases. b) Los intervalos deben tener la misma amplitud a efectos de poder hacer comparaciones. En algunas situaciones pueden presentarse intervalos de distinta amplitud, pero se dificulta la interpretación de la distribución. En otros casos se debe recurrir a intervalos abiertos. c) La confección de la distribución debe facilitar el trabajo de análisis, por lo tanto los intervalos de clase deben ser fáciles de manejar.
68
Se puede utilizar el siguiente procedimiento para determinar la amplitud de los intervalos. 1')Obtener el rango o recorrido (R). El rango es la diferencia entre el valor mayor y el valor menor de la distribución. R = Valor mayor - Valor menor Para la distribución de los índices de accidentes, el rango es: R
=
5.8
R
=
4.8
- 1.0
2')Seleccionar el número de clases (k). La "regla de Sturges" (1) es una pauta que sirve de orientación para determinar cuántos intervalos debe tener la distribución: Número de valores de la distribución 10 a 100 100 a 1.000 1.000 a 10.000
Número apropiado de intervalos 4a8 8 a 11 11 a 14
Para la distribución de la serie se eligen 5 clases. 3')Determinar la amplitud o ancho de la clase (A) dividiendo el rango sobre el número de intervalos. R
R = 4.8
k
k= 5
A=
4.8 A=
= 0.96 5
A=1 (1) La fórmula de Sturges establece que k = 1 + 3.3 log n (siendo n el número de observaciones)
69
Por conveniencia y facilidad de lectura, el ancho del intervalo se redondea a 1. 4')Establecer los límites de cada clase a fin de evitar superposiciones de clases para que ninguna observación caiga dentro de más de una categoría; de acuerdo a esto, el primer intervalo es "1,0 pero menos de 2,0". Las 5 clases de la distribución de los accidentes son: 1.0 2.0 3.0 4.0 5.0
< < < <