270 Objetivos: Después de leer este capítulo, el estudiante deberá ser capaz de: 1.Describir las técnicas no comparativas de escalamiento, distinguir entre.

1 270 Objetivos: Después de leer este capítulo, el estudi...
Author: Francisco Javier Valenzuela Luna
0 downloads 0 Views

1 270 Objetivos: Después de leer este capítulo, el estudiante deberá ser capaz de: 1.Describir las técnicas no comparativas de escalamiento, distinguir entre escalas de cla- sificación continua o por ítem y explicar las escalas Likert, de diferencial semántico y de Stapel. 2.Analizar las decisiones implicadas en la elaboración de una escala de clasificación por ítem en relación con el número de categorías de la escala, escalas balanceadas o no balanceadas, número par o non de categorías, elección forzada o no forzada, grado de descripción verbal y forma física de la escala. 3.Exponer los criterios usados para la evaluación de la escala y explicar la forma de evaluar la confiabilidad, validez y generalización. 4.Analizar las consideraciones implicadas en el uso de escalas no comparativas en un con- texto internacional. 5.Comprender los temas éticos implicados en el desarrollo de escalas no comparativas. “El papel del investiga- dor de mercados debe incluir habilidades de asesoría, competencia técnica y administración eficaz. Su papel se enfoca en brindar información para identificar tanto los problemas de marketing como las soluciones que permitan emprender acciones” Michael Baumgardner, Presidente y Director General, Burke, Inc. Medición y escalamiento: técnicas no comparativas de escalamiento “Es importante establecer la confiabilidad y validez de nuestras escalas. De otra manera, no podemos creer en nuestros datos”. Chet Zalesky, presidente de CMI CAP9ÍTULOCAP9ÍTULO

2 Panorama general Como se vio en el capítulo 8, las técnicas de escalamiento se clasifican en comparativas y no comparativas. En el capítulo anterior se estudiaron las técnicas comparativas que incluyen el escalamiento de comparación pareada, de rangos ordenados, de suma constante y de clasifi- cación Q. Este capítulo se refiere a las técnicas no comparativas que comprenden las escalas de clasificación continua y de clasificación por ítem. Aquí se analizarán las escalas de clasificación por ítem más utilizadas (Likert, de diferencial semántico y de Stapel), así como la elaboración de escalas de clasificación de reactivos múltiples. Se mostrará cómo deben evaluarse las técnicas de escalamiento en términos de confiabilidad y validez, y se explicará cómo el investigador selecciona una técnica particular de escalamiento. También se presentan las escalas derivadas matemáticamente. Se analizan las consideraciones implicadas en el uso de escalas no compa- rativas en la investigación de mercados internacionales. Se identifican varios temas éticos que surgen cuando se construye una escala de clasificación. El capítulo analiza también el uso de Internet y las computadoras en el desarrollo de escalas de clasificación continua y por ítem. INVESTIGACIÓN REAL Sistema de transporte de la ciudad de Nueva York El sistema de transporte de la ciudad de Nueva York (New York City Transit, NYCT) (www.mta. nyc.ny.us/nyct/subway) no tiene un público cautivo, como algunos piensan. Cuando tiene la po- sibilidad de elegir, mucha gente no utiliza el sistema de transporte público. El muy necesitado incremento de tarifas hizo temer que mucha gente evitaría el uso de autobuses o del metro. Por eso se realizó una investigación para encontrar la manera de incrementar el número de usuarios del transporte público. En una encuesta telefónica se pidió a los encuestados que calificaran diferentes aspectos del sistema de transporte usando escalas de Likert de cinco puntos. Se eligieron las escalas de Likert porque es sencillo aplicarlas por teléfono y los encuestados sólo tienen que indicar su grado de acuerdo o desacuerdo (1 = totalmente en desacuerdo, 5 = totalmente de acuerdo). Los resultados mostraron que la principal preocupación en torno al metro era la seguridad per- sonal. Los neoyorquinos tenían miedo de usar las estaciones del metro en sus propios vecindarios. El factor que más contribuía al temor de los usuarios era la dificultad para encontrar a alguien en caso de que se presentaran problemas. El sistema de transporte de Nueva York pudo responder a los temores de los usuarios al incrementar el número de policías, hacer más visible al personal del NYCT, mejorar la iluminación y reacomodar muros, columnas y escaleras para mejorar la visibili- dad en la estación. Las encuestas telefónicas también revelaron que la falta de limpieza en las estaciones y va- gones del metro estaba relacionada con la percepción de delincuencia. En respuesta, el NYCT se esforzó por mantener una apariencia limpia. También se tomaron medidas para reducir el número de indigentes y mendigos. Se les pidió que salieran y en ocasiones se les ofrecía transportación a los refugios. Los resultados del esfuerzo de investigación de mercados ayudaron al NYCT a mejorar las percepciones del sistema, lo que dio lugar a un incremento en el número de usuarios. En 2006 el metro de Nueva York celebró 102 años de operación y fue calificado como el quinto sistema de transporte subterráneo más grande del mundo y el más grande en Norteamérica con 1,500 millones de usuarios al año. 1 ■ 271

3 272 PARTE II Preparación del diseño de la investigación TÉCNICAS NO COMPARATIVAS DE ESCALAMIENTO Los encuestados que usan una escala no comparativa emplean cualquier estándar de clasificación que les parezca más apropiado. No comparan el objeto que deben calificar con otro objeto ni con algún estándar especificado, como “su marca ideal”. Sólo evalúan un objeto a la vez, por lo que las escalas no comparativas se conocen también como escalas monádicas. Las técnicas no comparati- vas constan de las escalas de clasificación continua y por ítem, las cuales se describen en la tabla 9.1 y se analizan en los siguientes apartados. Escala de clasificación continua En una escala de clasificación continua, conocida también como escala de clasificación gráfica, los encuestados califican los objetos poniendo una marca en la posición apropiada sobre una línea que corre de un extremo al otro de la variable criterio. De esta forma, los encuestados no se limitan a seleccionar entre las marcas previamente establecidas por el investigador. La forma de una escala continua puede variar considerablemente. Por ejemplo, la línea puede ser vertical u horizontal, los puntos de la escala pueden aparecer en forma de números o descripciones breves y, en tal caso, los puntos de la escala pueden ser muchos o pocos. Aquí se ilustran tres versiones de escalas de clasificación continua. Mediante el uso de escalas de Likert, el sistema de transporte de la ciudad de Nueva York pudo determinar la percepción de la gente sobre el sistema del metro y dar respuesta a sus temores, lo que dio lugar a un incremento el número de usuarios. escala no comparativa Una de las dos técnicas de esca- lamiento, en donde cada objeto estímulo se escala independien- temente de los otros objetos del conjunto de estímulos. escala de clasificación continua En una escala de clasificación continua, también conocida como escala de clasificación grá- fica, los encuestados clasifican los objetos poniendo una marca en la posición apropiada sobre una línea que va de un extremo al otro de la variable criterio. TABLA 9.1 Escalas no comparativas básicas C ARACTERÍSTICAS E SCALABÁSICAS E JEMPLOS V ENTAJAS D ESVENTAJAS Escala de clasificación Se pone una marca sobreReacción anteFácil de construirLa clasificación puede ser continuauna línea continuacomerciales de TVengorrosa a menos que E SCALAS DE CLASIFICACIÓN POR í TEM sea computarizada Escala de LikertGrado de acuerdo sobreMedición de actitudesFácil de construir,Consume más tiempo una escala que va del 1 aplicar y (totalmente en desacuerdo)entender al 5 (totalmente de acuerdo) Diferencial semánticoEscala de 7 puntos conImagen de la marca, VersátilControversia sobre si los etiquetas bipolaresproducto y compañía datos son de intervalo Escala de StapelEscala unipolar deMedición de actitudes Fácil de construir,Confusa y difícil de 10 puntos, — 5 a + 5, sine imágenes se aplica poraplicar un punto neutral (cero) teléfono

4 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 273 Una vez que el encuestado ha otorgado las calificaciones, el investigador divide la línea en tantas categorías como desee y asigna las puntuaciones con base en las categorías en las que cae la clasificación. En el ejemplo del proyecto de la tienda departamental, el encuestado mostró una acti- tud desfavorable hacia Sears. Esas puntuaciones por lo regular se tratan como datos de intervalo. La ventaja de las escalas continuas es que son fáciles de construir. Sin embargo, su clasifica- ción es engorrosa y poco confiable; además, las escalas continuas ofrecen poca información nueva. Por eso, su uso en investigación de mercados es restringido. Sin embargo, en los últimos tiempos se está utilizando con mayor frecuencia en virtud del incremento en el número de entrevistas persona- les asistidas por computadora y gracias al uso de otras tecnologías. También es sencillo aplicar estas escalas en Internet. El cursor puede moverse en la pantalla de modo continuo para seleccionar la posición exacta sobre la escala que describe mejor la evaluación del encuestado. Además, la compu- tadora puede calificar de forma automática los valores de la escala, lo que incrementa la velocidad y precisión del procesamiento de los datos. INVESTIGACIÓN REAL Medición continua y análisis de percepciones: el analizador de percepciones El analizador de percepciones (www.perceptionanalyzer.com) de MSInteractive es un sistema de retroalimentación interactiva, apoyado por computadora y compuesto por un dial portátil —ya sea con cables o inalámbrico— que se da a cada participante, una consola (interfase de computadora) y un software especial que edita preguntas, recaba datos y analiza las respuestas de los participantes. Los participantes en las sesiones de grupo lo usan para registrar sus respuestas emocionales a los comerciales de televisión de manera instantánea y continua. Cada participante recibe un dial y se le indica que registre de manera continua su reacción ante el material que se está sometiendo a prueba. Cada vez que los encuestados giran el dial, la información se almacena en una computadora. De esta forma, el investigador está en condiciones de determinar segundo a segundo la respuesta de los encuestados mientras se transmite el comercial. Además, es posible sobreponer esta respuesta en el comercial para ver las reacciones del encuestado ante los distintos cuadros y escenas. El analizador se empleó recientemente para medir las respuestas a la serie de comerciales “re- banada de vida” de McDonald’s. Los investigadores encontraron que madres e hijas respondían de manera distinta ante diferentes aspectos del comercial. Al utilizar los datos de las respuestas emocio- nales, los investigadores pudieron determinar qué comercial tenía mayor atractivo emocional en los segmentos de madres e hijas. Los esfuerzos de marketing de McDonald’s demostraron su éxito con utilidades de $20,460 millones en 2005. 2 ■ PROYECTO DE INVESTIGACIÓN Escalas de clasificación continua ¿Cómo calificaría a Sears como tienda departamental? Versión 1 Probablemente la peor ------------ I ------------------------------- Probablemente la mejor Versión 2 Probablemente la peor ------------ I ------------------------------- Probablemente la mejor 0102030 40 50 60 70 8090 100 Versión 3 Muy mala Ni buenaMuy buena ni mala Probablemente la peor ------------ I ------------------------------- Probablemente la mejor 0102030 40 50 60 70 8090 100 ■

5 274 PARTE II Preparación del diseño de la investigación ESCALAS DE CLASIFICACIÓN POR ÍTEM En una escala de clasificación por ítem se presenta a los encuestados una escala que asocia un número o una breve descripción con cada categoría. Las categorías se ordenan en términos de la po- sición de la escala y se pide a los encuestados que seleccionen la categoría específica que describa mejor al objeto que se está evaluando. Las escalas de clasificación por ítem se utilizan mucho en la investigación de mercados y son los componentes básicos de escalas más complicadas, como la escala de clasificación por reactivos múltiples. Se describirán primero las escalas de clasificación por ítem de uso más frecuente (las escalas de Likert, de diferencial semántico y de Stapel) y luego se examinarán los problemas más comunes en torno a su uso. Escala de Likert Llamada así en honor a su creador, Rensis Likert, la escala de Likert es una escala de clasificación de uso muy difundido que requiere que los encuestados indiquen el grado de acuerdo o desacuerdo con cada una de las afirmaciones de una serie acerca del objeto estímulo. 3 Por lo general, cada reac- tivo tiene cinco categorías de respuestas, que van de “totalmente en desacuerdo” a “totalmente de acuerdo”. Se ejemplifica el uso de la escala de Likert en la evaluación de las actitudes hacia Sears en el contexto del proyecto de la tienda departamental. Compañías como McDonald’s han usado el analizador de percepciones para medir las reacciones de los consumidores a sus comerciales, videos de la empresa y otros materiales audiovisuales. escala de clasificación por ítem Escala de medición que asocia números y/o descripciones breves con cada categoría. Las categorías están ordenadas en términos de la posición de la escala. escala de Likert Escala de medición con cinco categorías de respuesta que van de “totalmente en desacuerdo” a “totalmente de acuerdo”, lo cual requiere que los encuestados indiquen el grado de acuerdo o desacuerdo con cada una de las afirmaciones relacionadas con los objetos estímulo. PROYECTO DE INVESTIGACIÓN Escala de Likert Instrucciones Abajo se presentan diferentes opiniones acerca de Sears. Por favor, indique qué tan de acuerdo o en desacuerdo está con cada una usando la siguiente escala: 1 = totalmente en desacuerdo. 2 = en desacuerdo. 3 = indiferente. 4 = de acuerdo. 5 = totalmente de acuerdo. INVESTIGACIÓN ACTIVA Visite www.disney.com y realice una búsqueda en Internet y en la base en línea de su biblioteca, para obtener información sobre los hábitos y preferencias cinematográficas de los consumidores.www.disney.com ¿Cómo mediría la reacción de la audiencia ante una nueva película cuyo estreno está programado por Walt Disney Company? Como director de marketing de las películas de Disney, ¿cómo haría que sus películas fueran un éxito?

6 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 275 Para realizar el análisis, a cada afirmación se le asigna una clasificación numérica que va de — 2 a + 2 o de 1 a 5. El análisis puede hacerse reactivo por reactivo (análisis de perfil), o bien, se calcula una clasificación total (sumatoria) para cada encuestado sumando todos los reactivos. Suponga que en el ejemplo de la tienda departamental se utilizó la escala de Likert para medir las actitudes hacia Sears y hacia JCPenney. El análisis de perfil implica comparar a las dos tiendas en términos de la clasificación promedio que dieron los encuestados a cada reactivo, como calidad de la mercancía, servicio en la tienda y variedad de marcas. El enfoque sumarizado se usa con más frecuencia, por lo que la escala de Likert también se conoce como una escala sumada o aditiva. 4 Cuando se usa esta aproximación para determinar la clasificación total de cada encuestado para cada tienda, es importante utilizar un procedimiento de clasificación consistente de manera que una puntuación alta (o baja) refleje siempre una respuesta favorable. Esto requiere que las categorías asignadas por los encuestados a los enunciados negativos se califiquen invirtiendo la escala cuando se analizan los datos. Advierta que para un enunciado negativo, un acuerdo refleja una respuesta desfavorable, mientras que para un enunciado positivo, el acuerdo representa una respuesta favorable. En conse- cuencia, una respuesta de “totalmente de acuerdo” para un enunciado favorable y una respuesta de “totalmente en desacuerdo” para un enunciado desfavorable deben recibir, ambas, una clasificación de 5. En la escala mostrada arriba, si la clasificación más alta denota una actitud más favorable, se invertirá la clasificación de los reactivos 2, 4, 5 y 7. Por lo tanto, en el ejemplo del proyecto de la tienda departamental, la actitud del encuestado tiene una puntuación de 22. Se calcula la clasifica- ción total de cada encuestado para cada tienda. Un encuestado tendrá la actitud más favorable hacia la tienda si la puntuación que le otorga es la más alta. El procedimiento para desarrollar escalas de Likert sumadas se describe más adelante en el apartado de escalas de reactivos múltiples. La escala de Likert tiene varias ventajas. Es fácil de construir y de aplicar. A los encuestados les resulta sencillo entender su uso, lo que la hace adecuada para aplicarse por correo, por teléfono o en entrevistas personales. Por eso, esta escala se utilizó en la encuesta telefónica del NYCT del ejemplo inicial. La principal desventaja de la escala de Likert es que requiere más tiempo para completarse que otras escalas de clasificación por ítem, porque los encuestados tienen que leer cada afirmación. El siguiente ejemplo muestra otro uso de la escala de Likert en la investigación de mercados. INVESTIGACIÓN REAL ¿Qué tanto le preocupa su privacidad en línea? A pesar del enorme potencial del comercio electrónico, su porcentaje de uso comparado con el total de la economía continúa siendo baja: menos del 2 por ciento a nivel mundial hasta 2006. La falta de confianza del consumidor a la privacidad en línea es el problema que más obstaculiza el crecimiento del comercio electrónico. Un informe reciente mostró que prácticamente a todos los estadounidenses (94.5 por ciento), e incluso a los habitantes de todo el mundo, incluyendo a los usuarios de Internet y los no usuarios, les preocupa “la privacidad de su información personal en el caso de realizar com- pras en línea”. El autor y sus colaboradores desarrollaron una escala tridimensional de 10 reactivos para medir la preocupación de los usuarios de Internet por el carácter privado de su información. Las tres dimensiones son control, conocimiento y cobranza. Cada uno de los 10 reactivos se califica en una escala de Likert de 7 puntos de acuerdo-desacuerdo. Se demostró que la escala tiene buena confiabilidad y validez. Esta escala podría permitir a los diseñadores de políticas y a los vendedores en línea identificar y medir las preocupaciones de los usuarios de Internet respecto a la privacidad Totalmente en desacuerdo En desacuerdo Indiferente De acuerdo Totalmente de acuerdo 1.Sears vende mercancía de alta calidad12X345 2.Sears tiene un mal servicio en la tienda12X345 3.Me gusta comprar en Sears123X45 4. Sears no ofrece una buena variedad de marcas diferentes dentro de una categoría de productos 1234X5 5.Las políticas de crédito de Sears son inadecuadas1234X5 6. Sears es la tienda donde compran los estadounidenses 1X2345 7.No me gusta la publicidad de Sears1234X5 8.Sears vende una amplia variedad de mercancías1234X5 9.Sears cobra precios justos12X34 5■5■

7 276 Escala de diferencial semántico El diferencial semántico es una escala de clasificación de 7 puntos cuyos extremos están asociados con etiquetas bipolares que tienen carácter semántico. En una aplicación típica, los encuestados evalúan objetos sobre una serie de escalas de clasificación por ítem de 7 puntos vinculadas en cada extremo a uno de dos adjetivos bipolares, como “frío” y “caliente”. 6 Para ilustrar esta escala se presenta la evaluación de un encuestado respecto a cinco atributos de Sears. El encuestado marca el espacio que indica mejor su descripción del objeto calificado. 7 De este modo, en nuestro ejemplo, se evaluó a Sears como una tienda departamental algo débil, confiable, muy anticuada, cálida y cuidadosa. La frase o adjetivo negativo en ocasiones aparece del lado izquierdo de la escala y otras veces del lado derecho. Esto controla la tendencia de algunos en- cuestados, en particular de aquellos con actitudes muy positivas o muy negativas, a marcar el lado izquierdo o derecho sin leer las etiquetas. El autor ha descrito en otras ocasiones las técnicas para seleccionar las etiquetas de la escala y para construir una escala de diferencial semántico. Aquí se muestra una escala general de diferencial semántico para medir autoconceptos, conceptos de las personas y conceptos de productos. PARTE II Preparación del diseño de la investigación de su información, lo que podría derivar en un incremento del comercio electrónico. 5 Ante las limi- taciones de espacio sólo se muestran los reactivos usados para medir el conocimiento. Conocimiento (de las prácticas de privacidad) Escalas de 7 puntos ancladas en “totalmente en desacuerdo” y “totalmente de acuerdo”. 1.Las compañías que buscan información en línea deben revelar la manera en que recaban, pro- cesan y utilizan los datos. 2.Las buenas políticas de privacidad para los consumidores en línea deben mostrarse con claridad. 3.Para mí es muy importante estar enterado y consciente de la forma en que será usada mi infor- mación personal. ■ diferencial semántico Escala de clasificación de 7 pun- tos cuyos extremos están asocia- dos con etiquetas bipolares que tienen carácter semántico. PROYECTO DE INVESTIGACIÓN Escala de diferencial semántico Instrucciones Esta parte del estudio mide lo que significan para usted ciertas tiendas departamentales haciendo que las juzgue en una serie de escalas descriptivas ligadas en cada extremo a uno de dos adjetivos bipolares. Por favor marque con una (X) el espacio que indique mejor el grado con que uno u otro adjetivo describen lo que la tienda significa para usted. Por favor, asegúrese de marcar cada escala, no omita ninguna. Form a Sears es: Poderosa –:–:–:–:-X-:–:–: Débil Poco confiable –:–:–:–:–:-X-:–: Confiable Moderna Fría Cuidados a –:–:–:–:–:–:-X-: Anticuada –:–:–:–:–:-X-:–: Cálida –:-X-:–:–:–:–:–: Descuidada ■ INVESTIGACIÓN REAL Una escala de diferencial semántico para medir autoconceptos, conceptos de las personas y conceptos de productos 8 1.Tosco 2.Excitable 3.Incómodo 4.Dominant e 5.Ahorrativo 6.Agradable :–:–:–:–:–:–:–: Delicado :–:–:–:–:–:–:–: Tranquilo :–:–:–:–:–:–:–: Cómodo :–:–:–:–:–:–:–: Sumiso :–:–:–:–:–:–:–: Derrochador :–:–:–:–:–:–:–: Desagradable 7. Contemporáneo :+:+:+:+:+:+:+: Anticuado 8.Organizad o 9.Racional :–:–:–:–:–:–:–: Desorganizado :+:+:+:+:+:+:+: Emocional

8 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 277 Los reactivos individuales en una escala de diferencial semántico pueden calificarse en una escala de — 3 a + 3 o de 1 a 7. Por lo regular, los datos resultantes se analizan a través de un análisis de perfil, en el cual se calculan los valores de la media o la mediana de cada escala de clasificación y se comparan mediante una gráfica o análisis estadístico. Esto ayuda a determinar las diferencias y similitudes generales entre los objetos. Para evaluar las diferencias entre los segmentos de encues- tados, el investigador puede comparar las respuestas promedio de los diferentes segmentos. Aunque la media se utiliza con más frecuencia como un estadístico de resumen, hay cierta controversia sobre si los datos obtenidos deben tratarse como una escala de intervalo. 9 Por otro lado, en casos en que el investigador necesita una comparación general de los objetos, como determinar la pre- ferencia por las tiendas, se suman las calificaciones de los reactivos individuales para obtener una clasificación total. La versatilidad del diferencial semántico lo hace de gran aceptación en la investigación de mercados. Se utiliza mucho en la comparación de marcas, productos e imagen de las compañías. También se utiliza para desarrollar estrategias de publicidad y promoción, así como en estudios de desarrollo de nuevos productos. 10 Se han propuesto varias modificaciones a la escala básica. Escala de Stapel La escala de Stapel, llamada así en honor de su creador, Jan Stapel, es una escala de clasificación unipolar con 10 categorías numeradas del — 5 a + 5, sin un punto neutral (cero). 11 Esta escala por lo general se presenta de manera vertical. Se pide a los encuestados que indiquen qué tan precisa o imprecisa es la descripción que hace cada término del objeto, seleccionando una respuesta numéri- ca apropiada para la categoría. Cuanto mayor sea el número, más precisa es la descripción que hace el término del objeto, como se muestra en el proyecto de la tienda departamental. En ese ejemplo, la evaluación indicó que Sears carecía de alta calidad y que su servicio era algo deficiente. 10.Juveni l 11.Forma l 12. 13. 14. 15. :–:–:–:–:–:–:–: Maduro :–:–:–:–:–:–:–: Informal Ortodoxo :–:–:–:–:–:–:–: Liberal Complejo :–:–:–:–:–:–:–: Simple Incoloro :–:–:–:–:–:–:–: Colorido Modesto :–:–:–:–:–:–:–: Vanidoso ■ escala de Stapel Escala para medir actitudes que consiste en un solo adjetivo en el centro de un rango de valores de números pares, de — 5 a + 5, sin un punto neutral (cero). PROYECTO DE INVESTIGACIÓN Escala de Stapel Instruccione s Por favor, evalúe la precisión con que cada palabra o frase describe a cada una de las tiendas depar- tamentales. Seleccione un número positivo para las frases que considere que describen con precisión a la tienda. Cuanto más precisa crea que es la frase para describir a la tienda, más grande debe ser el número positivo que elija. Debe elegir un número negativo para las frases que considere que no la describen con precisión. Cuanto menos precisa crea que es la descripción que hace la frase de la tienda, más grande debe ser el número negativo que elija. Puede elegir cualquier número, de — 5 para las frases que piense que son muy precisas a + 5 para las frases que piense que son muy inexactas. Form a Sears + 5 + 4 + 3 + 2 + 1 Alta calidad — 1 — 2X — 3 — 4 — 5 + 5 + 4 + 3 + 2X + 1 Mal servicio — 1 — 2 — 3 — 4 — 5 ■

9 278 PARTE II Preparación del diseño de la investigación Los datos obtenidos con una escala de Stapel pueden analizarse de la misma forma que los datos del diferencial semántico, ya que ambas producen resultados similares. La escala de Stapel tiene las ventajas de que no requiere una prueba previa de los adjetivos o frases para asegurar su bi- polaridad y de que puede aplicarse por teléfono. Sin embargo, algunos investigadores creen que es confusa y difícil de aplicar. Aunque la escala de Stapel es la que menos se utiliza de las tres escalas de clasificación por ítem que se consideraron, merece más atención de la que se le ha dado. DECISIONES SOBRE ESCALAS NO COMPARATIVAS DE CLASIFICACIÓN POR ÍTEM Como indica la revisión hecha hasta ahora, las escalas no comparativas de clasificación por ítem no tienen que usarse tal como se propuso originalmente, sino que pueden adoptar diversas formas. El investigador debe tomar seis decisiones importantes al elaborar cualquiera de estas escalas en relación con los siguientes factores: 1.El número de categorías que se usará en la escala. 2.Escala balanceada o no balanceada. 3.Número par o non de categorías. 4.Elección forzada o no forzada. 5.La naturaleza y el grado de la descripción verbal. 6.La forma física de la escala. Número de categorías de la escala La decisión sobre el número de categorías de la escala implica dos consideraciones fundamen- tales. Cuanto mayor sea el número de categorías, más fina será la discriminación entre los objetos estímulo. Por otro lado, la mayoría de los encuestados no pueden manejar más de unas cuantas categorías. Las directrices tradicionales sugieren que el número apropiado de categorías debe ser de siete más o menos dos, es decir, entre cinco y nueve. 12 Sin embargo, no hay un número óptimo de categorías. Al decidir el número de categorías deben considerarse varios factores. Si los encuestados están interesados en la tarea de escalamiento y conocen los objetos, puede emplearse un mayor número de categorías. Por otro lado, si los encuestados no conocen bien la tarea o no están familiarizados con ella, el número de categorías debe ser menor. También es rele- vante la naturaleza de los objetos. Algunos objetos no se prestan a una discriminación fina, por lo que un menor número de categorías es suficiente. Otro factor importante es el modo de recolección de datos. Si se usan entrevistas telefónicas, muchas categorías podrían confundir a los encuestados. De igual forma, las limitaciones de espacio restringen el número de categorías en los cuestionarios enviados por correo. El modo en que se van a analizar y utilizar los datos también influye en el número de cate- gorías. En situaciones en las que se suman varios reactivos de la escala con el fin de producir una sola clasificación para cada encuestado, cinco categorías son suficientes. Lo mismo se aplica si el investigador desea hacer generalizaciones amplias o comparaciones entre los grupos. Sin embar- go, podrían requerirse siete o más categorías si se tiene interés en las respuestas individuales o si los datos van a analizarse mediante técnicas estadísticas complejas. El número de categorías de la escala influye en el tamaño del coeficiente de correlación, una medida común de la relación entre variables (véase el capítulo 17). El coeficiente de correlación disminuye cuando se reduce el núme- ro de categorías. A la vez, esto tiene un efecto en todos los análisis estadísticos que se basan en el coeficiente de correlación. 13 INVESTIGACIÓN ACTIVA Visite www.dietcoke.com y realice una búsqueda en Internet y en la base en línea de su biblioteca, para obtener información sobre las actitudes de los consumidores hacia las bebidas dietéticas.www.dietcoke.com Si fuera gerente de marca de Diet Coke, ¿cómo usaría la información sobre las actitudes de los consumidores para segmentar el mercado? ¿Cómo emplearía cada una de las tres escalas por ítem para medir las actitudes de los consumi- dores hacia Diet Coke y otras bebidas dietéticas? ¿Qué escala recomienda?

10 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 279 Escalas balanceadas frente a no balanceadas En una escala balanceada, el número de categorías favorables y desfavorables es igual; en una es- cala no balanceada es diferente. 14 En la figura 9.1 se presentan ejemplos de una escala balanceada y una no balanceada. En general, la escala debe ser balanceada para obtener datos objetivos. Sin embargo, cuando es probable que exista un sesgo (positivo o negativo) en la distribución de las res- puestas, podría ser más conveniente usar una escala no balanceada con más categorías en dirección al sesgo. Si se usa una escala no balanceada, en el análisis de los datos debe tenerse en considera- ción la naturaleza y el grado de desequilibrio. Número par o non de categorías Con un número non de categorías, el punto central de la escala por lo general se designa como neu- tral o imparcial. La presencia, posición o etiquetamiento de una categoría neutral puede tener una influencia significativa en la respuesta. La escala de Likert es una escala de clasificación balanceada con un número non de categorías y un punto neutral. 15 La decisión de usar un número par o non de categorías depende de si algunos de los encues- tados pueden ser neutrales respecto a la respuesta medida. Si hay la posibilidad de que al menos algunos encuestados den una respuesta neutral o indiferente, debe usarse un número non de cate- gorías. Por otro lado, si el investigador desea forzar la respuesta o cree que no existe una respuesta neutral o indiferente, debe usarse una escala de clasificación con un número par de categorías. Un tema relacionado es si la escala debe ser forzada o no. Escalas forzadas frente a las no forzadas En las escalas de clasificación forzada, los encuestados son obligados a expresar una opinión por- que no se les da la opción de “sin opinión”. En tal caso, los encuestados que no tienen opinión pueden marcar la posición central de la escala. Si una proporción suficiente de los encuestados no tienen opi- nión sobre el tema, marcar la posición central podría distorsionar las medidas de tendencia central y la varianza. En situaciones donde se espera que los encuestados no tengan opinión, en vez de estar simplemente renuentes a revelarla, una escala no forzada que incluya una categoría de “sin opinión” mejora la precisión de los datos. 16 Naturaleza y grado de las descripciones verbales La naturaleza y el grado de la descripción verbal asociada con las categorías de la escala varían considerablemente y tienen efecto en las respuestas. Las categorías de la escala pueden tener des- cripciones verbales, numéricas y hasta pictóricas. Además, el investigador debe decidir si etiqueta todas, algunas o sólo las categorías extremas de la escala. De manera sorprendente, ofrecer des- cripciones verbales para cada categoría no siempre incrementa la precisión o confiabilidad de los datos. Sin embargo, etiquetar todas o muchas de las categorías permite reducir la ambigüedad de la escala. Las descripciones de las categorías deben localizarse tan cerca como sea posible de las categorías de respuesta. La fuerza de los adjetivos usados para anclar la escala influye en la distribución de las res- puestas. Con anclas fuertes (1 = completamente en desacuerdo, 7 = completamente de acuerdo), es menos probable que los encuestados usen las categorías extremas de la escala. Esto da por re- sultado distribuciones de respuesta menos variables y más pronunciadas. En contraste, las anclas Escala balanceada Jovan Musk para hombre es Extremadamente buena Muy buena Buena Mala Muy mala Extremadamente mala Escala no balanceada Jovan Musk para hombre es Extremadamente buena Muy buena Buena Algo buena Mala Muy mala Figura 9.1 Escalas balanceadas y no balanceadas escala balanceada Escala con un número igual de categorías favorables y desfavo- rables. escalas de clasificación forzada Escala de clasificación que obliga a los encuestados a expre- sar una opinión porque no ofrece la opción de “sin opinión” o “no sabe”.

11 280 PARTE II Preparación del diseño de la investigación débiles (1 = por lo general en desacuerdo, 7 = por lo general de acuerdo) producen distribuciones planas o uniformes. Se han desarrollado procedimientos para asignar valores a los descriptores de las categorías con el fin de obtener escalas balanceadas o de intervalos iguales. 17 Forma física o configuración Se dispone de diversas opciones con respecto a la forma o configuración de la escala. Las escalas se pueden presentar de manera horizontal o vertical. Las categorías pueden expresarse en cajas, líneas discretas o unidades sobre un continuo, y pueden o no tener números asignados. Si se usan valores numéricos, pueden ser positivos, negativos o ambos. En la figura 9.2 se presentan varias configu- raciones posibles. La escala del termómetro y la de la cara sonriente son dos configuraciones únicas de las esca- las de clasificación que se utilizan en la investigación de mercados. En la escala del termómetro, cuanto más alta sea la temperatura, más favorable es la evaluación. De igual forma, las caras fe- lices indican evaluaciones más favorables. Estas escalas son especialmente útiles con los niños. 18 En la figura 9.3 se presentan ejemplos de estas escalas. La tabla 9.2 resume las seis decisiones que deben tomarse al diseñar escalas de clasificación. La tabla 9.3 presenta algunas escalas de uso común. Aunque las escalas mostradas tienen cinco categorías, el número varía según el criterio del investigador. PROYECTO DE INVESTIGACIÓN Actividades del proyecto 1.Desarrollar escalas de Likert, de diferencial semántico y de Stapel para medir la satisfacción del cliente hacia Sears. 2.Ilustrar las seis decisiones de la escala de clasificación por ítem de la tabla 9.2 en el contexto de la medición de la satisfacción del cliente hacia Sears. ■ Para medir la suavidad del detergente Cheer pueden emplearse diversas configuraciones de la escala. Aquí se incluyen algunos ejemplos. El detergente Cheer es 3. # Muy fuerte # # Ni fuerte ni suave # Muy suave Figura 9.2 Configuraciones de las escalas de clasificación 4. ———— Muy fuerte FuerteAlgo fuerte Ni fuerte ni suave Algo suave SuaveMuy suave 5. —3—3 —2—2 —1—1 0 +1+1 +2+2 +3+3 Muy fuerte Ni fuerte ni suave Muy suave 1. Muy fuerte –– Muy suave 2. Muy fuerte 1234567Muy suave

12 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 281 Escala de termómetro Instrucciones Por favor, indique cuánto le gustan las hamburguesas de McDonald’s coloreando el termómetro con tinta azul. Comience desde la parte inferior y coloree hacia arriba hasta el nivel de temperatura que indique mejor su preferencia por las hamburguesas de Mc Donald’s. Forma Me disgustan mucho Escala de cara sonriente Instrucciones Indica por favor cuánto te gusta la muñeca Barbie señalando la cara que mejor muestre cuánto te gusta. Si no te gusta la muñeca Barbie en lo absoluto, señala la cara 1. Si te gusta mucho, señala la cara 5. Ahora dime, ¿cuánto te gusta la muñeca Barbie? Forma 1752017520 00 5 0 5 Me gustan mucho 12345 Figura 9.3 Algunas configuraciones únicas de la gráfica de clasificación TABLA 9.2 Resumen de las decisiones de la escala de clasificación por ítem 1.Número de categoríasAunque no existe un solo número óptimo, las directrices tradicionales sugieren que debe haber entre cinco y nueve categorías 2.Balanceada o no balanceadaEn general, la escala debe ser balanceada para obtener datos objetivos 3.Número par o non de categoríasSi es posible obtener una respuesta neutral o indiferente al menos de parte de algunos de los encuestados, debe usarse un número non de categorías 4.Forzada o no forzadaEn situaciones donde se espera que el encuestado no tenga opinión, una escala no forzada mejora la precisión de los datos 5.Descripción verbalHay argumentos a favor de etiquetar todas o muchas de las categorías de la escala. Las descripciones de las categorías deben localizarse tan cerca como sea posible de las categorías de respuesta 6.Forma físicaDeben probarse varias opciones y seleccionar la mejor TABLA 9.3 Algunas escalas de uso común en marketing C ONSTRUCTO D ESCRIPTORES DE LA ESCALA Actitud Muy malaMalaNi mala ni buenaBuenaMuy buena Importancia Ninguna importan-No es importanteNeutralImportanteMuy importante cia en lo absoluto Satisfacción Muy insatisfechoInsatisfechoNi insatisfecho niSatisfechoMuy satisfecho satisfecho Intención de compra Definitivamente noProbablemente no loTal vez lo compreProbablemente loDefinitivamente lo comprarácompraráo tal vez nocomprarálo comprará Frecuencia de compra NuncaRara vezAlgunas vecesA menudoMuy a menudo

13 282 PARTE II Preparación del diseño de la investigación ESCALAS DE REACTIVOS MÚLTIPLES El desarrollo de las escalas de clasificación de reactivos múltiples requiere de considerable expe- riencia técnica. 19 La figura 9.4 es un paradigma para la elaboración de esas escalas. Suele llamarse constructo a la característica que será medida. El desarrollo de la escala comienza con una teoría subyacente del constructo que se quiere medir. La teoría es necesaria no sólo para la elaboración de la escala, sino también para interpretar las puntuaciones resultantes. El siguiente paso es generar un conjunto de reactivos para la escala. Por lo regular, esto se basa en la teoría, el análisis de los datos secundarios y en la investigación cualitativa. A partir de este conjunto se genera un conjunto reducido de reactivos potenciales de acuerdo con el criterio del investigador y de otros expertos, quienes adoptan algunos criterios cualitativos para ayudarse en su juicio. El grupo reducido de reactivos todavía es demasiado grande para constituir una escala, por lo que se hace otra reducción de manera cuantitativa. Mediante un pretest aplicado a una muestra grande de encuestados se obtienen los datos so- bre el conjunto reducido de reactivos potenciales. Los datos son analizados usando técnicas como correlaciones, análisis factorial, análisis de conglomerados, análisis discriminante y otras pruebas Desarrollar una teoría Evaluar la confiabilidad, validez y capacidad de generalización de la escala Preparar la escala final Generar un conjunto inicial de reactivos: teoría, datos secundarios e investigación cualitativa Seleccionar un conjunto reducido de reactivos con base en un criterio cualitativo Recabar datos del pretest aplicado a una muestra grande Realizar análisis estadístico Desarrollar una escala depurada Recabar más datos de una muestra diferente Figura 9.4 Desarrollo de una escala de reactivos múltiples INVESTIGACIÓN ACTIVA Visite www.rockport.com y realice una búsqueda en Internet y en la base en línea de su biblioteca, para obtener información sobre las preferencias de los consumidores hacia los zapatos de vestir.www.rockport.com Desarrolle una escala por ítem para medir las preferencias de los consumidores por los zapatos de vestir y justifique las decisiones de su escala de clasificación. Como gerente de marketing de Rockport, ¿cómo usaría la información sobre las preferencias de los consumidores por los zapatos de vestir para incrementar sus ventas?

14 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 283 estadísticas que se explicarán más adelante en este libro. Como resultado de estos análisis esta- dísticos, se eliminan algunos otros reactivos, lo que da como resultado una escala depurada. Para evaluar la confiabilidad y validez de esta escala depurada se recaban más datos de una muestra diferente (véase el siguiente apartado). Con base en estas evaluaciones se selecciona un conjunto final de reactivos. Como se observa en la figura 9.4, el proceso de desarrollo de la escala es iterativo con varios ciclos de retroalimentación. 20 error de medición La variación en la información buscada por el investigador y la información generada por el pro- ceso de medición empleado. Durante la clasificación se invierten los reactivos 1, 3, 6 y 7. Esta escala puede usarse en mar- keting industrial para medir la complejidad técnica de la línea de productos de un cliente y sugerir cambios para mejorar la calidad técnica. ■ EVALUACIÓN DE LA ESCALA Es necesario evaluar la exactitud y aplicabilidad de una escala de reactivos múltiples. 22 Como se muestra en la figura 9.5, esto supone valorar la confiabilidad, validez y capacidad de generaliza- ción de la escala. Los métodos para evaluar la confiabilidad incluyen la confiabilidad test-retest, la confiabilidad de formas alternativas y la confiabilidad de consistencia interna. La validez se evalúa examinando la validez de contenido, validez de criterio y validez del constructo. Antes de examinar la confiabilidad y la validez, es necesario entender la exactitud de la medi- ción, porque ello es fundamental para la evaluación de la escala. Exactitud de la medición Como se mencionó en el capítulo 8, una medición es un número que refleja alguna característica de un objeto. La medición no es el valor real de la característica de interés, sino una observación de la misma. Diversos factores pueden provocar un error de medición que haga que la medición o pun- tuación observada sea diferente de la verdadera puntuación de la característica que se mide (véase la INVESTIGACIÓN REAL Medición de la complejidad técnica con una escala técnicamente refinada La siguiente escala de reactivos múltiples mide la complejidad técnica de una línea de productos. 21 Validez Formas alternativas Consistencia interna Test- retest CriterioConstructo Contenido ConvergenteDiscriminanteNomológico Capacidad de generalización Confiabilidad Figura 9.5 Evaluación de una escala de reactivos múltiples 1.Técnica1234567No técnica 2.Bajo contenido de ingeniería1234567Alto contenido de ingeniería 3.Cambia con rapidez1234567Cambia con lentitud 4.No refinada1234567Refinada 5.Mercancía general1234567Mercancía personalizada 6.Única1234567Común 7.Compleja1234567Simple Evaluación de la escala

15 284 PARTE II Preparación del diseño de la investigación figura 9.6). El modelo de la clasificación verdadera ofrece un marco para entender la exactitud de la medición. De acuerdo con este modelo, XO = XV + XS +XAXO = XV + XS +XA dond e X O = la clasificación o medición observada. X V = la clasificación verdadera de la característica. X S = error sistemático. X A = error aleatorio. Advierta que el error total de medición incluye el error sistemático (X S ) y el error aleatorio (X A ). El error sistemático afecta la medición de una manera constante. Representa factores estables que afectan la clasificación observada de la misma manera cada vez que se hace la medición, como los factores mecánicos (véase la figura 9.6). Por otro lado, el error aleatorio no es constante. Repre- senta factores transitorios que afectan de diferentes maneras la clasificación observada cada vez que se hace la medición, como los factores personales o situacionales transitorios. La distinción entre error sistemático y aleatorio es crucial para la comprensión de la confiabilidad y validez. Confiabilidad La confiabilidad se refiere al grado en que la escala produce resultados consistentes si se hacen mediciones repetidas. 23 Las fuentes sistemáticas de error no tienen un efecto adverso en la con- fiabilidad, porque afectan la medición de una manera constante y no producen inconsistencia. En contraste, el error aleatorio genera inconsistencia, lo que da lugar a una menor confiabilidad. La confiabilidad se define como el grado en el que la medición está libre del error aleatorio, X A. Si X A = 0, la medición es perfectamente confiable. La confiabilidad se evalúa determinando la proporción de la variación sistemática en la escala. Esto se hace al establecer la asociación entre las puntuaciones obtenidas a partir de diferentes apli- caciones de la escala. Si la asociación es alta, la escala arroja resultados consistentes y, por lo tanto, es confiable. Los enfoques para evaluar la confiabilidad incluyen los métodos de test-retest, formas alternativas y consistencia interna. Confiabilidad test-retest En la confiabilidad test-retest, se aplican conjuntos idénticos de reactivos a los encuestados en dos momentos diferentes en condiciones tan equivalentes como sea posible. El intervalo entre las pruebas o las aplicaciones suele ser de dos a cuatro semanas. Para de- terminar el grado de similitud entre las dos mediciones se calcula un coeficiente de correlación (véa- se el capítulo 17). Cuanto más alto sea el coeficiente de correlación, mayor será la confiabilidad. Hay muchos problemas asociados con el método de test-retest para determinar la confiabilidad. Primero, es sensible al intervalo entre las pruebas. Si las demás condiciones permanecen iguales, cuanto mayor sea el intervalo, menor será la confiabilidad. Segundo, la medición inicial podría alte- rar la característica medida. Por ejemplo, medir la actitud de los encuestados hacia la leche baja en grasa tal vez ocasione que tomen más conciencia de su salud y desarrollen una actitud más positiva 1. Otras características relativamente estables del individuo que influyen en la clasificación de la prueba, como la inteligencia, atractivo social y educación. 2. Factores personales transitorios o de corto plazo, como salud, emociones o fatiga. 3. Factores situacionales como la presencia de otras personas, ruido y distracciones. 4. Muestreo de los reactivos incluidos en la escala: adición, eliminación o cambios en los reactivos de la escala. 5. Falta de claridad de la escala, incluyendo las instrucciones o los mismos reactivos. 6. Factores mecánicos como una mala impresión, demasiados reactivos en el cuestionario y mal diseño. 7. Aplicación de la escala, como diferencias entre los entrevistadores. 8. Factores de análisis, como diferencias en la clasificación y el análisis estadístico. Figura 9.6 Fuentes potenciales de error en la medición modelo de clasificación verdadera Modelo matemático que ofrece un marco para entender la exacti- tud de la medición. error sistemático El error sistemático afecta la medición de manera constante y representa factores estables que afectan la clasificación observada de la misma manera cada vez que se hace la medición. error aleatorio Error de medición que surge de cambios aleatorios, diferencias en los encuestados o situaciones de medición. confiabilidad Grado en que la escala produce resultados consistentes si se rea- lizan mediciones repetidas de la característica. confiabilidad test-retest Método para evaluar la confia- bilidad en que se aplica a los encuestados conjuntos idénticos de reactivos en dos momentos diferentes en condiciones tan equivalentes como sea posible.

16 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 285 hacia ese producto. Tercero, quizá resulte imposible hacer mediciones repetidas (por ejemplo, cuan- do el objetivo de la investigación es indagar la reacción inicial del encuestado hacia un producto nuevo). Cuarto, la primera medición puede tener un efecto de arrastre en las mediciones posteriores, como cuando los encuestados tratan de recordar las respuestas que dieron la primera ocasión. Quin- to, es posible que la característica medida cambie entre las mediciones. Por ejemplo, la información favorable sobre un objeto durante el periodo comprendido entre las mediciones puede hacer que la actitud del encuestado sea más positiva. Por último, el coeficiente de confiabilidad test-retest puede ser inflado por la correlación de cada reactivo consigo mismo. Estas correlaciones tienden a ser mayores que las correlaciones entre los diferentes reactivos de la escala a través de las aplicaciones. Así, es posible tener correlaciones altas test-retest debido a las altas correlaciones entre los mismos reactivos medidos en diferentes momentos, aunque las correlaciones entre los diferentes reactivos de la escala sean bastante bajas. Debido a estos problemas, es mejor aplicar el enfoque test-retest en conjunto con otras técnicas, como el de las formas alternativas. 24 Confiabilidad de formas alternativas. En la confiabilidad de formas alternativas se cons- truyen dos formas equivalentes de la escala. Se mide a los mismos encuestados en dos momentos distintos, por lo regular con dos o cuatro semanas de distancia, y en cada ocasión se aplica una for- ma diferente de la escala. Para evaluar la confiabilidad se correlacionan las puntuaciones obtenidas al aplicar las formas alternativas de la escala. 25 Este enfoque tiene dos problemas importantes. Primero, elaborar una forma equivalente de la escala consume tiempo y dinero. Segundo, es difícil construir dos formas equivalentes de una es- cala. Las dos formas deben ser equivalentes con respecto al contenido. En un sentido estricto, esto supone que los conjuntos alternativos de los reactivos de la escala deberían tener las mismas me- dias, varianzas e intercorrelaciones. Pero aun si se satisfacen esas condiciones, es probable que las dos formas no sean equivalentes en el contenido. Por esa razón, una correlación baja puede reflejar tanto una escala no confiable como formas no equivalentes. Confiabilidad de consistencia interna. La confiabilidad de consistencia interna se emplea para evaluar la confiabilidad de una escala en la cual se suman varios reactivos para obtener una clasificación total. En una escala de este tipo, cada reactivo mide algún aspecto del constructo medido por la escala completa, y los reactivos deben ser consistentes en lo que indican acerca de la característica. Esta medida de confiabilidad se enfoca en la consistencia interna del grupo de reac- tivos que componen la escala. La forma más sencilla de medir la consistencia interna es la confiabilidad de división por mitades. Los reactivos de la escala se dividen en dos mitades y se correlacionan las puntuacio- nes resultantes de cada mitad. Una alta correlación entre las mitades indica una alta consistencia interna. Los reactivos de la escala pueden dividirse en mitades con base en la numeración par o non de los reactivos, o bien, de manera aleatoria. El problema es que los resultados dependerán de cómo se dividan los reactivos de la escala. Para solucionar este problema suele emplearse el coeficiente alfa. El coeficiente alfa, o alfa de Cronbach, es el promedio de todos los coeficientes posibles de división por mitades que resultan de las diferentes maneras de dividir los reactivos de la escala. Este coeficiente varía entre 0 y 1, y un valor igual o menor a 0.6 por lo general indica una confiabilidad no satisfactoria de consistencia interna. Una propiedad importante del coeficiente alfa es que su valor tiende a aumentar con el incremento del número de reactivos de la escala. Por lo tanto, el co- eficiente alfa puede resultar inflado artificial e inadecuadamente por la inclusión de varios reactivos redundantes en la escala. 26 Junto con el coeficiente alfa puede emplearse el coeficiente beta, que ayuda a determinar si el proceso de obtención de promedios usado para calcular el coeficiente alfa está enmascarando algunos reactivos inconsistentes. Algunas escalas de reactivos múltiples incluyen varios grupos de reactivos diseñados para me- dir aspectos diferentes de un constructo multidimensional. Por ejemplo, la imagen de una tienda es un constructo multidimensional que incluye calidad, variedad y surtido de la mercancía, políticas de devoluciones y cambios, servicio del personal de la tienda, precios, conveniencia de la ubicación, distribución de la tienda, y políticas de crédito y cobranza. Por lo tanto, una escala diseñada para medir la imagen de la tienda debe contener reactivos que midan cada una de tales dimensiones. Puesto que estas dimensiones son algo independientes, sería inapropiada una medida de la consis- tencia interna calculada a través de todas ellas. Sin embargo, si se usan varios reactivos para medir cada dimensión, es posible calcular la confiabilidad de la consistencia interna para cada una. confiabilidad de formas alternativas Enfoque para evaluar la confia- bilidad que requiere que se cons- truyan dos formas equivalentes de la escala y que los mismos encuestados sean medidos en dos momentos diferentes. confiabilidad de consistencia interna Método para evaluar la consis- tencia interna del conjunto de reactivos cuando varios reactivos son sumados para obtener una clasificación total de la escala. confiabilidad de división por mitades Forma de confiabilidad de consistencia interna en la cual los reactivos que constituyen la escala se dividen en dos mitades y se correlacionan las puntuacio- nes resultantes de cada mitad. coeficiente alfa Medida de confiabilidad de con- sistencia interna que es el pro- medio de todos los coeficientes posibles de división por mitades que resultan de las diferentes divisiones de los reactivos de la escala.

17 286 PARTE II Preparación del diseño de la investigación Validez La validez de una escala se define como el grado en que las diferencias en las puntuaciones obte- nidas con la escala reflejan diferencias verdaderas entre los objetos en la característica medida, en lugar del error sistemático o aleatorio. La validez perfecta requiere que no haya error de medición (X O = X V, X A = 0, X s = 0). Los investigadores pueden evaluar la validez del contenido, la validez del criterio o la validez del constructo. 28 Validez del contenido. La validez del contenido, que en ocasiones se conoce como validez aparente, es una evaluación subjetiva pero sistemática de qué tan bien representa el contenido de la escala la tarea de medición en cuestión. El investigador o alguien más examina si los reactivos de la escala cubren adecuadamente todo el dominio del constructo que se está midiendo. Así, una es- cala diseñada para medir la imagen de una tienda se consideraría inadecuada si omite cualquiera de las dimensiones principales (como calidad, variedad y surtido de la mercancía). Dada su naturaleza subjetiva, la validez del contenido por sí sola no es suficiente para medir la validez de una escala, aunque ayuda en la interpretación de sentido común de las calificaciones de la escala. Mediante el examen de la validez del criterio se obtiene una evaluación más formal. Validez del criterio. La validez del criterio refleja si una escala se comporta como se esperaba en relación con otras variables seleccionadas como criterios significativos (variables de criterio). Las variables de criterio pueden incluir características demográficas y psicográficas, medidas ac- titudinales y conductuales, o puntuaciones obtenidas a partir de otras escalas. Según el periodo implicado, la validez del criterio adopta una de dos formas: validez concurrente y predictiva. La validez concurrente se evalúa cuando se recaban al mismo tiempo los datos de la escala probada y de las variables de criterio. Para evaluar la validez concurrente, el investigador puede desarrollar formas breves de instrumentos estándar de personalidad. Los instrumentos originales y las versiones cortas se aplican al mismo tiempo a un grupo de encuestados y se comparan los re- sultados. Para evaluar la validez predictiva, el investigador reúne datos sobre la escala en un punto en el tiempo y datos sobre las variables del criterio en un momento posterior. Por ejemplo, podrían usarse las actitudes hacia las marcas de cereal para predecir las compras futuras de cereales de los miembros de un panel de exploración. Se obtienen los datos actitudinales de los miembros del panel y luego se sigue la trayectoria de sus compras con datos del escáner. Para evaluar la validez predic- tiva de la escala actitudinal se comparan las compras reales y las pronosticadas. validez Grado en que las diferencias en las puntuaciones obtenidas en la escala reflejan diferencias ver- daderas entre los objetos en las características medidas más que errores sistemáticos o aleatorios. validez del contenido Tipo de validez, llamado en ocasiones validez aparente, que consiste en una evaluación subje- tiva pero sistemática de la repre- sentatividad del contenido de una escala para la tarea de medición actual. validez del criterio Tipo de validez que examina si la escala de medición se desempeña según lo esperado en relación con las otras variables seleccio- nadas como criterios significa- tivos. INVESTIGACIÓN REAL La tecnología detrás del liderazgo de opinión en tecnología En un estudio de adopción de tecnología, se midió el liderazgo de opinión mediante el uso de las si- guientes escalas tipo Likert de 7 puntos (1 = totalmente de acuerdo, 7 = totalmente en desacuerdo). Liderazgo de opinión 1.Parece que a las otras personas no les interesa mi opinión sobre los productos de hardware o software. 2.La gente pide mi consejo cuando decide adoptar productos de hardware o software. 3.Es raro que la gente se apoye en mis sugerencias para seleccionar productos de hardware o software. 4.A menudo convenzo a otros de que adopten productos de hardware o software que me gustan. 5.Es raro que la gente me pida consejo para elegir productos de hardware o software. 6.A menudo influyo en la opinión de otras personas acerca de los productos de hardware o soft- ware. El valor alfa para el liderazgo de opinión fue 0.88, lo que indica una buena consistencia interna. Se encontró que los primeros en adoptar productos de tecnología suelen ser hombres jóvenes que son líderes de opinión, buscan información novedosa y tienen mucha experiencia con las computa- doras. Las compañías de tecnología de la información como Microsoft necesitan asegurar una reac- ción positiva de quienes adoptan primero los productos y deben enfocar sus esfuerzos de marketing en estos individuos en la etapa de lanzamiento de un producto. 27 ■

18 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 287 Validez del constructo. La validez del constructo se refiere a la cuestión de qué constructo o característica mide la escala. Al evaluar la validez del constructo, el investigador intenta responder preguntas teóricas acerca de por qué funciona la escala y qué deducciones pueden hacerse en rela- ción con la teoría subyacente. Por lo tanto, la validez del constructo requiere de una teoría sólida de la naturaleza del constructo medido y de cómo se relaciona con otros constructos. La validez del constructo es el tipo de validez más complejo y difícil de establecer. Como muestra la figura 9.5, la validez del constructo incluye la validez convergente, discriminante y nomológica. La validez convergente es el grado en que la escala se correlaciona positivamente con otras medidas del mismo constructo. No es necesario obtener todas esas medidas usando las técnicas con- vencionales de escalamiento. La validez discriminante es el grado en que una medida no se corre- laciona con otros constructos de los que se supone debe diferir. Implica la demostración de la falta de correlación entre los diferentes constructos. La validez nomológica es el grado en que la escala se correlaciona del modo pronosticado por la teoría con medidas de constructos diferentes, pero relacionados. Se formula un modelo teórico que lleva a otras deducciones, pruebas e inferencias. De forma gradual se construye una red nomológica en la cual se interrelacionan sistemáticamente varios constructos. Se ilustra la validez del constructo en el contexto de una escala de reactivos múltiples diseñada para medir el autoconcepto. 29 validez del constructo Tipo de validez que se refiere a la cuestión de qué constructo o característica mide la escala. Se intenta responder preguntas teóri- cas de por qué funciona una escala y qué deducciones pueden hacerse respecto a la teoría subyacente. validez convergente Medida de validez del constructo que mide el grado en que la escala se correlaciona positi- vamente con otras medidas del mismo constructo. validez discriminante Tipo de validez del constructo que evalúa el grado en que una medida no se correlaciona con otros constructos de los que se supone debe diferir. validez nomológica Tipo de validez que evalúa la relación entre constructos teóri- cos. Busca confirmar correlacio- nes significativas entre los cons- tructos según lo pronosticado por la teoría. capacidad de generalización Grado en que un estudio basado en una muestra se aplica a un universo de generalización. Advierta que en este ejemplo se incluyó un nivel alto de confiabilidad como evidencia de la validez del constructo. Esto ilustra la relación entre confiabilidad y validez. Relación entre confiabilidad y validez La relación entre confiabilidad y validez puede entenderse en términos del modelo de la clasifi- cación verdadera. Si una medida es perfectamente válida, también es perfectamente confiable. En este caso X O = X V, X A = 0, y X S = 0. Por ende, la validez perfecta implica confiabilidad perfecta. Si una medida no es confiable, tampoco es perfectamente válida, debido a un mínimo X O = X V + X A. Además, también podría estar presente el error sistemático, es decir, X S G 0. Por eso la falta de confiabilidad implica falta de validez. Si una medida es perfectamente confiable, puede ser o no perfectamente válida porque el error sistemático tal vez siga presente (X O = X V + X S ). Aunque la falta de confiabilidad constituye una evidencia negativa para la validez, la confiabilidad, por sí sola, no implica validez. La confiabilidad es una condición necesaria pero no suficiente para la validez. Capacidad de generalización La capacidad de generalización se refiere al grado en que las observaciones con que se cuenta son aplicables a un universo. El conjunto de todas las condiciones de medición sobre las cuales el in- vestigador desea generalizar constituyen el universo de generalización. Estas condiciones incluyen reactivos, entrevistadores, situaciones de observación, etcétera. Un investigador quizá desee gene- ralizar una escala desarrollada para usarse en entrevistas personales a otros modos de recolección de datos, como las entrevistas telefónicas o por correo. Asimismo, tal vez alguien quiera generalizar de una muestra de reactivos al universo de reactivos, de la muestra de momentos de medición al uni- verso de momentos de medición, de una muestra de observadores a un universo de observadores y así sucesivamente. 30 INVESTIGACIÓN REAL Sé fiel a ti mismo Los siguientes hallazgos ofrecen evidencia de la validez del constructo de una escala de reactivos múltiples para medir el autoconcepto. ■ Correlaciones altas con otras escalas diseñadas para medir el autoconcepto y con clasificacio- nes reportadas por los amigos (validez convergente). ■ Correlaciones bajas con constructos no relacionados de lealtad a la marca y búsqueda de variedad (validez discriminante). ■ Se prefieren las marcas que son congruentes con el autoconcepto del individuo, tal como pos- tula la teoría (validez nomológica). ■ Un alto nivel de confiabilidad. ■

19 288 PARTE II Preparación del diseño de la investigación En estudios sobre la capacidad de generalización, se diseñan los procedimientos de medición para investigar los universos de interés mediante el muestreo de condiciones de medición de cada uno de ellos. Para cada universo de interés, se incluye en el estudio un aspecto de la medición lla- mado faceta. Los métodos tradicionales de confiabilidad se consideran como estudios de una sola faceta de la capacidad de generalización. La correlación test-retest se ocupa de si las calificaciones obtenidas con una escala de medición son generalizables al universo de las calificaciones a través de todos los momentos posibles de medición. Aun si la correlación test-retest es alta, no puede decirse nada acerca de la capacidad de generalización de la escala a otros universos. Para generalizar a otros universos, deben emplearse los procedimientos de la teoría sobre la capacidad de generalización. ELECCIÓN DE UNA TÉCNICA DE ESCALAMIENTO Además de las consideraciones teóricas y de evaluar la confiabilidad y la validez, deben considerarse ciertos factores prácticos al seleccionar las técnicas de escalamiento para un determinado problema de investigación de mercados. 31 Tales factores incluyen el nivel de información deseado (nominal, ordinal, de intervalo o de razón), las habilidades de los encuestados, las características de los objetos estímulo, el método de aplicación, el contexto y el costo. Como regla general, el uso de la técnica de escalamiento que produzca el más alto nivel de información posible en una situación dada permitirá el uso de la mayor variedad de análisis estadís- ticos. Además, sin importar el tipo de escala usada, siempre que sea posible, la característica de in- terés debe medirse mediante una escala con varios reactivos. Esto permite una medición más exacta que una escala de un solo reactivo. En muchas situaciones es conveniente usar más de una técnica de escalamiento o usar escalas derivadas matemáticamente para obtener medidas adicionales. ESCALAS DERIVADAS MATEMÁTICAMENTE Todas las técnicas de escalamiento analizadas en este capítulo requieren que los encuestados hagan una evaluación directa de varias características de los objetos estímulo. En contraste, las técnicas matemáticas de escalamiento permiten a los investigadores inferir las evaluaciones que hacen los encuestados de las características de los objetos estímulo. Estas evaluaciones se infieren de los jui- cios generales de los encuestados sobre los objetos. Entre las técnicas de escalamiento derivadas matemáticamente destacan el escalamiento multidimensional y el análisis conjunto, las cuales se analizan en detalle en el capítulo 21. INVESTIGACIÓN DE MERCADOS INTERNACIONALES Al diseñar la escala o el formato de respuesta debe considerarse el nivel educativo de los encues- tados. 32 Un enfoque consiste en desarrollar escalas que sean multiculturales o que estén libres de sesgos culturales. De las técnicas de escalamiento que hemos considerado, puede decirse que la escala de diferencial semántico es multicultural. Se ha probado en muchos países y, de manera consistente, arroja resultados similares. INVESTIGACIÓN REAL Copiando el nombre Xerox Xerox (www.xerox.com) era un nombre bien recibido en la ex Unión Soviética durante los pasados 30 años. De hecho, la acción de copiar documentos era conocida como “hacer Xerox”, un término acuñado a partir del nombre de la compañía. Era el nombre de una marca que la gente identificaba con calidad. Sin embargo, con la desintegración de la Unión Soviética y el nacimiento de la Comu- nidad de Estados Independientes (CEI), las ventas de Xerox comenzaron a declinar. Al principio la administración consideró que este problema era resultado de la intensa competencia con rivales como Canon, Ricoh Co., Mitsubishi Electric Corp. y Minolta Camera Co. Los primeros intentos por hacer al producto más competitivo no fueron de mucha ayuda. Luego se realizó una investigación de mercados para medir la imagen de Xerox y sus competidores. Se usaron escalas de diferencial semántico porque este tipo de escala se considera multicultural. Las etiquetas bipolares fueron

20 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 289 probadas cuidadosamente para asegurar que tuvieran el significado deseado en el contexto y el idioma ruso. Los resultados del estudio revelaron que el problema real era una creciente percepción negativa de los clientes rusos hacia los productos de Xerox. ¿Qué podía haber salido mal? El problema no era con Xerox, sino con varios productores independientes de máquinas copiadoras que violaron ilegalmente los derechos de la marca registrada de Xerox. Con la desintegración de la Unión Sovié- tica, no era clara la protección de estas marcas registradas y seguían aumentando las violaciones a la marca. Como resultado, los consumidores desarrollaron la idea errónea de que Xerox estaba ven- diendo productos de mala calidad. Entre otras acciones, Xerox inició una campaña corporativa en las cadenas nacionales de radio y televisión rusas, así como en los medios impresos de circulación local. La campaña enfatizaba la posición de liderazgo de Xerox en los países de la Commonwealth donde las exigencias de calidad son muy altas. Éste fue un paso positivo para eliminar ideas falsas de los consumidores rusos sobre Xerox. La empresa también registró por separado su marca en cada república, lo que le permitió ver que sus ganancias aumentaban considerablemente en Rusia y otros países de la Comunidad de Estados Independientes. En 2005, Xerox Corporation era una empresa de servicios y tecnología de $15,700 millones, que ayudaba a los negocios a hacer uso de estrate- gias de Smarter Documents Management MR y a encontrar mejores maneras de trabajar. 33 ■ Aunque el diferencial semántico funcionó bien en el contexto ruso, un enfoque alternativo consiste en desarrollar escalas que usen una norma cultural autodefinida como base de referencia. Por ejemplo, puede pedirse a los encuestados que indiquen su posición y su punto de anclaje en relación con un conjunto de estímulos específicos a la cultura. Este enfoque es útil para la medición de actitudes que se definen en relación con normas culturales (por ejemplo, actitud hacia los roles matrimoniales). Al desarrollar formatos de respuesta, las escalas de clasificación verbal parecen ser las más adecuadas. Incluso a los encuestados con menos educación les resulta fácil entender y responder las escalas verbales. Debe prestarse especial atención a la determinación de los descrip- tores verbales equivalentes en idiomas y culturas diferentes. Los puntos extremos de la escala son particularmente propensos a interpretaciones diversas. En algunas culturas el número 1 se interpreta como lo mejor, mientras que en otras se interpreta como lo peor, sin importar cómo se haya elabo- rado la escala. Es importante que los extremos de la escala y los descriptores verbales se empleen de un modo que sea congruente con la cultura. Por último, en la investigación de mercados internacionales es indispensable establecer la equivalencia de las escalas y medidas usadas para obtener datos de diferentes países. Este tema es complejo y se analiza con detalle en el capítulo 23. LA ÉTICA EN LA INVESTIGACIÓN DE MERCADOS El investigador tiene la responsabilidad ética de usar escalas cuya confiabilidad, validez y capaci- dad de generalización sean razonables. Los hallazgos generados por escalas que no son confiables, válidas o generalizables a la población meta, en el mejor de los casos, son cuestionables y pueden dar lugar a serios problemas éticos. Además, el investigador no debe sesgar las escalas para inclinar los hallazgos en una dirección particular. Esto es fácil de hacer sesgando la redacción de los enun- ciados (escalas tipo Likert), los descriptores u otros aspectos de la escala. Considere el uso de los descriptores de la escala. Los descriptores usados para enmarcar una escala pueden elegirse para inclinar los resultados en una dirección deseada, por ejemplo, generando una visión positiva de la marca del cliente o una visión negativa de la marca de los competidores. Para proyectar favorable- mente la marca del cliente, se pide a los encuestados que den su opinión de la marca en varios atri- butos usando escalas de 7 puntos ancladas en los descriptores “extremadamente mala” a “buena”. En ese caso, los encuestados se muestran renuentes a calificar al producto como extremadamente malo. De hecho, los encuestados que piensan que el producto sólo es mediocre terminarán dando una respuesta favorable. Pruébelo usted mismo. ¿Cómo calificaría a los automóviles BMW en los siguientes atributos? ConfiabilidadHorrible1234567Buena DesempeñoMuy malo1234567Bueno CalidadUna de las peores1234567Buena PrestigioMuy poco1234567Bueno

21 290 PARTE II Preparación del diseño de la investigación ¿Se encontró dando una clasificación positiva a los autos BMW? Usando esta misma técnica es posible sesgar negativamente las evaluaciones de las marcas de los competidores presentando un des- criptor ligeramente negativo (algo malo) contra un fuerte descriptor positivo (extremadamente bueno). De esta forma, vemos la importancia de usar escalas balanceadas con descriptores positivos y negativos comparables. Cuando se transgrede esta directriz, las respuestas se sesgan y deben inter- pretarse en consecuencia. El investigador tiene la responsabilidad, con el cliente y con los encues- tados, de asegurar la aplicabilidad y utilidad de la escala. De igual modo, la compañía del cliente tiene la responsabilidad de tratar a sus consumidores y al público en general de una manera ética. El siguiente ejemplo propone una escala adecuada para evaluar la conducta de vendedores directos. INVESTIGACIÓN REAL Medición directa de la ética de los vendedores directos Muchos tipos de negocios realizan marketing con la gente por teléfono, correo electrónico y correo directo sin ninguna consideración por los individuos a los que tratan de convencer para que com- pren sus productos. Muchas compañías de marketing directo, incluyendo compañías de seguros, de cuidados médicos y de telecomunicaciones, han pagado multas por miles de millones de dólares por prácticas de marketing faltas de ética. Denny Hatch propuso la siguiente escala de honestidad para empresas que usan el marketing directo. 1.En general, mi oferta es, en palabras de Dick Benson, “escrupulosamente honesta”. 012345 2.Estaría orgulloso de hacer esta oferta a mi madre o a mi hija. 012345 3.Mi garantía está claramente establecida y es rigurosa. La mantendré. 012345 4.Creo de pies a cabeza en cada promesa que hago sobre la oferta. 012345 5.Todas las letras en mi promoción son fáciles de leer y el texto es claro. 012345 6.Todos los testimonios son absolutamente reales y se ofrecieron libremente. 012345 7.La mercancía llegará en el tiempo prometido. No vivo de manera inestable. 012345 8.Me adhiero fielmente a todos los lineamientos de la industria. 012345 9.Hago muy fácil la cancelación o devolución de mercancía. 012345 10.Hago reembolsos rápidos a los clientes insatisfechos. 012345 Ésta es una escala de autoclasificación que va de 0 a 5, donde 0 es clasificación reprobatoria y 5 equivale a excelente. Los vendedores directos deberían responder este cuestionario para averiguar qué tan éticas son sus prácticas. Si su clasificación es menor de 50, no son escrupulosamente honestos. 34 ■ INVESTIGACIÓN P ARA LA DECISIÓN Monster: el monstruo de las redes de carreras La situación ¿En qué piensa cuando escucha la palabra “monstruo”? ¿En criaturas aterradoras debajo de su cama? ¿En Elmo y Grover de Plaza Sésamo? ¿En la película Monsters, Inc. de Disney? En la actualidad, la palabra “monstruo” también se refiere a la compañía de bolsa de trabajo en línea que ha conectado a millones de solicitantes de trabajo con los empleadores. Esta compañía (www.monster.com) fue fundada en 1994 por Jeff Taylor, presidente de Monster. Es la red más importante de búsqueda de empleos en línea y la empresa de contrataciones número uno del mundo. En 2006 los clientes de la

22 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 291 SPSS PARA WINDOWS Mediante el uso de SPSS Data Entry, el investigador podrá diseñar cualquiera de las tres escalas no comparativas: Likert, diferencial semántico o Stapel. Además, es posible adaptar fácilmente las escalas de reactivos múltiples. Puede utilizarse la biblioteca de preguntas o diseñarse una esca- la personalizada. En la figura 9.7 se muestra el uso de SPSS Data Entry para diseñar escalas tipo Likert con el fin de calificar características de los vendedores y de los productos. El uso de las técnicas apropiadas de escalamiento puede ayudar a Monster a hacer corresponder las especificaciones de la compañía para el puesto con las habilidades y la preparación de los solicitan- tes de empleo. compañía incluían a más de 90 de las 100 empresas de Fortune 100 y aproximadamente a 490 de las 500 compañías de Fortune 500. La compañía tenía sitios en 21 países de todo el mundo, por lo que no es de extrañar que haya dado un nuevo significado a la palabra “monstruo”. Monster hace gran uso de las técnicas de investigación de mercados de una manera única. A diferencia de empresas como ACNielsen que realizan investigación de mercados para diferentes compañías, Monster investiga a empresas que necesitan empleados que ocupen sus puestos y ofrece el servicio de poner en contacto a los solicitantes de empleos con esas compañías. Aunque a Mons- ter le va bien, cada vez son más las empresas que han seguido sus pasos y han entrado al negocio de brindar servicios de búsqueda de empleo. Entre estas compañías de la competencia se incluyen HotJObs, Kforce, eJobs y eCarrers. Con toda esta variedad de servicios disponibles, el mercado comienza a saturarse con sitios Web de reclutamiento. Es importante para Monster, ahora más que nunca, distinguirse de su competencia. La decisión para la investigación de mercados 1.El éxito de Monster radica en lograr que coincidan las especificaciones de la empresa para el puesto con las habilidades y la preparación de los solicitantes del trabajo. ¿Qué técnicas de escalamiento debe usar Monster para medir las especificaciones de la empresa para el puesto y las habilidades y preparación de los solicitantes de empleo? 2.Analice la función del tipo de técnica de escalamiento que recomienda para permitir a Jeff Taylor hacer coincidir las especificaciones de la empresa para el puesto con las habilidades y la preparación de los solicitantes de trabajo e incrementar de esta forma la participación de Monster en el mercado. La decisión para la gerencia de marketing 1.¿Qué debe hacer Jeff Taylor para ganar participación de mercado frente a sus competidores? 2.Analice cómo influyen en la decisión de la gerencia de marketing que recomendó a Jeff Taylor la técnica de escalamiento que sugirió antes y los hallazgos de la investigación. 35 ■

23 292 PARTE II Preparación del diseño de la investigación Figura 9.7 Escalas tipo Likert para calificar características de los vendedores y del producto EXPERIENCIA DE INVESTIGACIÓN Desglose de las preferencias para las computadoras Dell: escalas de clasificación Visite el sitio Web de este libro y descargue el caso Dell, el cuestionario y el archivo de datos. Esta información también se encuentra al final de este libro. 1. Realice las siguientes operaciones. a.Invierta la clasificación del segundo y tercer reactivos de la escala de Innovación. b.Sume los reactivos de Experto en Mercados (q10_1 a q10_4) para obtener una clasifica- ción total de Experto en Mercados. Sume los reactivos de Innovación (q10_5 a q10_10) para obtener una clasificación total de Innovación. Advierta que tendrá que invertir las calificaciones de los reactivos con enunciado negativo (q10_6 y q10_7) antes de sumarlas. Sume los reactivos de Liderazgo de Opinión (q10_11 a q10_13) para obtener una clasifi- cación total de Liderazgo de Opinión. c.Calcule el alfa de Cronbach para cada uno de estos tres conjuntos de reactivos. 2. Diseñe escalas de Likert, diferencial semántico y de Stapel para medir las preferencias de los consumidores por las computadoras Dell. ■ RESUMEN Archivo de resultados de SPSS En el escalamiento no comparativo, cada objeto es escalado de manera independiente a los otros objetos en el conjunto de estímu- los. Por lo general se supone que los datos resultantes fueron escalados como datos de intervalo o de razón. Las escalas no comparativas de clasificación pueden ser continuas o por ítem. Estas últimas se clasifican a su vez en escalas de Likert, diferencial semántico o de Stapel. Cuando se usan escalas no comparativas de clasificación por ítem, el investigador debe decidir respecto al número de categorías de la escala, si la escala será balanceada o no balanceada, si el número de categorías será par o non, si las escalas serán forzadas o no forzadas, sobre la naturaleza y el grado de la descripción verbal y sobre la configuración o forma física. Las escalas de reactivos múltiples constan de un número de reactivos de la escala de clasificación. Debe evaluarse la confia- bilidad y validez de estas escalas. La confiabilidad se refiere al grado en que la escala produce resultados consistentes si se hacen mediciones repetidas. Los enfoques para evaluar la confiabilidad incluyen test-retest, formas alternativas y consistencia interna. La validez, o exactitud de la medición, se calcula evaluando la vali- dez del contenido, validez del criterio y validez del constructo. La elección de una técnica particular de escalamiento en una situación determinada debe basarse en consideraciones teó- ricas y prácticas. Como regla general, la técnica de escalamiento usada debe ser la que ofrezca el mayor nivel de información po- sible. También deben obtenerse medidas múltiples. En la investigación de mercados internacionales, debe dedi- carse especial atención a la determinación de descriptores verba- les equivalentes en diferentes idiomas y culturas. El investigador tiene la responsabilidad con el cliente y con los encuestados de asegurar la aplicabilidad y utilidad de las escalas. Internet y las computadoras son útiles para el desarrollo y prueba de escalas de clasificación continuas y por ítem, en particular escalas de reactivos múltiples.

24 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento TÉRMINOS Y CONCEPTOS CLAVE 293 escala no comparativa, 272 escala de clasificación continua, 272 escala de clasificación por ítem, 274 escala de Likert, 274 diferencial semántico, 276 escala de Stapel, 277 escala balanceada, 279 escala de clasificación forzada, 279 error de medición, 283 modelo de clasificación verdadera, 284 error sistemático, 284 error aleatorio, 284 confiabilidad, 284 confiabilidad test-retest, 284 confiabilidad de formas alternativas, 285 confiabilidad de consistencia interna, 285 confiabilidad de división por mitades, 285 coeficiente alfa, 285 validez, 286 validez del contenido, 286 validez del criterio, 286 validez del constructo, 287 validez convergente, 287 validez discriminante, 287 validez nomológica, 287 capacidad de generalización, 287 CASOS SUGERIDOS, CASOS EN VIDEO Y CASOS DE HARVARD BUSINESS SCHOOL Casos Caso 2.3 El dulce es perfecto para Hershey. Caso 2.4 Las fragancias son dulces, pero la competencia es amarga. Caso 2.5 ¿La publicidad del Súper Bowl es súper efectiva? Caso 4.1 Wachovia: finanzas “Watch Ovah Ya”. Caso 4.2 Wendy’s: historia y vida después de Dave Thomas. Caso 4.3 Astec sigue creciendo. Caso 4.4 ¿Es la investigación de mercados la cura para los males del Hospital Infantil Norton Healthcare Kosair? Casos en video Caso en video 2.1 Starbucks: continúa a nivel nacional mientras se lanza a nivel mundial a través de la investigación de mercados. Caso en video 2.2 Nike: relacionando a los deportistas, el desempeño y la marca. Caso en video 2.4 Nivea: la investigación de mercados conduce a una consistencia en marketing. Caso en video 4.1 Subaru: el “Sr. Encuesta” supervisa la satisfacción del cliente. Caso en video 4.2 Procter & Gamble: usando la investigación de mercados para crear marcas. Casos de Harvard Business School Caso 5.1 La encuesta de Harvard sobre las viviendas para estudiantes de posgrado. Caso 5.2 BizRate.com Caso 5.3 La guerra de las colas continúa: Coca y Pepsi en el siglo xxi. Caso 5.4 TiVo en 2002. Caso 5.5 Computadoras Compaq: ¿Con Intel dentro? Caso 5.6 El nuevo Beetle. INVESTIGACIÓN REAL: REALIZACIÓN DE UN PROYECTO DE INVESTIGACIÓN DE MERCADOS 1.Regularmente es más difícil poner en práctica la medición con- tinua, por lo que, en general, debe evitarse. 2.Analice en el grupo el tipo de escala por ítem (Likert, diferencial semántico, o Stapel) que sea apropiada para las variables clave. 3.Revise las escalas de reactivos múltiples y los temas de confia- bilidad y validez. 4. Considere las restricciones prácticas. Por ejemplo, si en el pasado se utilizó cierto tipo de escala para medir una variable (por ejemplo, una escala tipo Likert de 10 puntos para medir la satisfacción del cliente), quizá deba volver a usarse en el proyecto para poder comparar los hallazgos con los resultados pasados. EJERCICIOS Preguntas 1.¿Qué es una escala de diferencial semántico? ¿Para qué propósi- tos se utiliza? 2.Describa la escala de Likert. 3.¿Cuáles son las diferencias entre la escala de Stapel y el diferen- cial semántico? ¿Cuál se utiliza más? 4.¿Cuáles son las decisiones más importantes implicadas en la construcción de una escala de clasificación por ítem?

25 294 PARTE II Preparación del diseño de la investigación EJERCICIOS EN INTERNET Y POR COMPUTADORA 1.Diseñe una escala de Likert para medir la utilidad del sitio Web de Ford Motor Company. Visite el sitio en www.ford.com y cali- fíquelo con las escalas que ha desarrollado.www.ford.com 2.Diseñe escalas de diferencial semántico para medir la percep- ción del servicio de entrega al día siguiente de FedEx y compá- relo con el ofrecido por UPS. Obtendrá información relevante visitando los sitios Web de estas dos empresas (www.fedex.com, www.ups.com).www.fedex.com, 3.Visite la página Web de Office of Scales Research (www.siu. edu/departments/coba/mktg/osr). Identifique una aplicación de la escala de Likert y una de diferencial semántico. Escriba un informe donde describa el contexto en que se utilizaron estas escalas. 4.Visite el sitio Web de dos empresas de investigación de merca- dos que realicen encuestas. Analice una encuesta de cada com- pañía para hacer una evaluación crítica de las escalas de clasifi- cación por ítem que se utilizaron. 5.Navegue en Internet para encontrar dos ejemplos de cada escala: Likert, de diferencial semántico y de Stapel. Escriba un informe donde describa el contexto en que se utilizaron estas escalas. 5.¿Cuántas categorías deben usarse en una escala de clasificación por ítem? ¿Por qué? 6.¿Cuál es la diferencia entre escalas balanceadas y no balancea- das? 7.¿En una escala de clasificación por ítem debe usarse un número non o par de categorías? 8.¿Cuál es la diferencia entre las escalas forzadas y no forza- das? 9.¿Cómo influyen la naturaleza y el grado de la descripción verbal en la respuesta a las escalas de clasificación por ítem? 10.¿Qué son las escalas de reactivos múltiples? 11.Describa el modelo de clasificación verdadera. 12.¿Qué es la confiabilidad? 13.¿Cuáles son las diferencias entre la confiabilidad test-retest y la de formas alternativas? 14.Describa la noción de confiabilidad de consistencia interna. 15.¿Qué es validez? 16.¿Qué es validez del criterio? ¿Cómo se evalúa? 17.¿Cómo evaluaría la validez del constructo de una escala de reac- tivos múltiples? 18.¿Cuál es la relación entre confiabilidad y validez? 19.¿Cómo seleccionaría una técnica particular de escalamiento? Problemas 1. Desarrolle una escala de Likert, un diferencial semántico y una escala de Stapel para medir la lealtad a una tienda. 2.Desarrolle una escala de reactivos múltiples para medir la acti- tud de los estudiantes hacia la internacionalización del currículo de administración. ¿Cómo evaluaría la confiabilidad y validez de esta escala? 3.Desarrolle una escala de Likert para medir la actitud de los estu- diantes hacia Internet como fuente de información general. Aplique su escala a una muestra pequeña de 10 estudiantes y depúrela. 4.La siguiente escala se usó en un estudio reciente para medir las acti- tudes hacia la nueva tecnología: por favor, dígame qué tan acuerdo o en desacuerdo está con la manera en que los siguientes enunciados describen su visión de la nueva tecnología. Use una escala de 1 a 5, donde 1 = totalmente en desacuerdo y 5 = totalmente de acuerdo. Soy una persona que evita la nueva tecnología. Soy un aficionado a la tecnología y me mantengo al tanto de los equipos más recientes. En lo que concierne a la nueva tecnología, uso el enfoque de “esperar y ver” hasta que sea probada. Soy del tipo de persona a quien los amigos piden consejo para la compra de nueva tecnología. a.¿Cómo calificaría esta escala para medir las actitudes hacia la nueva tecnología? b.Desarrolle una escala equivalente de diferencial semántico para medir las actitudes hacia la nueva tecnología. c.Desarrolle una escala de Stapel equivalente para medir las actitudes hacia la nueva tecnología. d.¿Qué forma de escala es más adecuada para una encuesta telefónica?

26 CAPÍTULO 9 Medición y escalamiento: técnicas no comparativas de escalamiento 295 ACTIVIDADES Juego de roles 1. Usted trabaja en el departamento de investigación de mercados de una empresa especializada en desarrollar sistemas de apoyo a las decisiones (SAD) para el sector de cuidados de la salud. Su empresa quiere medir las actitudes de los administradores de los hospitales hacia el SAD. Las entrevistas se harán por teléfono. Se le ha pedido que desarrolle una escala apropiada para este fin. La administración quiere que explique y justifi- que su razonamiento en la elaboración de esta escala. Trabajo de campo 1. Desarrolle una escala de diferencial semántico para medir las imágenes de dos líneas aéreas importantes que vuelen a su ciu- dad. Aplique esta escala a una muestra piloto de 20 estudiantes. Según su estudio piloto, ¿qué línea aérea tiene una imagen más favorable? Discusión en grupo 1.“En realidad no importa qué técnica de escalamiento utilice. Siempre que la medición sea confiable, obtendrá los resultados correctos”. Analice este enunciado en equipos grupos. 2.“En la investigación aplicada de mercados, no es necesario pre- ocuparse por la confiabilidad y validez”. Analice este enunciado en equipos pequeños.