Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Rev. Ciencia Agraria (2024). Vol. 3 Núm. 2 págs. 38-51
Revista Ciencia Agraria
www.cienciaagraria.com
ISSN: 2955-8085 ISSN-L: 2955-8085
Editada por:
Instituto Universitario de Innovación Ciencia y Tecnología Inudi Perú
ARTÍCULO ORIGINAL
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la
caña de azúcar (Saccharum officinarum)
Determination of a multiple linear regression model for the prediction of Pol in sugarcane (Saccharum
officinarum)
Determinação de modelo de regressão linear múltipla para predição de Pol em cana-de-açúcar (Saccharum
officinarum)
Flavio Reyes
1
Universidad Hipócrates, Acapulco - Estado de Guerrero, México
Instituto Universitario de Innovación Ciencia y Tecnología Inudi-Perú, Puno - Puno Perú
https://orcid.org/0000-0002-9694-705X
freyes@inudi.edu.pe (correspondencia)
Estuardo Monroy
Universidad Hipócrates, Acapulco - Estado de Guerrero, México
Instituto Universitario de Innovación Ciencia y Tecnología Inudi-Perú, Puno - Puno Perú
https://orcid.org/0009-0002-5493-0767
emonroyb@inudi.edu.pe
DOI: https://doi.org/10.35622/j.rca.2024.02.003
Recibido: 11/09/2024 Aceptado: 17/12/2024 Publicado: 20/12/2024
Doctor en Investigación Social por la Universidad Panamericana, Guatemala.
PALABRAS CLAVE
agroindustria, calidad,
eficiencia, optimización,
producción.
RESUMEN. En el proceso de fabricación de azúcar, la Pol en caña es un parámetro de calidad.
Sin embargo, existe una problemática en su determinación, ya que está condicionada por la
complejidad de cálculo, lo que obli a realizar esta investigación, para brindar una solución
factible, dinámica y económica. El objetivo consistió en elaborar un modelo predictivo que permita
predecir la Pol en caña de manera más rápida y de forma sencilla a partir de seis variables
independientes: brix en jugo, Pol en jugo, no Pol en jugo, pureza de jugo, fibra en caña y jugo en
caña. La investigación fue cuantitativa con diseño explicativo y transversal, donde se disponía de
datos recolectados durante la zafra 2023-2024 en un ingenio de la región sur de Guatemala. Se
analizaron 23,470 registros para cada variable. Los resultados del análisis de regresión lineal
múltiple demostraron que las variables Pol en jugo y fibra en caña inciden directamente en la
predicción de Pol en caña al evidenciar coeficientes estandarizados con significancia estadística.
Se generó un modelo matemático sólido que atribuye a las variables Pol en jugo y fibra en caña
una alta capacidad explicativa. La ecuación de la fórmula es: Pol en caña = 3.642 + (0.80 x Pol en
jugo) (0.242 x fibra en caña). Se concluye que la nueva propuesta para el cálculo de Pol en caña,
establece equilibrio entre su simplicidad y precisión, facilitará su aplicación e impactará
positivamente en la toma de decisiones en la producción de azúcar.
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
39
KEYWORDS
agroindustry, efficiency,
optimization, production,
quality.
ABSTRACT. In the sugar manufacturing process, Pol in cane is a quality parameter. However, there
is a problem in its determination, since it is conditioned by the complexity of the calculation, which
forced this research to be carried out to provide a feasible, dynamic and economical solution. The
objective was to develop a predictive model that allows predicting Pol in cane more quickly and
easily from six independent variables: brix in juice, Pol in juice, non-Pol in juice, purity of juice,
fiber in cane and cane juice. The research was quantitative with an explanatory and transversal
design, where data collected during the 2023-2024 harvest at a sugar mill in the southern region
of Guatemala was available. 23,470 records were analyzed for each variable. The results of the
multiple linear regression analysis demonstrated that the variables Pol in juice and fiber in cane
directly affect the prediction of Pol in cane by evidencing standardized coefficients with statistical
significance. A solid mathematical model was generated that attributes high explanatory capacity to
the variables Pol in juice and fiber in cane. The formula equation is: Pol in cane = 3.642 + (0.80 x
Pol in juice) (0.242 x fiber in cane). It is concluded that the new proposal for calculating Pol in
cane establishes a balance between its simplicity and precision, will facilitate its application and will
positively impact decision-making in sugar production.
PALAVRAS-CHAVE
agroindústria, eficiência,
otimização, produção,
qualidade.
RESUMO. No processo de fabricação do açúcar, o Pol na cana é um parâmetro de qualidade.
Contudo, existe um problema na sua determinação, uma vez que está condicionada pela
complexidade do cálculo, o que obrigou à realização desta investigação para fornecer uma solução
viável, dinâmica e económica. O objetivo foi desenvolver um modelo preditivo que permitisse
prever Pol em cana de forma mais rápida e fácil a partir de seis variáveis independentes: brix em
caldo, Pol em caldo, não Pol em caldo, pureza de caldo, fibra em cana e caldo de cana. A pesquisa
foi quantitativa com desenho explicativo e transversal, onde foram disponibilizados dados coletados
durante a safra 2023-2024 em uma usina de açúcar da região sul da Guatemala. Foram analisados
23.470 registros para cada variável. Os resultados da análise de regressão linear múltipla
demonstraram que as variáveis Pol no caldo e fibra na cana afetam diretamente a predição da Pol
na cana, evidenciando coeficientes padronizados com significância estatística. Foi gerado um
modelo matemático sólido que atribui alta capacidade explicativa às variáveis Pol no caldo e fibra
na cana. A equação da fórmula é: Pol na cana = 3,642 + (0,80 x Pol no caldo) (0,242 x fibra na
cana). Conclui-se que a nova proposta de cálculo do Pol na cana estabelece um equilíbrio entre
sua simplicidade e precisão, facilitará sua aplicação e impactará positivamente na tomada de
decisões na produção de açúcar.
1. INTRODUCCIÓN
La caña de azúcar es un cultivo que se practica a nivel mundial (De Almeida Silva et al., 2022). Es un cultivo
bioenergético con producciones más eficientes de las regiones tropicales y subtropicales (Waclawovsky et al.,
2010). Actualmente, existe una gran demanda de azúcar en el mercado mundial, por lo tanto, la industria
azucarera es la industria líder y depende principalmente de la caña de azúcar (Chauhan et al., 2011). El propósito
de todo ingenio azucarero es producir azúcar con altos estándares de calidad y rendimientos óptimos, pero
lograr una excelente calidad del producto con mínimas pérdidas, es muy importante comprender la calidad de
las materias primas, que afectan el proceso de producción de azúcar y la calidad del producto final (Cavalcante
& de Albuquerque, 2015). La calidad de la caña se determina a través de su contenido de Pol (sacarosa), pero
su cálculo contempla el empleo de fórmulas que son difíciles de entender por ser complejas y sofisticadas
(Lejars et al., 2010). La sacarosa es un disacárido que se encuentra en la caña de azúcar (Plaza-Diaz & Gil,
2015). La Pol en caña es la sacarosa presente en la caña, permite estimar el rendimiento de azúcar, por tanto,
es un dato crucial para la optimización del proceso de extracción de azúcar.
Para la determinación del contenido de sacarosa en la caña (Pol en caña) se debe invertir mucho tiempo, es
una actividad muy laboriosa y representa una amenaza para el medio ambiente (Chiatrakul et al., 2022). El
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
40
problema detectado en este estudio fue la mala calidad de la producción de azúcar y es causado por la dificultad
de analizar y calcular la Pol en caña que es un indicador importante en la materia prima y como efectos negativos,
genera la inversión considerable de tiempo, equipo analítico de medición y altos costos operacionales. De no
resolverse, puede repercutir negativamente en la toma de decisiones y no generar acciones preventivas y
correctivas justo a tiempo en el proceso productivo lo que conduce a altas pérdidas de azúcar que se traducen
en mermas económicas. Esta problemática se puede resolver a través de un modelo de regresión lineal práctico
y sencillo para calcular la Pol en caña que sea utilizado de forma oportuna y justo a tiempo.
El brix en jugo se refiere a la cantidad de sólidos solubles presentes en la caña de azúcar y consiste en no
azúcares y azúcares totales, entre ellos, sacarosa, glucosa y fructosa (Da Costa et al., 2021). La Pol en jugo es
la sacarosa aparente y es un parámetro principal que se analiza en la caña para evaluar su calidad (Sorol et al.,
2021). La no Pol en el jugo de la caña se encuentra al realizar la resta de brix en jugo menos Pol en jugo. La
pureza del jugo es la relación que se calcula al dividir la Pol en jugo sobre el brix del jugo, se calcula así,
 󰇡


󰇢 . La fibra en caña es un componente seco e insoluble en el agua del tallo muy
importante en la valoración de la calidad de la caña porque es inversamente proporcional con la extracción de
jugo y la eficiencia en la operación de la molienda (Islam et al., 2021). El jugo en caña, está constituido por
agua, sacarosa y no azúcares, su extracción en la etapa de molienda es muy importante para la eficiencia de la
fábrica (Serrano Febles et al., 2022). Por último, la Pol en caña es el parámetro más importante de calidad y
representa la sacarosa aparente contenida en 100 partes de caña (Bastidas et al., 2009).
En el ingenio azucarero donde se realizó el estudio, se ubica en la región sur de Guatemala y para la zafra 2023-
2024 enfrentó el problema que se ha descrito anteriormente, lo que conlleva a la necesidad de resolverlo y
presentar para las zafras venideras una solución factible, aplicable y de uso amigable que incentive la
productividad con calidad en el proceso azucarero. Por lo tanto, el objetivo de este estudio fue determinar un
modelo de regresión lineal que permita calcular de forma predictiva la Pol en caña de manera más rápida y de
forma sencilla con el empleo de variables de fácil medición que se correlacionen significativamente y
proporcione un resultado preciso y confiable en la toma de decisiones operativas en el proceso para garantizar
una producción eficiente y económicamente sostenible.
2. MÉTODO
El estudio se realizó en un sector de la agroindustria azucarera porque actualmente enfrenta muchos problemas
y oportunidades para ser sustentables (Eggleston & Lima, 2015). Se empleó un enfoque metodológico
explicativo porque se encontró relación entre variables (Hernández Sampieri et al., 2014). Además, fue
transversal, ya que los datos fueron recolectados en un momento determinado (Díaz Narváez, 2009).
Para este estudio se utilizaron 23,420 registros de los datos analíticos de laboratorio de un ingenio azucarero
ubicado en la región sur de Guatemala, los datos de cada una de las variables fueron obtenidos a partir de
ensayos de laboratorio que incluyeron mediciones de brix en jugo, Pol en jugo, no Pol en jugo, fibra en caña,
jugo en caña como variables independientes, y Pol en caña como variable dependiente. El período del estudio
fue comprendido desde el mes de noviembre del año 2024 al mes de marzo del año 2025. Se consideraron
todos los datos generados durante la zafra (cosecha de la caña), lo que eliminó la necesidad de calcular el
tamaño de la muestra, dado que se trabajó con la totalidad de la información disponible.
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
41
Se utilizó la prueba de normalidad de Kolmogorov-Smirnov para evaluar la distribución de los datos y determinar
cuáles serían las pruebas estadísticas idóneas a realizar (Drezner & Turel, 2011). Además, se calcularon
estadísticas descriptivas como la media aritmética, la desviación estándar, el grado de asimetría y la curtosis
para comprender todas las diferencias entre las distribuciones de las variables. Por otra parte, fue vital realizar
un análisis de evaluación no paramétrica mediante los coeficientes Tau-b de Kendall y Rho de Spearman para
identificar las relaciones entre variables independientes y dependientes sin necesidad de asumir que las
distribuciones siguen una normal (Li et al., 2021). Dado el gran tamaño de la muestra, se asumió que el
promedio sigue una distribución normal y con este supuesto se procedió a realizar un modelo de regresión
lineal múltiple con el método de los mínimos cuadrados (Sawada, 2021).
3. RESULTADOS
a) Caracterización de las variables independientes y variable dependiente
El análisis de las variables brix en jugo, Pol en jugo, no Pol en jugo, pureza de jugo, fibra en caña y jugo en
caña es esencial para calcular la Pol en caña, ya que cada una de ellas proporciona información clave sobre la
calidad. del jugo y la caña de azúcar. Los estadísticos descriptivos de 23,470 datos de jugo que agrupan análisis
de brix en jugo, Pol en jugo, no Pol en jugo, pureza de jugo, fibra en caña, jugo en caña y Pol en caña pueden
verse en la siguiente tabla.
Tabla 1
Estadísticos descriptivos de las pruebas de laboratorio de caña de azúcar
Descripción
Media
Desviación estándar
Asimetría
Curtosis
Brix en jugo
19.21
2.1
-0.07
0.13
Pol en jugo
16.30
2.04
-0.14
0.13
No Pol en jugo
2.91
0.84
0.54
2.40
Pureza de jugo
0.85
0.04
-0.46
1.40
Fibra en caña
14.00
1.38
1.22
10.65
Jugo en caña
71.50
2.58
-1.50
20.29
Pol en caña
13.23
1.65
-0.18
0.31
Nota. Total, de datos por cada variable: 23,470.
Los análisis realizados sobre las variables del jugo y de la caña ofrecen perspectivas relevantes sobre sus
distribuciones. Tanto el brix en jugo como la Pol en jugo presentan características que sugieren que siguen
distribuciones normales, esto es porque muestran asimetrías y curtosis cercanas a cero. Contrariamente, la
variable no Pol en jugo muestra una asimetría positiva y una alta curtosis, lo que indica que no se ajusta a una
distribución normal. Lo mismo se observa en el caso de la pureza del jugo; presenta asimetría negativa y
curtosis que sugiere un comportamiento no normal. Por otro lado, la fibra en caña presenta alta asimetría positiva
y una curtosis extremadamente elevada, lo que claramente indica que no sigue una distribución normal.
Asimismo, el jugo en caña muestra características de asimetría negativa y una curtosis considerablemente alta,
por lo que tampoco se ajusta a una distribución normal. Finalmente, la Pol de caña se aproxima a una
distribución normal, presenta asimetría y curtosis que indican una forma equilibrada. En resumen, las variables
brix en jugo, Pol en jugo y Pol en caña son normales, mientras que no Pol en jugo, pureza del jugo, fibra en
caña y jugo en caña son distribuciones no normales.
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
42
Tabla 2
Pruebas de normalidad
Descripción
Estadístico (Kolmogorov-Smirnov)
Significancia (p Valor)
Brix en jugo
0.013
0.000
Pol en jugo
0.014
0.000
No Pol en jugo
0.043
0.000
Pureza de jugo
0.070
0.000
Fibra en caña
0.067
0.000
Jugo en caña
0.070
0.000
Pol en caña
0.015
0.000
La prueba de Kolmogorov-Smirnov para verificar la normalidad muestra que no cumple para todas las variables
examinadas. Todos los valores de significancia son menores al nivel crítico de 0.05. En consecuencia, brix en
jugo, Pol en jugo, no Pol en jugo, pureza de jugo, fibra en caña, jugo en caña y Pol de caña difieren
significativamente de la normalidad. En cuanto al análisis estadístico posterior, los hallazgos tienen una influencia
significativa: la falta de normalidad significa que no deben utilizarse métodos paramétricos de correlación lineal.
En este caso, los métodos no paramétricos son más adecuados para estos datos. Por lo tanto, se optó por
métodos no paramétricos, dado que no son distribuciones normales.
b) Análisis de correlación
Dado que las distribuciones no son normales, se optó por emplear métodos estadísticos no paramétricos para
analizar la correlación entre estas variables. En lugar de utilizar coeficientes de correlación como el de Pearson,
porque asume normalidad en los datos, como alternativa, se utilizó el coeficiente de correlación de Spearman y
el coeficiente de correlación de Kendall. Ambos métodos poseen supuestos más relajantes y son más aptos
para evaluar las relaciones en los datos ordinales o no distribuidos normalmente.
La interpretación de la tabla de correlaciones no paramétricas indica que Pol en jugo presenta la correlación
más fuerte con Pol en caña, tiene el mejor valor frente a las demás variables analizadas. Aunque brix en jugo
también muestra una correlación notable, es Pol en jugo la que demuestra un vínculo más robusto, lo que
sugiere que puede servir como un predictor de aumento de Pol en caña.
Tabla 3
Coeficientes de correlación no paramétricas
Descripción
Pol en caña
Tau b de Kendall
Significancia p Valor
Rho de Spearman
Significancia p Valor
Brix en jugo
0.67**
0.00
0.85**
0.00
Pol en jugo
0.85**
0.00
0.96**
0.00
No Pol en jugo
-0.13**
0.00
-0.19**
0.00
Pureza jugo
0.38**
0.00
0.53**
0.00
Fibra en caña
-0.05**
0.00
-0.08**
0.00
Jugo en caña
0.06**
0.00
0.08**
0.00
Nota. ** La correlación es significativa en el nivel 0.01 (bilateral)
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
43
Este hallazgo subraya la relevancia de Pol en jugo en los análisis de calidad de la caña de azúcar y sugiere que,
para optimizar el rendimiento en la industria azucarera, es crucial prestar especial atención a esta variable. En
comparación, aunque brix en jugo aporta información valiosa, su valoración, aunque positiva, es menos fuerte
que la observada con Pol en jugo.
Las correlaciones analizadas son significativas, ya que los valores de p obtenidos son iguales a 0.00. Esto
significa que hay suficiente evidencia para afirmar que las relaciones entre las variables independientes y la
variable dependiente Pol en caña no son producto del azar, sino patrones consistentes en los datos. Aunque
todas son estadísticamente relevantes, la intensidad de cada variación varía, pero destacan las más altas como
las de mayor importancia para el estudio.
En el contexto de la tabla analizada, aunque ambas correlaciones revelan relaciones fuertes entre Pol en jugo y
Pol en caña, la clasificación de Spearman proporciona valores más altos en términos absolutos. Esto sugiere
que, aunque ambas correlaciones indican una relación significativa, la evaluación de Spearman podría
interpretarse como más optimista, pues refleja una mayor asociación en el contexto de los datos analizados. Sin
embargo, si se considera la robustez en presencia de potenciales valores atípicos y la estabilidad en muestras
más pequeñas, la clasificación de Kendall podría considerarse más confiable.
Si se prioriza la robustez y la resistencia a influencias externas, la clasificación de Kendall es la opción preferida.
Sin embargo, si se busca interpretar la fuerza de la relación entre los dos en términos absolutos, la magnitud
de Spearman parecería más fuerte. La elección entre los dos debe basarse en los datos y los objetivos del
análisis ya que resalta hacia la importancia de interpretar estas correlaciones no solo en función de los números,
sino también de las características de la muestra y la naturaleza de los datos.
c) Análisis de regresión lineal múltiple
Se utilizó el método de mínimos cuadrados para el análisis de regresión lineal múltiple. Aunque la distribución
de las variables no es normal, pero el tamaño de la muestra es lo suficientemente grande con 23,470 datos para
cada distribución, se puede confiar en el teorema del límite central porque a medida que el tamaño de la muestra
aumenta, la distribución de las medias muestrales tiende a ser normal, lo que permite el uso de técnicas de
inferencia estadística como la regresión lineal y las pruebas t sin respetar el supuesto de normalidad (Lumley et
al., 2002). En el contexto de muestras grandes, el supuesto de normalidad de los errores de regresión lineal
se vuelve menos importante debido al teorema del límite central (Schmidt & Finan, 2018).
Tabla 4
Resumen del modelo
Modelo
R
R cuadrado
R cuadrado ajustado
Error estándar de la estimación
Durbin-Watson
1
0.985
a
0.970
0.970
0.28561
0.506
Nota.
a.
Predictores: (Constante), Jugo caña, Pol jugo, No Pol jugo, Fibra caña, Pureza jugo.
b.
Variable dependiente: Pol caña.
La tabla 4 revela información muy importante. La correlación múltiple entre las variables independientes y la
variable dependiente, Pol en caña es de 0.985. Es una correlación muy fuerte entre las variables predictoras y
la variable dependiente, por lo tanto, el modelo explica bien la variación en la variable dependiente. El coeficiente
de determinación es de 0.97 esto significa que el porcentaje de la variación en Pol en caña que es explicado
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
44
por las variables independiente, es decir, el 97% de la variación en Pol en caña es explicado por el conjunto de
variables independientes, por lo que es un ajuste excelente. Se puede utilizar el modelo muy confiadamente
para predecir la Pol en caña.
Es importante mencionar que el R cuadrado ajustado es una versión ajustada del coeficiente de determinación
que tiene en cuenta el número de variables en el modelo y el tamaño de la muestra, esto ayuda a evitar una
sobreestimación de la varianza explicada, el valor de 0.97 es igual al coeficiente de determinación, por lo tanto,
el modelo es sólido y la utilización de las variables independientes está bien justificada. El error estándar de la
estimación con un valor de 0.28561 indica la desviación estándar de los residuos del modelo (significa, la
diferencia entre los valores observados y los valores predichos de la Pol en caña). Este error estándar sugiere
que, en promedio, las predicciones del modelo se desvían en esa cantidad de los valores reales de la Pol en
caña. Como el error estándar es pequeño, las predicciones son bastante que se realicen son el modelo son muy
precisas.
Tabla 5
Modelo de regresión lineal múltiple
Coeficientes no
estandarizados
Coeficientes
estandarizados
95.0% intervalo de
confianza para B
Correlaciones
Modelo
B
Desv.
Error
Beta
t
Sig
Límite
inferior
Límite
superior
Orden
cero
Parcial
Parte
(Constante)
5.386
0.333
16.188
.000
4.734
6.038
Pol en jugo
0.800
0.003
0.987
294.995
.000
0.794
0.805
0.964
0.887
0.333
No Pol en
jugo
-0.078
0.014
-0.040
-5.632
.000
-.105
-.051
-0.196
-0.037
-
0.006
Pureza de
jugo
-0.772
0.309
-0.020
-2.498
.012
-1.377
-.166
0.541
-0.016
-
0.003
Fibra en
caña
-0.254
0.004
-0.213
-66.919
.000
-.261
-.247
-0.113
-0.400
-
0.076
Jugo en
caña
-0.011
0.002
-.0017
-5.292
.000
-.015
-.007
0.123
-0.035
-
0.006
Nota.
a.
Variable dependiente: Pol en caña.
En la tabla anterior se puede apreciar los resultados del modelo de regresión múltiple, la relación entre variables
independientes y variable dependiente y presenta la significancia estadística de los efectos. Se encuentran las
variables explicativas que son Pol en jugo, no Pol en jugo, pureza de jugo, fibra en caña y jugo en caña. La Pol
en jugo tiene un coeficiente de 0.80 esto significa que tiene un efecto positivo significativo sobre la variable
dependiente Pol en caña, el coeficiente estandarizado Beta de 0.987 sugiere un impacto fuerte y positivo y el
valor t es de 294.995, con una significancia de 0.000 debe interpretarse que este coeficiente es altamente
significativo. La no Pol en jugo tiene un coeficiente de -0.078, por lo que tiene un efecto negativo sobre la
variable dependiente, el coeficiente estandarizado Beta de -0.040 es pequeño, con un impacto es débil, sin
embargo, el valor t de -5.632 y la significancia de 0.000 muestran significancia estadística
La pureza de jugo tiene un coeficiente de -0.772, esto indica un efecto negativo sobre la variable dependiente,
el coeficiente estandarizado Beta de -0.020 brinda un impacto relativamente pequeño, con un valor t de -2.498
y una significancia de 0.012. La fibra en caña presenta un coeficiente de -0.254 esta variable impacta
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
45
negativamente y muy fuerte sobre la variable dependiente, con un coeficiente estandarizado Beta de -0.213 y
un valor t muy alto de -66.919, con una significancia de 0.000, esto significa que la fibra de caña tiene un efecto
importante y negativo, es decir a medida que aumenta la fibra en caña, disminuye la Pol en caña. el jugo en
caña con un coeficiente de -0.011 presenta un efecto negativo muy pequeño, el coeficiente estandarizado Beta
de -0.017 dice que la relación es débil, pero el valor t de -5.292 y la significancia de 0.000 indican que este
efecto tiene significancia estadística. El valor p indica que todas las variables son estadísticamente significativas,
ya que sus valores están por debajo de 0.05, lo que sugiere que todas las variables contribuyen de manera
significativa al modelo.
Los intervalos de confianza para los coeficientes B no son iguales a cero, lo que refuerza la idea de que todos
los efectos de las variables independientes son significativos. La correlación de orden cero, muestra la relación
directa entre cada variable independiente y la variable dependiente sin considerar el efecto de otras variables.
En este caso, Pol en jugo tiene la elevación más alta con un valor de 0.964, e indica una fuerte relación positiva
inicial con la Pol en caña. Las demás variables muestran correlaciones menores o negativas. La correlación
parcial refleja la relación entre cada variable independiente y la variable dependiente después de controlar las
otras variables. Aquí, Pol en jugo sigue siendo la variable con una correlación positiva más fuerte 0.887, incluso
al considerar el impacto de otras variables. La fibra en caña también muestra una relación significativa, aunque
negativa con un valor de -0.400, significa que su efecto sigue siendo relevante y debe ser tomado en cuenta. Y
la correlación de parte representa la relación única de cada variable independiente con la variable dependiente,
que aísla el efecto que cada una aporta de forma exclusiva. Nuevamente, la Pol en jugo muestra el valor más
alto 0.333, seguido por fibra en caña -0.076, lo que confirma que estas dos variables contribuyen más de forma
individual al modelo.
Tabla 6
Análisis de varianza
Modelo
Suma de cuadrados
gl
Media cuadrática
F
Sig.
Regresión
61936.701
5
12387.340
151851.793
.000
b
Residuo
1914.080
23464
.082
Total
63850.782
23469
Nota.
a.
Variable dependiente: Pol caña.
b.
Predictores: (Constante), jugo en caña, Pol en jugo, no Pol en jugo, fibra en caña, pureza en jugo.
El valor de F en el análisis de varianza sugiere que el modelo de regresión múltiple explica significativamente
más la variabilidad de la variable dependiente en comparación con lo que sería esperado por azar. Este valor es
una medida de la efectividad global del modelo para predecir la variable dependiente. Es decir, el modelo es
muy adecuado para explicar las relaciones entre las variables independientes y la variable dependiente. La
significancia con valor de 0.000 indica que el valor de p es inferior a 0.05, y esto significa que el modelo es
estadísticamente significativo, quiere decir, al menos una de las variables independientes tiene una relación
significativa con la variable dependiente. Entonces se debe rechazar la hipótesis nula, que establece que todas
las variables predictoras no tienen efecto en la variable dependiente.
Al analizar el modelo de regresión lineal múltiple, respecto a la teoría azucarera, solo las variables independientes
de Pol en jugo y fibra en caña tienen un comportamiento lógico con fundamento científico, pues a medida que
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
46
aumenta la Pol en jugo debe aumentar la Pol en caña y a medida que aumenta la Pol en caña, disminuye la fibra
en caña (Eggleston, 2002). Bajo ese concepto, entonces se corrió nuevamente el modelo con las variables antes
mencionadas y se obtuvieron los siguientes resultados.
Tabla 7
Modelo de regresión lineal múltiple, Pol en jugo y fibra en caña para Pol en caña
Coeficientes no
estandarizados
Coeficientes
estandarizados
95.0% intervalo de
confianza para B
Correlaciones
Modelo
B
Desv.
Error
Beta
t
Sig
Límite
inferior
Límite
superior
Orden
cero
Parcial
Parte
(Constante)
3.642
0.023
155.933
.000
3.597
3.688
Pol en jugo
0.800
0.001
0.982
857.678
.000
0.794
0.798
0.964
0.948
0.992
Fibra en
caña
-0.242
0.001
-0.203
-177.11
.000
-.245
-.239
-0.113
-0.756
0.992
Nota.
a.
Variable dependiente: Pol en caña.
Comparamos los dos modelos de regresión lineal múltiple (tablas 5 y 7) para identificar la mejor estructura
predictiva para la variable dependiente Pol en caña. El primer modelo considera cinco variables predictoras: Pol
en jugo, no Pol en jugo, pureza de jugo, fibra en caña y jugo en caña, de las cuales Pol en jugo y fibra en caña
son las variables más influyentes por su significancia estadística y altos valores de Beta estandarizado 0.987 y -
0.213, respectivamente, presentan una considerable relevancia en la explicación de Pol en caña. Sin embargo,
las otras tres variables muestran coeficientes y correlaciones de menor magnitud, que sugieren un impacto
menor en el modelo, por lo que se omitieron para calcular un segundo modelo.
En la tabla 7 observamos el segundo modelo más sencillo pues solo incluye las variables Pol en jugo y fibra en
caña, que conservan sus coeficientes y significancia estadística observados en el primer modelo con valores
Beta de 0.982 para Pol en jugo y -0.203 para fibra en caña, lo que confirma su influencia significativa en la
variable dependiente. Además, las correlaciones parciales de estas variables son superiores en el segundo
modelo con valores de 0.948 para Pol en jugo y -0.756 para fibra en caña y esto significa una mayor capacidad
explicativa sin la necesidad de incorporar variables adicionales.
En función de estos análisis, el segundo modelo se presenta como la opción más robusta y confiable, ya que
permite una interpretación más directa y eficaz al capturar la variabilidad esencial de la Pol en caña mediante un
menor conjunto variables predictoras. El segundo modelo es simple y facilita su utilización sin poner en riesgo
la precisión estadística, lo que lo convierte en la mejor alternativa para la predicción.
Tabla 8
Análisis de varianza para el nuevo modelo
Modelo
Suma de cuadrados
gl
Media cuadrática
F
Sig.
Regresión
61902.168
2
372741.519
372741.519
.000
b
Residuo
1948.613
23467
.083
Total
63850.782
23469
Nota.
a.
Variable dependiente: Pol caña.
b.
Predictores: (Constante), Pol jugo y Fibra caña.
Rev. Ciencia Agraria
Vol. 3. Núm.
2 (2024) págs.
38-51
Determinación de un modelo de regresión lineal múltiple para la predicción de Pol en la caña de azúcar (Saccharum
officinarum)
Flavio Reyes; Estuardo Monroy
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
47
El análisis de la varianza del segundo modelo de regresión lineal múltiple confirma la efectividad en la predicción
de la variable dependiente Pol en caña, al considerar el valor F y con significancia estadística
d) Modelo predictivo
El segundo modelo, con su elevado valor F en análisis de varianza y su simplicidad en el número de predictores,
se presenta como el más eficiente