연구활동

Livestock Environmental Lab

학술대회

퇴비화 과정 중 일별 암모니아 배출 예측을 위한 문헌 기반 기계학습 모델 개발
Author
박성준
Co-author
Riuh Wardhani, 안희권
Conference
냄새환경학회
Year
2026

퇴비화 과정 중 일별 암모니아 배출 예측을 위한 문헌 기반 기계학습 모델 개발

Development of a Literature-Based Machine Learning Model for Predicting Daily Ammonia Emissions during Composting

박성준1 · Riuh Wardhani2 · 안희권1,2,3*

1충남대학교 축산환경학과 석사과정

2충남대학교 낙농학과 박사과정

3충남대학교 동물바이오시스템과학과 교수

 

 

 

1. 서 론

퇴비화는 가축분뇨를 비롯한 유기성 고형폐기물의 안정화와 자원화를 위한 대표적인 처리 방법이다. 그러나 이 과정에서는 암모니아(NH3) 배출로 인한 질소 손실이 발생할 수 있으며, 이는 퇴비의 비료 가치를 저하시킬 뿐 아니라 악취를 유발하고 입자상 물질 형성 및 질소 침적과 같은 2차 환경부하를 초래할 수 있다. 따라서 퇴비화 과정에서의 NH3 배출을 정확하게 예측하는 것은 공정 관리와 양분 보전 측면에서 매우 중요하다. 하지만 NH3 배출은 원료 특성, 운전 조건, 시간 경과에 따른 공정 변화가 복합적으로 작용한 결과로 나타나기 때문에, 서로 다른 연구 결과를 포괄하는 일반화된 예측은 쉽지 않다. 특히 퇴비화 기간, 온도, 수분, 폭기, 첨가제와 같은 요인들은 미생물 활성과 암모니아화 및 휘산 과정에 영향을 주어 NH3 배출 양상을 더욱 복잡하게 만든다.

기존의 회귀분석은 이러한 반복측정형 퇴비화 데이터의 복잡한 상호작용을 충분히 설명하는 데 한계가 있다. 반면 기계학습은 비선형 관계와 다양한 형태의 변수를 함께 다룰 수 있어 유용한 대안이 될 수 있다. 그러나 문헌 기반 데이터에는 결측치, 불일치한 처리구 표기, 동일 실험 내 반복 측정값이 포함되어 있으므로, 모델 개발 시에는 예측 정확도뿐 아니라 일반화 가능성도 함께 고려해야 한다. 이에 본 연구에서는 문헌에서 수집한 일별 NH3 데이터를 활용하여 NH3 배출 예측용 기계학습 모델을 구축하고, 정확성과 일반화 성능을 함께 평가하고자 하였다.

2. 연구 방법

본 연구에서는 총 626개의 일별 NH3 자료를 수집하였으며, 이를 24개의 실험 시계열로 구성하였다. 품질 검토를 거친 뒤 620개 자료를 최종 분석에 사용하였고, 추정된 일자 자료 1, 극단치 1, 비정상적인 pH 값을 보인 4개 자료는 제외하였다. 예측 대상은 NH3_emission_g/kg_Initial TS로 표현된 일별 NH3 배출량이었다.

목표값 누설을 방지하기 위해 예측 시점에 확보 가능한 변수만 사용하였다. 이에 따라 누적 NH3 손실량, 총질소(TN) 손실량, 최고 온도 값, 고온 유지 일수, 최종 물질 특성과 같은 사후 정보는 제외하였다. 최종 입력 변수에는 퇴비화 일수, 송풍량, 초기 C/N , 초기 함수율, 일별 온도, pH, 출처 정보, 논문 제목, 처리구 정보가 포함되었다. 송풍량, 온도, pH의 결측치는 삭제하지 않고 중앙값으로 대체하였으며, 결측 여부를 별도 변수로 추가하여 정보 손실을 최소화하였다.

데이터 분할은 행 단위가 아니라 실험 단위로 수행하였다. , 동일 실험에서 얻어진 일별 자료가 학습용과 검증용에 동시에 포함되지 않도록 하였다. 고정 분할에서는 19개 실험(446개 자료)을 학습용, 5개 실험(174개 자료)을 검증용으로 사용하였으며, 원천 연구가 양쪽에 모두 포함되도록 구성하였다. 또한 일반화 성능을 보다 안정적으로 평가하기 위해 전체 실험을 대상으로 그룹 기반 5-fold 교차검증을 실시하였다.

비교한 회귀 알고리즘은 ridge regression, random forest, XGBoost, CatBoost, LightGBM이었다. 초기에는 처리구 정보를 one-hot encoding 방식으로 반영하였으나, 이후 새로운 처리구에 대한 일반화 성능

 

 

 

을 높이기 위해 처리구 라벨을 문자 n-gram 기반 특성으로 변환하였다. 출처와 논문 제목은 메타데이터로 인코딩하였고, 목표 변수는 변환 전 NH3 값과 log 변환값을 모두 검토하였다. 모델 평가는 R2, RMSE, MAE를 이용하였으며, 최종 해석에는 SHAP 분석을 적용하였다.

3. 결과 및 고찰

분석 결과, 처리구 정보를 어떻게 표현하느냐에 따라 모델 성능이 뚜렷하게 달라졌다. one-hot encoding을 적용한 기본 XGBoost 모델의 검증 R20.561이었으나, 출처와 제목 정보를 추가했을 때 0.708로 향상되었고, 처리구를 문자 n-gram 특성으로 바꾸자 0.761까지 증가하였다. 이는 모델 종류 자체보다 처리구 정보를 어떻게 구조화하느냐가 예측 성능에 더 큰 영향을 줄 수 있음을 보여준다.

최종적으로 가장 우수한 성능은 출처 및 제목 메타데이터, 문자 n-gram 처리구 특성, 결측 지시 변수, 그리고 log1p 변환 NH3를 사용한 LightGBM 모델에서 나타났다. 이 모델은 고정 검증에서 학습 R2 0.989, 검증 R2 0.853, 검증 RMSE 0.0513, 검증 MAE 0.0368을 기록하였다. 추가로 수행한 그룹 기반 5-fold 교차검증에서는 전체 R2 0.828, RMSE 0.0849, MAE 0.0509를 나타냈으며, foldR20.645~0.879 범위였다. 이는 실험별 편차는 있으나 전반적으로 안정적인 예측 성능을 확보했음을 의미한다.

한편, 하이퍼파라미터 최적화는 최종 성능 향상에 크게 기여하지 않았다. 일부 튜닝 모델은 기본 설정 모델보다 검증 성능이 오히려 낮았으며, 적극적인 이상치 제거와 수치 스케일링 역시 핵심 성능 요인은 아니었다. 이는 복잡한 파라미터 조정보다 적절한 변수 표현이 성능 개선에 더 중요했음을 시사한다.

SHAP 분석 결과, 주요 예측 변수는 처리구 관련 특성, 일별 온도, 퇴비화 일수, 초기 C/N , 폭기율 결측 여부였다. 이 가운데 직접 해석이 가능한 변수로는 온도와 퇴비화 일수의 영향이 가장 컸으며, 이는 NH3 휘산이 공정 단계, 미생물 활성, 열적 조건과 밀접하게 연관된다는 기존 이해와 일치한다. 초기 C/N 비 역시 중요한 변수로 나타나, 기질 조성이 질소 무기화와 휘산의 균형에 영향을 미침을 보여주었다. 또한 처리구 특성이 중요하게 나타난 것은 첨가제 종류와 운전 방식이 NH3 배출에 큰 영향을 준다는 점을 시사한다.

4. 결 론

본 연구는 엄격한 검증 전략과 적절한 처리구 표현 방식을 적용할 경우, 비교적 소규모의 문헌 기반 데이터셋으로도 일별 NH3 배출량을 양호한 정확도로 예측할 수 있음을 보여주었다. 특히 모델 종류 자체보다 처리구 정보를 어떻게 표현하느냐가 예측 성능 향상에 더 중요하게 작용하였으며, 최종적으로는 LightGBM 모델이 가장 우수한 성능을 나타냈다. 또한 온도, 퇴비화 일수,