Выдается ошибка ValueError "Эта модель не была собрана" ... для извлечения функций аудиоспектрограммы CNN

ProgramBox

Выдается ошибка ValueError «Эта модель не была собрана» … для извлечения функций аудиоспектрограммы CNN

Post author:admin
Запись опубликована:15 ноября, 2022
Post category:Вопросы по программированию

#python #tensorflow #machine-learning #audio #spectrogram

#питон #тензорный поток #машинное обучение #Аудио #спектрограмма

Вопрос:

В приведенном ниже коде я получаю сообщение об ошибке:

raise ValueError('This model has not yet been built. ' ValueError: This model has not yet been built. Build the model first by calling ``build()`` or calling ``fit()`` with some data, or specify an ``input_shape`` argument in the first layer(s) for automatic build.

Я пытаюсь использовать спектрограмму вместо извлечения признаков Mel для этого CNN. Я думаю, что ошибка может быть в процессе извлечения для этого extract_features шага.

Мы будем очень признательны за любую помощь в выяснении источника этой ошибки.

Вот некоторые размеры массивов, сгенерированных до ошибки:

x_test = {ndarray:(353,128)}
x_train = {ndarray:(1408,128)}
y = {ndarray:(1761,)}
y_test = {ndarray:(353,10)}
y_ttrain = {ndarray:(1408,10)}

код

 # Sample rate conversion
import librosa
import librosa.display
from scipy.io import wavfile as wav
import numpy as np
import pandas as pd
import os

import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()

max_pad_len = 174
n_mels = 128

def extract_features(file_name):
    try:
        audio, sample_rate = librosa.core.load(file_name, res_type='kaiser_fast')
        mely = librosa.feature.melspectrogram(y=audio, sr=sample_rate, n_mels=n_mels)
        # pad_width = max_pad_len - mely.shape[1]
        # mely = np.pad(mely, pad_width=((0, 0), (0, pad_width)), mode='constant')
        melyscaled = np.mean(mely.T, axis=0)

    except Exception as e:
        print("Error encountered while parsing file: ", file_name)
        return None

    return melyscaled

features = []

# Iterate through each sound file and extract the features

from time import sleep

#from tqdm import tqdm
from alive_progress import alive_bar
items = len(metadata.index)
with alive_bar(items) as bar:
    for index, row in metadata.iterrows():
            bar()
            file_name = os.path.join(os.path.abspath(fulldatasetpath), 'fold'   str(row["fold"])   '/',
                                     str(row["slice_file_name"]))

            class_label = row["class_name"]
            data = extract_features(file_name)

            features.append([data, class_label])

# Convert into a Panda dataframe
featuresdf = pd.DataFrame(features, columns=['feature', 'class_label'])

print('Finished feature extraction from ', len(featuresdf), ' files')

from sklearn.preprocessing import LabelEncoder
from keras.utils import to_categorical

# Convert features and corresponding classification labels into numpy arrays
X = np.array(featuresdf.feature.tolist())
y = np.array(featuresdf.class_label.tolist())

# Encode the classification labels
le = LabelEncoder()
yy = to_categorical(le.fit_transform(y))

# split the dataset
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(X, yy, test_size=0.2, random_state = 42)

### Convolutional Neural Network (CNN) model architecture
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Convolution2D, Conv2D, MaxPooling2D, GlobalAveragePooling2D
from keras.optimizers import Adam
from keras.utils import np_utils
from sklearn import metrics

num_rows = 40
num_columns = 174
num_channels = 1
#
#x_train = x_train.reshape(x_train.shape[0], num_rows, num_columns, num_channels)
#x_test = x_test.reshape(x_test.shape[0], num_rows, num_columns, num_channels)

num_labels = yy.shape[1]
filter_size = 2

# Construct model
model = Sequential()
#model.add(Conv2D(filters=16, kernel_size=2, input_shape=(num_rows, num_columns, num_channels), activation='relu'))
model.add(Conv2D(filters=16, kernel_size=2, activation='relu'))
model.add(MaxPooling2D(pool_size=2))
model.add(Dropout(0.2))

model.add(Conv2D(filters=32, kernel_size=2, activation='relu'))
model.add(MaxPooling2D(pool_size=2))
model.add(Dropout(0.2))

model.add(Conv2D(filters=64, kernel_size=2, activation='relu'))
model.add(MaxPooling2D(pool_size=2))
model.add(Dropout(0.2))

model.add(Conv2D(filters=128, kernel_size=2, activation='relu'))
model.add(MaxPooling2D(pool_size=2))
model.add(Dropout(0.2))
model.add(GlobalAveragePooling2D())

model.add(Dense(num_labels, activation='softmax'))

model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='adam')

# Display model architecture summary
model.summary()

Ответ №1:

Перед вызовом вы должны создать свою модель с помощью формы ввода model.summary() :

 model.build((128,))

1. Здравствуйте, спасибо за ваш ответ! Как вы пришли к 128? К вашему сведению, если я использую извлечение функций MFCC и включаю строки для x_train и x_test … и model.add(Conv2D(filters=16, kernel_size=2, input_shape=(num_rows, num_columns, num_channels), activation='relu')) , код работает. Можете ли вы дать несколько советов о том, почему это будет работать в случае MFCC?

2. @Joe 128 — это форма x_train. Я не работал с MFCC

3. Спасибо! Я пытался сравнить MFCC только со спектрограммой plots…to посмотрите, есть ли какие-либо улучшения / ухудшения. Я попробовал тот же процесс, который я использовал с MFCC для спектрограммы, но не смог заставить его работать. Спасибо за вашу помощь! Я дам вам знать, если ваше предложение сработает.

4. Здравствуйте, теперь я получаю сообщение об ошибке ValueError: Input 0 of layer conv2d is incompatible with the layer: : expected min_ndim=4, found ndim=1. Full shape received: [128]

5. @Joe да, ваша форма x_train не привязана к модели. Он должен быть 4-мерным