Нет модуля с именем «numpy.core._multiarray_umath»**

#amazon-web-services #amazon-emr #amazon-eks

Вопрос:

Мы используем emr-5.26.0 для запуска задания spark в EMR, которое отлично работает в кластере EMR. Теперь мы решили использовать EMR на EKS с профилем fargate.. Текущая рабочая работа :

spark-отправка —кластер в режиме развертывания —драйвер-память 10g —исполнитель-память 10g —файлы «s3://stackoverflow1-analytics/nba/omnichannel/module/Pickle_3D_SD.sav,s3://stackoverflow1-analytics/nba/omnichannel/module/to_pickle_3D.py,s3://stackoverflow1-analytics/nba/omnichannel/config/rule_nba1.json» —конф «spark.yarn.dist.archives=s3://stackoverflow1-analytics/nba/omnichannel/module/libs.zip,s3://stackoverflow1-analytics/nba/omnichannel/module/app_bp_keras1.zip» —conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=python3.6 —py-файлы «app_bp_keras1.zip,либс.молния» s3://stackoverflow1-analytics/nba/omnichannel/module/wrapper3D_legacy.py —разделы 1000 —файл правил «rule_nba1.json»

но теперь мы переходим на EMR НА EKS, для этого я изменил задание, как показано ниже, чтобы запустить EMR на EKS :

  aws emr-containers start-job-run 
 --virtual-cluster-id ofw8xux19xom1s3tvfyy6y9jr 
 --name nbaTest 
 --execution-role-arn arn:aws:iam::307142429795:role/aws-a9006-glbl-00-d-rol-verso-shr-eks01 
 --release-label emr-6.2.0-latest 
 --job-driver '{"sparkSubmitJobDriver": {"entryPoint": "s3://stackoverflow1-analytics/nba/omnichannel/module/wrapper3D_legacy.py","sparkSubmitParameters": "--py-files s3://stackoverflow1-analytics/nba/omnichannel/module/libs.zip,s3://stackoverflow1-analytics/nba/omnichannel/module/app_bp_keras1.zip --conf spark.hadoop.fs.s3a.access.key=XXXXXXXXXXXXXXX --conf spark.hadoop.fs.s3a.secret.key=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX  --conf spark.executor.instances=2 --conf spark.executor.memory=10G --conf spark.executor.cores=2 --conf spark.driver.cores=2 --conf spark.submit.deployMode=cluster"}}' 
 --configuration-overrides '{"applicationConfiguration":[{"classification": "spark-defaults","properties": {"spark.sql.shuffle.partitions":"1000","spark.files":"s3://stackoverflow1-analytics/nba/omnichannel/module/Pickle_3D_SD.sav,s3://stackoverflow1-analytics/nba/omnichannel/module/to_pickle_3D.py,s3://stackoverflow1-analytics/nba/omnichannel/config/rule_nba1.json","spark.driver.memory": "10G","spark.dynamicAllocation.enabled":"true","spark.dynamicAllocation.shuffleTracking.enabled":"true","spark.dynamicAllocation.minExecutors":"2","spark.dynamicAllocation.maxExecutors":"100","spark.dynamicAllocation.initialExecutors":"5"}}], "monitoringConfiguration": {"cloudWatchMonitoringConfiguration": {"logGroupName": "EMROnEKS","logStreamNamePrefix": "nba_"}, "s3MonitoringConfiguration": {"logUri": "s3://stackoverflow1-analytics/emr-eks-logs/emr-eks-logs/gdt/"}}}'
                    
 I am running above job on emr-6.2.0-latest version as because Amazon EMR versions 5.32.0 and 6.2.0, you can deploy Amazon EMR on EKS.But my job is failing with below error..
                    
   T**raceback (most recent call last):
   File "/tmp/spark-6b1640d4-9d39-4397-a737-9c0e5d584ab0/libs.zip/numpy/core/__init__.py", line 40, in <module>
   File "/tmp/spark-6b1640d4-9d39-4397-a737-9c0e5d584ab0/libs.zip/numpy/core/multiarray.py", line 12, in <module>
   File "/tmp/spark-6b1640d4-9d39-4397-a737-9c0e5d584ab0/libs.zip/numpy/core/overrides.py", line 6, in <module>
   ModuleNotFoundError: No module named 'numpy.core._multiarray_umath'
                
  ImportError: 
                   
 **Original error was: No module named 'numpy.core._multiarray_umath'**
            
 

Я поговорил с командой поддержки AWS.Они подозревают, что в библиотеках могут возникнуть некоторые проблемы с зависимостями python в связи с изменением версии.
Буду признателен за любую помощь в решении этой проблемы..