网创优客建站品牌官网
为成都网站建设公司企业提供高品质网站建设
热线:028-86922220
成都专业网站建设公司

定制建站费用3500元

符合中小企业对网站设计、功能常规化式的企业展示型网站建设

成都品牌网站建设

品牌网站建设费用6000元

本套餐主要针对企业品牌型网站、中高端设计、前端互动体验...

成都商城网站建设

商城网站建设费用8000元

商城网站建设因基本功能的需求不同费用上面也有很大的差别...

成都微信网站建设

手机微信网站建站3000元

手机微信网站开发、微信官网、微信商城网站...

建站知识

当前位置:首页 > 建站知识

声纹识别kaldicallhomediarization怎么实现

这篇文章主要介绍“声纹识别kaldi callhome diarization怎么实现”,在日常操作中,相信很多人在声纹识别kaldi callhome diarization怎么实现问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”声纹识别kaldi callhome diarization怎么实现”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

十余年的康马网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。营销型网站的优势是能够根据用户设备显示端的尺寸不同,自动调整康马建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。成都创新互联从事“康马网站设计”,“康马网站推广”以来,每个客户项目都认真落实执行。

callhome diarization kaldi 中专门用来进行混合录音文件聚类分别的

学会自己看kaldi中的 指令demo。

个人操作如下:

teps/segmentation/detect_speech_activity.sh --cmd 'run.pl' --nj 1 --mfcc-config ./conf/mfcc_hires.conf --extra-left-context 79 --extra-right-context 21 --extra-left-context-initial 0 --extra-right-context-final 0 --frames-per-chunk 150 data/ljj exp/segmentation_1a/tdnn_stats_asr_sad_1a exp/mfcc_hires exp/segmentation_sad_snr/nnet_tdnn_j_ljj data/ljj
 
steps/make_mfcc.sh --mfcc-config conf/mfcc.conf --nj 1 --cmd "run.pl" --write-utt2num-frames true data/ljj_seg exp/make_mfcc mfcc 

utils/fix_data_dir.sh data/ljj_seg
 
 #  倒谱均值方差归一化(CMVN)  
 local/nnet3/xvector/prepare_feats.sh --nj 1 --cmd "run.pl" data/ljj_seg data/ljj_seg_cmn exp/ljj_seg_cmn
 
 cp data/ljj_seg/segments data/ljj_seg_cmn/
 
 utils/fix_data_dir.sh data/ljj_seg_cmn
 
 diarization/nnet3/xvector/extract_xvectors.sh --cmd "run.pl"  --nj 1 --window 1.5 --period 0.75 --apply-cmn false --min-segment 0.5 exp/xvector_nnet_1a  data/ljj_seg_cmn exp/xvectors_ljj_seg
 
 diarization/nnet3/xvector/score_plda.sh --cmd "run.pl --mem 4G" --nj 1 --target-energy 0.9  exp/xvector_nnet_1a/xvectors_callhome1 exp/xvectors_ljj_seg exp/xvectors_ljj_seg/plda_scores
 
 diarization/cluster.sh --cmd "run.pl --mem 4G" --nj 1 --reco2num-spk data/ljj_seg/reco2num_spk exp/xvectors_ljj_seg/plda_scores exp/xvectors_ljj_seg/plda_scores_num_speakers
 #  如果知道有多少人说话 则需要生成 --reco2num-spk data/ljj_seg/reco2num_spk
 
 diarization/cluster.sh --cmd "run.pl --mem 4G" --nj 1 --threshold 0 exp/xvectors_ljj_seg/plda_scores exp/xvectors_ljj_seg/plda_scores_threshold_0
 
 
 第二列是文件名,第三列是开始时间,第四列是移动时间 第五列是 从移动时间开始 多少时间算一份  第八列是文件的label
如下是 已知文件有几个人说话的时候
SPEAKER 18642259056-liujinjie.wav 0   0.000   4.510   1  
SPEAKER 18642259056-liujinjie.wav 0   4.530   1.660   2  
SPEAKER 18642259056-liujinjie.wav 0   6.210   4.880   2  
SPEAKER 18642259056-liujinjie.wav 0  11.090   1.660   1  
SPEAKER 18642259056-liujinjie.wav 0  12.800   2.130   1  
SPEAKER 18642259056-liujinjie.wav 0  14.950   4.400   2  
SPEAKER 18642259056-liujinjie.wav 0  19.390   1.810   2  
SPEAKER 18642259056-liujinjie.wav 0  21.220   5.220   2  
SPEAKER 18642259056-liujinjie.wav 0  26.440   4.410   1  
SPEAKER 18642259056-liujinjie.wav 0  30.850   2.480   2  
SPEAKER 18642259056-liujinjie.wav 0  33.340   5.120   2  
SPEAKER 18642259056-liujinjie.wav 0  38.460   5.990   1  
SPEAKER 18642259056-liujinjie.wav 0  44.480   3.910   1  
SPEAKER 18642259056-liujinjie.wav 0  48.460   3.460   1  
SPEAKER 18642259056-liujinjie.wav 0  52.060   5.420   1  
SPEAKER 18642259056-liujinjie.wav 0  57.530   5.030   1  


如下是 不知文件有几个人说话的时候
SPEAKER 18642259056-liujinjie.wav 0   0.000   4.510   1  
SPEAKER 18642259056-liujinjie.wav 0   4.530   1.660   3  
SPEAKER 18642259056-liujinjie.wav 0   6.210   4.880   2  
SPEAKER 18642259056-liujinjie.wav 0  11.090   1.660   1  
SPEAKER 18642259056-liujinjie.wav 0  12.800   2.130   1  
SPEAKER 18642259056-liujinjie.wav 0  14.950   4.400   2  
SPEAKER 18642259056-liujinjie.wav 0  19.390   1.810   2  
SPEAKER 18642259056-liujinjie.wav 0  21.220   5.220   2  
SPEAKER 18642259056-liujinjie.wav 0  26.440   4.410   1  
SPEAKER 18642259056-liujinjie.wav 0  30.850   2.480   2  
SPEAKER 18642259056-liujinjie.wav 0  33.340   5.120   2  
SPEAKER 18642259056-liujinjie.wav 0  38.460   5.990   1  
SPEAKER 18642259056-liujinjie.wav 0  44.480   3.910   1  
SPEAKER 18642259056-liujinjie.wav 0  48.460   3.460   1  
SPEAKER 18642259056-liujinjie.wav 0  52.060   5.420   1  
SPEAKER 18642259056-liujinjie.wav 0  57.530   5.030   1  
 
接下来就是 用pydub 进行语音片段的拼接了

到此,关于“声纹识别kaldi callhome diarization怎么实现”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!


当前标题:声纹识别kaldicallhomediarization怎么实现
文章路径:http://bjjierui.cn/article/gejods.html

其他资讯