Нужно
Не откликайтесь, пожалуйста, уже выбрал исполнителя!
Имеются аудиофайлы (интервью, разговоры), общая длина около 2 часов.
Уже есть расшифровка (текст) и разметка по дикторам.
Необходимо привести к нужному жесткому формату:
1. Разметить по времени (начало и конец каждого сегмента).
2. Проверить расшифровку, исправить попавшиеся ошибки.
3. Привести формат текста в соответствие с Требованиями (см ниже).
Ниже будут требования к результату (они для транскрибации, но сейчас у вас будет текст, так что не придется именно транскрибировать, только привести к нужному формату).
Пример результата:
D1 0:0:13.6 0:0:14.8 угу
D2 0:0:14.9 0:0:15.8 алло
D1 0:0:17.3 0:0:19.7 да здравствуйте %Виктор Это %Женя из %НазваниеИздания
D2 0:0:16.3 0:0:17.2 слушаю да
D2 0:0:20.1 0:0:21.4 да здравствуйте, %Женя.
D1 0:0:21.4 0:0:22.7 ага удобно вам сейчас говорить
D2 0:0:22.9 0:0:24.6 да я слушаю я ждал звонка
D1 0:0:24.6 0:0:28.9 ну я хотела попросить вас рассказать немного про %ФамилияЧеловека
---------------
То есть указывается диктор, время начала и конца сегмента (не более 15 сек), затем строка.
Разделять знаком табуляции.
Желательно в блокнотовский .txt файл, но можно и в ворде.
Формат времени: ЧЧ:ММ:СС.С
Требования:
1. Временная разметка должна быть выполнена с точностью 0.1 секунды
2. Если слово неразборчиво - вместо него писать <unk>. Если четко слышно, что слова два, но их не разобрать - писать <unk> <unk>. ВНИМАНИЕ: <unk> должно быть не более 1% от количества расшифрованных слов.
3. Писать букву ё, не заменять на е
4. Проверять орфографию, например в Word, исправить опечатки перед сдачей работы
5. Писать только речь. Звуки разные не нужны (вроде хлопков, щелчков, стука и тд)
6. Имена собственные, топонимы и прочие названия обозначать знаком %
%Иван %Петрович работает в %Сбербанке в городе %Москва
7. Аббревиатуры писать большими буквами и обозначать знаком *
%Иван %Петрович был *КВНщиком когда учился в *МГУ
8. Знаки препинания не нужны, совсем. Даже те, что разделяют предложения. Но если вам удобнее - пишите, они не помешают
9. Маты писать
10. Слова "ваще", "чо" и т.п. писать литературно - "вообще", "что"
11. Междометия писать. По две буквы, если тянется звук:
ээ уф уу аа ах
12. Числительные писать прописью, в той форме, в которой звучат:
в тысяча девятьсот девяносто девятом году
13. Большие буквы не нужны
Рекомендации по выбору ПО для транскрибации:
1. Sony Vegas
2. Adobe Audition (есть триал-версия бесплатная)
3. https://std.metu.edu.tr/en/exmaralda/
4. http://trans.sourceforge.net/en/presentation.php
Вот ссылка для установки:
https://sourceforge.net/projects/trans/files/transcriber/1.5.1/Transcriber-1.5.1-Windows.exe/download