Нужно
Имееются три аудиозаписи.
Необходимо расшифровать в текст с указанием временных отрезков сегментов и дикторов.
Суммарная продолжительность 49 мин.
29 мин файл сложнее, остальное попроще.
Шумы есть, можете попробовать программно их убрать.
Хорошая новость такая:
Если не слышно или ничего нет - фрагмент пропускается и игнорируется. То есть не стоит задачи полностью транскрибировать речь. Только то, что возможно нужно выжать. Сохранить смысл не требуется совершенно!
Пример:
D1 0:13.6 0:14.8 угу
D2 0:14.9 0:15.8 алло
D1 0:17.3 0:19.7 да здравствуйте %Виктор Это %Женя из %НазваниеИздания
D2 0:16.3 0:17.2 слушаю да
D2 0:20.1 0:21.4 да здравствуйте, %Женя.
D1 0:21.4 0:22.7 ага удобно вам сейчас говорить
D2 0:22.9 0:24.6 да я слушаю я ждал звонка
D1 0:24.6 0:28.9 ну я хотела попросить вас рассказать немного про %ФамилияЧеловека
D2 0:29.3 0:30.9 а про её
---------------
То есть указывается диктор, время начала и конца сегмента (не более 15 сек), затем строка.
Разделять знаком табуляции.
Желательно в блокнотовский .txt файл, но можно и в ворде.
формат времени как указано, но если вам удобно другой - без проблем (многие пишут время в квадратных скобках - не проблема).
Особенности:
1) Имена собственные, топонимы и прочие названия обозначать знаком %
%Иван %Петрович работает в %Сбербанке в городе %Москва
2) Аббревиатуры писать большими буквами и обозначать знаком *
%Иван %Петрович был *КВНщиком когда учился в *МГУ
3) Знаки препинания не нужны, совсем. Даже те, что разделяют предложения. Но если вам удобнее - пишите, они не помешают
4) Если слово неразборчиво - вместо него писать <unk>. Если четко слышно, что слова два, но их не разобрать - писать <unk> <unk>.
5) Маты писать
6) Слова "ваще", "чо" и т.п. писать литературно - "вообще", "что"
7) Междометия писать. По две буквы, если тянется звук:
ээ уф уу аа ах
8) Числительные писать прописью, в той форме, в которой звучат:
в тысяча девятьсот девяносто девятом году
9) Писать букву ё, не заменять на е
10) Большие буквы не нужны