OV - K-Means scalability acfl-O3-funroll 100000000 - Loops

MAQAO

options

Loops Index

1 loops have been discarded from the report because their coverage is lower than the threshold set by object_coverage_threshold (0.01%). It represents about 0.30% of the application. To include them, change the value of object_coverage_threshold in the experiment directory configuration file, then rerun the command with the additionnal parameter --force-static-analysis

▶Scalability Runs Description

Run run_1_thread	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 1
Run run_2_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 2
Run run_4_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 4
Run run_8_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 8
Run run_16_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 16
Run run_32_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 32
Run run_48_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 48
Run run_64_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 64
Run run_80_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 80
Run run_96_threads	Number processes: 1Number nodes: 1Run Command: <executable> input/100000000.in 1000 100000000 50 25MPI Command: Dataset: Run Directory: /home/fmusial/KMEANS_BenchmarksOMP_PROC_BIND: trueOMP_NUM_THREADS: 96

▶Filters

Loop id	Source Location	Source Function	Level	Exclusive Coverage run_1_thread (%)	Exclusive Coverage run_2_threads (%)	Exclusive Coverage run_4_threads (%)	Exclusive Coverage run_8_threads (%)	Exclusive Coverage run_16_threads (%)	Exclusive Coverage run_32_threads (%)	Exclusive Coverage run_48_threads (%)	Exclusive Coverage run_64_threads (%)	Exclusive Coverage run_80_threads (%)	Exclusive Coverage run_96_threads (%)	Inclusive Coverage run_1_thread (%)	Inclusive Coverage run_2_threads (%)	Inclusive Coverage run_4_threads (%)	Inclusive Coverage run_8_threads (%)	Inclusive Coverage run_16_threads (%)	Inclusive Coverage run_32_threads (%)	Inclusive Coverage run_48_threads (%)	Inclusive Coverage run_64_threads (%)	Inclusive Coverage run_80_threads (%)	Inclusive Coverage run_96_threads (%)	Max Exclusive Time Over Threads run_1_thread (s)	Max Exclusive Time Over Threads run_2_threads (s)	Max Exclusive Time Over Threads run_4_threads (s)	Max Exclusive Time Over Threads run_8_threads (s)	Max Exclusive Time Over Threads run_16_threads (s)	Max Exclusive Time Over Threads run_32_threads (s)	Max Exclusive Time Over Threads run_48_threads (s)	Max Exclusive Time Over Threads run_64_threads (s)	Max Exclusive Time Over Threads run_80_threads (s)	Max Exclusive Time Over Threads run_96_threads (s)	Max Inclusive Time Over Threads run_1_thread (s)	Max Inclusive Time Over Threads run_2_threads (s)	Max Inclusive Time Over Threads run_4_threads (s)	Max Inclusive Time Over Threads run_8_threads (s)	Max Inclusive Time Over Threads run_16_threads (s)	Max Inclusive Time Over Threads run_32_threads (s)	Max Inclusive Time Over Threads run_48_threads (s)	Max Inclusive Time Over Threads run_64_threads (s)	Max Inclusive Time Over Threads run_80_threads (s)	Max Inclusive Time Over Threads run_96_threads (s)	Exclusive Time w.r.t. Wall Time run_1_thread (s)	Exclusive Time w.r.t. Wall Time run_2_threads (s)	Exclusive Time w.r.t. Wall Time run_4_threads (s)	Exclusive Time w.r.t. Wall Time run_8_threads (s)	Exclusive Time w.r.t. Wall Time run_16_threads (s)	Exclusive Time w.r.t. Wall Time run_32_threads (s)	Exclusive Time w.r.t. Wall Time run_48_threads (s)	Exclusive Time w.r.t. Wall Time run_64_threads (s)	Exclusive Time w.r.t. Wall Time run_80_threads (s)	Exclusive Time w.r.t. Wall Time run_96_threads (s)	Inclusive Time w.r.t. Wall Time run_1_thread (s)	Inclusive Time w.r.t. Wall Time run_2_threads (s)	Inclusive Time w.r.t. Wall Time run_4_threads (s)	Inclusive Time w.r.t. Wall Time run_8_threads (s)	Inclusive Time w.r.t. Wall Time run_16_threads (s)	Inclusive Time w.r.t. Wall Time run_32_threads (s)	Inclusive Time w.r.t. Wall Time run_48_threads (s)	Inclusive Time w.r.t. Wall Time run_64_threads (s)	Inclusive Time w.r.t. Wall Time run_80_threads (s)	Inclusive Time w.r.t. Wall Time run_96_threads (s)	Nb Threads run_1_thread	Nb Threads run_2_threads	Nb Threads run_4_threads	Nb Threads run_8_threads	Nb Threads run_16_threads	Nb Threads run_32_threads	Nb Threads run_48_threads	Nb Threads run_64_threads	Nb Threads run_80_threads	Nb Threads run_96_threads	GFLOPS run_1_thread	GFLOPS run_2_threads	GFLOPS run_4_threads	GFLOPS run_8_threads	GFLOPS run_16_threads	GFLOPS run_32_threads	GFLOPS run_48_threads	GFLOPS run_64_threads	GFLOPS run_80_threads	GFLOPS run_96_threads	Vectorization Ratio (%)	Vector Length Use (%)	Speedup If No Scalar Integer	Speedup If FP Vectorized	Speedup If Fully Vectorized	Speedup If Perfect Load Balancing run_1_thread	Speedup If Perfect Load Balancing run_2_threads	Speedup If Perfect Load Balancing run_4_threads	Speedup If Perfect Load Balancing run_8_threads	Speedup If Perfect Load Balancing run_16_threads	Speedup If Perfect Load Balancing run_32_threads	Speedup If Perfect Load Balancing run_48_threads	Speedup If Perfect Load Balancing run_64_threads	Speedup If Perfect Load Balancing run_80_threads	Speedup If Perfect Load Balancing run_96_threads	Stride 0	Stride 1	Stride n	Stride Unknown	Stride Indirect	Array Access Efficiency	(run_1_thread) Efficiency	(run_1_thread) Potential Speed-Up (%)	(run_2_threads) Efficiency	(run_2_threads) Potential Speed-Up (%)	(run_4_threads) Efficiency	(run_4_threads) Potential Speed-Up (%)	(run_8_threads) Efficiency	(run_8_threads) Potential Speed-Up (%)	(run_16_threads) Efficiency	(run_16_threads) Potential Speed-Up (%)	(run_32_threads) Efficiency	(run_32_threads) Potential Speed-Up (%)	(run_48_threads) Efficiency	(run_48_threads) Potential Speed-Up (%)	(run_64_threads) Efficiency	(run_64_threads) Potential Speed-Up (%)	(run_80_threads) Efficiency	(run_80_threads) Potential Speed-Up (%)	(run_96_threads) Efficiency	(run_96_threads) Potential Speed-Up (%)
9	kmeans-acfl-O3-funroll - main.cpp:61-67	k_means(int, point_t, point_t, int, point_t, int, int) [clone .omp_outlined]	Innermost	91.93	88.89	82.81	73.16	59.82	43.25	34.14	27.92	23.78	21.06	91.93	88.89	82.81	73.16	59.82	43.25	34.14	27.92	23.78	21.06	105.78	54.03	26.80	13.75	6.97	3.49	2.39	1.76	1.43	1.26	105.78	54.03	26.80	13.75	6.97	3.49	2.39	1.76	1.43	1.26	105.78	55.45	29.19	16.01	8.88	4.90	3.48	2.66	2.22	1.92	105.78	55.45	29.19	16.01	8.88	4.90	3.48	2.66	2.22	1.92	1	2	4	8	16	32	48	64	80	96	7.02	13.42	25.51	46.51	83.87	151.90	214.27	279.79	335.59	387.47	10.8	53.13	1	1.53	1.48	1	1.01	1	1.02	1.03	1.03	1.05	1.04	1.05	1.08	1	1	0	0	0	100.00	1	0	0.95	4.11	0.91	7.78	0.83	12.75	0.74	15.27	0.67	14.06	0.63	12.49	0.62	10.57	0.6	9.6	0.57	8.99
7	kmeans-acfl-O3-funroll - main.cpp:81-84	k_means(int, point_t, point_t, int, point_t, int, int)	Innermost	6.83	6.39	6.00	5.31	4.30	3.10	2.42	1.99	1.71	1.48	6.83	6.39	6.00	5.31	4.30	3.10	2.42	1.99	1.71	1.48	7.86	7.68	7.73	7.81	7.78	7.76	7.76	7.73	7.85	7.84	7.86	7.68	7.73	7.81	7.78	7.76	7.76	7.73	7.85	7.84	7.86	3.99	2.11	1.16	0.64	0.35	0.25	0.19	0.16	0.13	7.86	3.99	2.11	1.16	0.64	0.35	0.25	0.19	0.16	0.13	1	1	1	1	1	1	1	1	1	1	0.64	1.25	2.37	4.31	7.83	14.24	20.26	26.34	31.39	37.04	11.11	52.78	1.42	1.31	1.58	1	1	1	1	1	1	1	1	1	1	1	1	0	0	3	40.00	1	0	0.98	0.1	0.93	0.43	0.85	0.82	0.77	1	0.7	0.93	0.66	0.82	0.65	0.7	0.62	0.66	0.61	0.58

×